首页 理论教育 学术文本词汇功能分析方法:抽取规则生成

学术文本词汇功能分析方法:抽取规则生成

时间:2023-11-20 理论教育 版权反馈
【摘要】:同时,为了避免标题中文分词的复杂性、中英文夹杂以及中文存在多种表达的情况,本研究从原始文献中选取了88 865篇“基于M的P”格式标题的文献的英文标题进行规则分析和词汇抽取。通过这种方式可以得到标题的组合形式,人工可以判断其中不同位置的“”是研究问题还是研究方法,并加以区分得到抽取规则,生成抽取器。表9-2是计算机领域科研文献英文标题中最常见的组合形式和相应的人工判断得到的抽取规则。

学术文本词汇功能分析方法:抽取规则生成

通过对论文中英文标题进行分析,统计发现“基于M的P”这种结构形式的标题大量存在,占文献总数的28.9%,而这种结构的标题往往可以明确地表示出文献的研究问题和研究方法,具体例子见图9-3。同时,为了避免标题中文分词的复杂性、中英文夹杂以及中文存在多种表达的情况,本研究从原始文献中选取了88 865篇“基于M的P”格式标题的文献的英文标题进行规则分析和词汇抽取。

图9-3 标题中包含研究问题及研究方法举例

经过大小写转换、分词、去符号和词干提取等预处理,将每篇文献的标题表示为词序列T={W1,W2,W3,…,Wi}的形式。通过观察标题中连接研究问题和研究方法的词汇,笔者构建了一个无意义词词表R={r1,r2,r3,…,rj};利用计算机自动将T中的每个词与词表R中的词对比,如果存在于词表则保留,如果不存在就用“<word>”代替,最后将多个“<word>”合并为一个。通过这种方式可以得到标题的组合形式,人工可以判断其中不同位置的“<word>”是研究问题还是研究方法,并加以区分得到抽取规则,生成抽取器。表9-2是计算机领域科研文献英文标题中最常见的组合形式和相应的人工判断得到的抽取规则。(www.xing528.com)

表9-2 计算机领域论文的英文标题中最常见的组合形式

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈