首页 理论教育 学术文本词汇功能自动标注规则生成

学术文本词汇功能自动标注规则生成

时间:2023-11-20 理论教育 版权反馈
【摘要】:词汇功能标注数据集构建的关键在于研究问题词汇和研究方法词汇的自动识别,本书主要依靠生成的词汇功能标引规则,来实现对学术文献集合的功能性词汇标注。因此,本研究决定从原始文献中选取88 865篇“基于M的P”格式标题的文献的英文标题进行规则分析和词汇功能标注。通过这种方式就可以得到标题的组合形式,人工可以判断其中不同位置的“”是研究问题还是研究方法,加以区分得到词汇功能自动标注规则。

学术文本词汇功能自动标注规则生成

本书主要关注领域无关的学术文献词汇功能,尝试利用规则模板和信息标引技术,对科研文献的核心问题和核心方法进行标引,构建领域无关的学术文献词汇功能标注数据集。词汇功能标注数据集构建的关键在于研究问题词汇和研究方法词汇的自动识别,本书主要依靠生成的词汇功能标引规则,来实现对学术文献集合的功能性词汇标注。

首先,对所有文献的标题进行语法结构统计,发现以“基于M的P”结构组合的文献标题大量存在,占全部文献的28.9%;同时,可以发现“M”往往表示文献的核心研究方法,而“P”往往表示文献的核心研究问题,这为抽取学术文献的核心研究问题词汇和核心研究方法词汇提供了可能,具体例子见图7-2。进一步分析“基于M的P”形式的文献标题,发现标题中存在大量的中英文夹杂情况,例如,“替代计量学”在有的文献标题中以“Altmetrics”出现,而在有的文献中则以“补充计量学”或“altmetrics”等不同形式出现,而这几个形式表示的是一个含义。此外,虽然“基于M的P”这种结构的标题可以满足本书的研究需求,但是不同的作者中文表达方式不同,如“协同过滤”与“协同过滤推荐”表达的是同一含义。为了应对中英文夹杂以及一词多种表达的情况,本研究决定选用“基于M的P”格式的文献的英文标题中的研究主题词和研究问题词,理由如下:①母语为中文的学者在撰写英文标题时,倾向于选择更为常用和规范的英文词汇表达,这在一定程度上保证了问题词汇和方法词汇的标注准确性,并避免了一词多种表达的问题。②相较于中文,英文在分词、词干提取等方面存在一定的优势,有较为成熟的自然语言处理工具包。③“基于M的P”格式的学术文献的英文表达形式较为固定,可以通过统计的方式得到准确率较高的研究问题和研究方法组合形式,从而实现对问题词汇和方法词汇的自动标注。

因此,本研究决定从原始文献中选取88 865篇“基于M的P”格式标题的文献的英文标题进行规则分析和词汇功能标注。

图7-2 标题中包含研究问题及研究方法的例子

基于此,本书对每篇文献的英文标题进行大小写转换、分词、去符号和词干提取等预处理,将其表示为词序列title={t1,t2,t3,…,ti}的形式。将每篇文献的标题看做一个词形网格(word lattice),观察标题中连接研究问题和研究方法的词汇,在这些词形网格中,发现英文词汇“based on”“and”“research”(对应中文词汇中的“基于”“的”“研究”)等词汇是结构词,如图7-3所示,圆圈里面是结构词。在此基础上,本书构建了一个结构词词表StructureWords={s1,s2,s3,…,sj};利用计算机自动将title中的每个词与词表StructureWords中的一一对比,如果存在于词表则保留,如果不存在就用“<s>”代替,最后将多个“<s>”合并为一个。通过这种方式就可以得到标题的组合形式,人工可以判断其中不同位置的“<s>”是研究问题还是研究方法,加以区分得到词汇功能自动标注规则。表7-2是学术文献英文标题中最常见的组合形式和相应的人工判断得到的标引规则。

(www.xing528.com)

图7-3 文献标题的词形网格示意图

表7-2 学术文献论文的英文标题中最常见的组合形式

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈