首页 理论教育 学术文本词汇功能分析:构建与应用

学术文本词汇功能分析:构建与应用

时间:2023-11-20 理论教育 版权反馈
【摘要】:但是,对于学术文献的词汇功能分类框架目前还尚未达成一致,学术文献的词汇功能自动标引、语义分类等基础性问题也还没有公认的结论,并且缺乏支持这些研究的公开标准化数据集[134-135]。这些研究虽然对学术文献词汇功能的自动标引和识别进行了一定探索,但是其数据规模都较小,识别准确率也较低。

学术文本词汇功能分析:构建与应用

在学术大数据时代,科研文献的数量急剧增加,使得科研工作者进行文献调研、掌握学科研究进展及研究脉络日益困难[131]。为了满足科研工作者的信息需求,文献检索、文献推荐、文献计量及文献可视化等相关研究开始得到越来越多的关注。然而,这些研究大多基于词袋模型[132]的方法对文档进行表示,却忽略了学术文献中词汇以及用户需求词汇的语义蕴含[133],导致其分析或匹配结果难以满足用户需求。随着计算机硬件自然语言处理技术的发展,学术文献的词汇功能研究开始被学术界关注,并取得了一定的成果。但是,对于学术文献的词汇功能分类框架目前还尚未达成一致,学术文献的词汇功能自动标引、语义分类等基础性问题也还没有公认的结论,并且缺乏支持这些研究的公开标准化数据集[134-135]。因此,构建可用于学术文献词汇功能分析的较大规模的标注数据集十分必要。

近年来,国内外相关学者对上述问题进行了相关研究。Gupta等提出了“focus”“technology”和“domain”的词汇功能自动识别类别[10];王芳等对情报学领域的理论[136]、研究方法[137]等进行了人工标注和自动识别;Kondo等对学术文献中的“technology”和“effect”词汇进行了自动识别[8];程齐凯等在前人研究的基础上,提出了一个包含2个大类、若干个子类的学术文本词汇功能框架[134],并采用机器学习的方法对词汇功能的自动识别进行了探索[138]。这些研究虽然对学术文献词汇功能的自动标引和识别进行了一定探索,但是其数据规模都较小,识别准确率也较低。因此,本书在前期研究提出的学术文本词汇功能框架的基础上,采用基于规则模板的方法对学术文献的领域无关词汇功能(主要研究问题和研究方法)进行自动标引并检验,拟构建topic数据集、method数据集和相应的topic-method数据集,并对数据集进行统计分析。一方面,在扩大标注数据规模的基础上,为学术文献词汇功能自动标引提供参考;另一方面,对其进行统计分析以了解和掌握数据集的基本特征,为后续的文献检索、文献推荐和文献可视化等提供较为清晰和直观的数据描述。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈