首页 理论教育 学术文本中的词汇功能分析及应用

学术文本中的词汇功能分析及应用

时间:2023-11-20 理论教育 版权反馈
【摘要】:图4-1论文标题与摘要的对照示例基于上述分析,本书将核心问题和核心方法的识别问题转化为利用摘要(或全文)生成“基于X的Y研究”这一标题的问题。相对于前一问题,后一问题更容易解决,因为后者的训练数据更容易获得。在学术数据库中,存在着大量标题形似“基于X的Y”的论文,这些论文的标题和对应的摘要(或全文)构成了标题生成模型训练天然存在的标注数据。

学术文本中的词汇功能分析及应用

在一般的写作规范中,标题的作用通常是以精练的方式对文档内容进行总结,以实现信息的快速传递。如果能够从标题中识别出问题和方法,那么这些表示问题和方法的词汇就能够起到对文档核心问题和核心方法的标注效果。

并不是所有的标题都能够很好地揭示文献反映的核心问题和核心方法。首先,不是所有文献的标题都给出了问题和方法的描述,更多的是仅仅给出问题描述或者根本没有明确问题和方法。另外,也存在着标题同论文内容没有显性联系的情况,当然,这种情况的出现概率较小。只有特定类型的标题才能够很好地用于揭示文档反映的核心问题和核心方法。

学术论文中的标题撰写存在着一定的书写范式。本书利用了一种常见的标题书写形式构造核心问题和核心方法抽取工具。笔者观察到,在中文学术文本中,存在着大量的类似于“基于X的Y研究”样式的标题,对CNKI收录的图书情报学及计算机科学期刊进行统计,大约有28.9%的文档采用了这种形式。ACL数据库和ACM数据库收录的论文中也存在着大量形似“X based on Y”“X using Y”“Y algorithm based X”的标题。这些标题在一定程度上明确揭示了论文的核心问题和核心方法。

图4-1给出了一个标题与摘要的标注示例。在所示论文中,标题的形式为“X for Y”,标题文本给出了该文档的核心问题和核心方法,分别是“Web Information Extraction”和“A Generalized Hidden Markov Model Approach”。理想情况下,人们能够从摘要或者全文中识别出上述词汇组合,并将其标注为论文的核心问题和核心方法。传统的分类方法或者序列标注方法利用摘要上或者全文上的标注数据学习模型,通过对摘要或者全文文本的分析得到抽取结果,但现在的困难在于,在没有大量标注数据的情况下,得到这样的模型几乎是不可能的。

从图4-1给出的例子中可以观察到,人工标注的核心问题和核心方法同标题中给出的核心问题和核心方法是非常类似的。这给了本书一个启发,既然“基于X的Y”这种标题往往能够很好地揭示论文的核心问题和核心方法,那么,能否训练一个模型以利用论文摘要或者全文自动生成这一类型的标题?如果训练的模型能够很好地生成这样的标题,那么核心问题和核心方法的抽取任务也就自然得以实现了。(www.xing528.com)

图4-1 论文标题与摘要的对照示例

基于上述分析,本书将核心问题和核心方法的识别问题转化为利用摘要(或全文)生成“基于X的Y研究”这一标题的问题。相对于前一问题,后一问题更容易解决,因为后者的训练数据更容易获得。在学术数据库中,存在着大量标题形似“基于X的Y”的论文,这些论文的标题和对应的摘要(或全文)构成了标题生成模型训练天然存在的标注数据。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈