正如第2章中所论证的,核心问题与核心方法是在文档层面对文档所反映的科研工作的总结。对核心问题与核心方法的识别,需要在对文本进行整体分析的基础上方能实现。不理解论文反映的整体工作,读者不可能正确地识别出学术文献的核心问题与核心方法。
例4.1.1:We have developed an approach for analyzing online job advertisements in different domains(industries)from different regions worldwide.[1]
在例4.1.1中,可以通过对句子的分析发现“an approach”作为一种方法被用于“analyzing online job advertisements”。但仅仅依靠这一个句子,并不能确定“analyzing online job advertisements”是否是句子所在文档的核心问题。实际上,如果对这个句子来源文档进行阅读,会发现原始文档的研究内容是使用信息抽取方法对在线就业市场进行分析,并不仅仅是分析在线招聘广告。(www.xing528.com)
有监督机器学习得以成功的关键之一是大量高质量标注数据的构建。由于标注的难度,几乎不可能通过人工的方式标注足够数量的核心问题与核心方法识别训练数据。一个有经验的研究者往往需要阅读至少数百字才能完成一个样本的标注。受限于领域知识以及对数据集覆盖度的要求,必须有多个不同领域的研究者一起工作才能完成足够数量样本的标注,这样做的成本是非常高昂的。
正因为核心问题与核心方法不能通过对单句的分析得到,本章提出了一种基于文档全局信息和机器学习排序的自动识别思路。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。