在模型训练阶段,本书使用了从CNKI数据库中收集的18 690篇标题符合特定模式的文档摘要数据,将从这些文档中抽取的问题和方法作为核心问题和核心方法的自然标注结果。
排序模型训练使用了SVM-Rank工具[3],使用支持向量机排序模型训练PairWise排序模型。
排序学习使用的文本粒度为组块(chunk)。为了获得组块数据,本书使用Stanford Parser[4]对文本做句法解析,进而基于Stanford Parser得到的句法结构识别文本中包含的组块,组块标注方法参见第3章相关内容。本书使用OpenNLP[5]进行句子切分,使用Stanford Postagger[6]对文本进行词性标注。
模型训练会为核心问题和核心方法生成各自独立的排序模型。两个类别的排序模型使用的样本和特征都是一样的,不同在于各个排序样本在不同类别下的排序有所不同。训练数据详情见表4-5。
表4-5 模型训练数据详情
(www.xing528.com)
在计算文本中词汇序列与目标词汇序列的相关性时,本章使用了一个包含56个词汇的停用词表。词干提取使用PorterStemmer词干提取工具。同义词词表使用中英双语对齐的方法从CNKI收录的文献元数据中提取,共包含438 968个同义词对。
测试阶段,从ACM和ACL收录文献中随机抽取了200篇文献,去除因标注人员研究领域限制无法阅读的文献44篇(如硬件类研究文献),共得到156篇测试文献。利用训练得到的模型对文献摘要包含的词汇序列进行排序,对排序生成的结果,使用top1的结果作为抽取结果。使用人工评测的方式加以评测,评测主要关注准确率、召回率。某些文档并没有明确地给出方法/问题,这类文档在标注时被标注为无方法/问题。评测结果见表4-6。
表4-6 核心问题与核心方法识别效果
从实验结果看,该方法在识别论文的核心问题和核心方法上具有一定的有效性。一些其他技术手段还能进一步提升识别效果,机器学习排序中的参数调试是第一个方面。本书没有在参数上做很细致的调试,而以往的经验则说明,参数调试能够大幅提升识别效果。另外,一些经验性的技巧,如检查词汇所在句子是否是主观句,也能够对效果提升有所帮助。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。