本书从CNKI的计算机领域和图情领域期刊数据中收集了88 865篇标题形式为“基于X的Y”的文档,对于每篇文献,将其英文题名转换成词性和频繁词性的表示方式。构造方法如下:
句子s表示为词汇序列{w1,w2,…,wn},wi表示句子中第i个词汇,n是s的长度。频繁词汇列表F记录了预先给定的一系列频繁词汇。通过将s中所有非频繁词汇,即不出现在F中的词汇替换成词汇对应的组块(chunk)标记,即可得到句子s对应的基于频繁词项和词性的文本表示。
例如,句子“In this paper,we present a method for information retrieval.”,F为in、we、present、for,则句子对应的星号模式为“In NN,we present NN for NN.”。通过对转换后的文本表示模式进行统计,得到“基于XX的XX”类型标题最为常见的英文标题模式。最为常见的几种文本模式见表4-2。
表4-2 抽取模式样例
经过对上述模式的标注,可以得到从标题中抽取问题和方法的文本匹配模式,对应的匹配模式参见表4-3。
利用这些模式,从CNKI论文的英文题名中抽取对应的词汇组合,并为这些词汇组合赋上类别。通过抽取,得到核心问题与核心方法标注数据共18 690条,这些数据构成了对所在文本的核心问题与核心方法的标注。
表4-3 抽取模式标注示例
(www.xing528.com)
续表
需要说明的是,利用上面生成的这些模板直接进行核心问题与核心方法的抽取是可行的,并且能够取得非常高的准确率。为了说明这些规则的可靠性和跨来源适用性,笔者使用表4-3所示的抽取规则对ACM数据库所收录论文的标题进行信息抽取,如果这些论文的标题能够匹配模板,则输出相应的词汇序列作为识别结果。评测时随机选择了1 555条标题的抽取结果,人工判断抽取结果的准确性。评测结果显示:核心问题识别准确率为99.55%;核心方法抽取的准确率随着评测标准的变化有所变动,如果将实验中主要使用的工具也视作解决问题的方法,则准确率为98.65%;如将工具类排除在外,则准确率为90.23%。
核心方法识别的人工评测结果参见表4-4。其中,数据类指的是为了解决问题使用的数据,如“Improving web spam classifiers using link structure”中的“link struc-ture”;工具类指的是为了解决问题所主要使用的工具,如“Program debugging using COBOL 74”中的“COBOL 74”,或者“High performance content-based matching using GPUs”中的“GPUs”。这些文本所指代的事物本身是工具,但一定程度上也构成了解决问题的方法。
表4-4 对标题使用规则方法抽取的效果评价结果
评测结果也说明,利用规则方法从标题中抽取核心问题和核心方法是非常有效的,如果标题能够为特定模板所匹配,基于模板抽取核心问题和核心方法将会取得非常好的效果。模板匹配方法的问题在于,尽管这一方法能够保证较高的准确度,但在覆盖度上却表现不佳,也就是说,只有部分文献能够通过模板匹配的方式实现对核心问题和核心方法的抽取。另外,这种方法的鲁棒性不佳,如果标题同文档内容并无直接关联却能匹配到模板,模板匹配将会输出错误的结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。