完成句子切分以后,还需要对文本进行术语识别。
术语识别的目的是识别文本处理的最小语义单元,例如“Maximum Entropy is important”,处理的最小单元应该是“Maximum Entropy”“is”“important”。术语识别的另一个重要目的是避免因术语内部词汇的词性干扰整体文本的词性标注结果,而词性标注带来的错误往往会造成句子句法分析的失败。例如,“we use support vector machine in the task”中,support在很多词性标注工具中都会被标记为动词,这造成了句子中连续出现两个动词的情况,句法分析工具通常是没有能力处理这种问题的。
为了说明术语识别的重要性,本书对ACM数据库收录的论文中包含的关键词进行了词性标注,统计各个词性的出现频次,部分词性的统计频次结果见表5-1。从统计数据中可以看出,大量的关键词或者术语中都包含了动词、连接词成分,如果不做术语识别,这些动词、连接词成分会为后续的处理带来不利的影响。
为了从文本中识别出术语,本书使用了一个相对简单的方法,构建一个较大的领域词典,利用最长正向匹配方法对文本进行扫描,标记出可能的术语。词典数据加工自ACM数据库和ACL数据库收录论文的关键词元数据。
表5-1 ACM数据库收录关键词分词词性统计
一旦从文本中识别出词汇序列构成术语,则将词汇序列改写为一个以“-”连接的单一词汇,并将词汇词性设置为“NN”。之所以设置为NN而不是NNP,原因在于句法解析器使用的训练数据中NNP较少,且多为地名、人名等特定词汇。由于解析器训练数据的缘故,将术语设置为NNP会为句法解析器带来困扰。(www.xing528.com)
下面通过一个文本“we us parse tree reranking”对术语识别的作用进行说明。在文本中,“parse tree”是一个计算语言学术语,如果不加以识别,得到的结果如图5-2所示。图5-3给出了“parse tree”的术语识别结果以及正确的句法分析结果。
图5-2 “we use parse tree reranking”句法分析错误结果
图5-3 “we use parse tree reranking”句法分析正确结果
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。