首页 理论教育 学术文本中的句法特征

学术文本中的句法特征

时间:2023-11-20 理论教育 版权反馈
【摘要】:本书共使用了4个句法特征。句法解析器能够针对句子生成句法结构和依存关系结构,前者是树形的句法关系表示,而后者是词元间依存关系的表示。以例3.1.1为例,针对“an approach”,得到路径特征“develop,VBN:dobj:approach,NN”。因此,本书使用动词的角色聚类结果替换原始词汇,以得到对提升序列标注性能有帮助的特征。词汇角色聚类的方法在第3.1.4节介绍。

学术文本中的句法特征

本书共使用了4个句法特征。

(1)Head词汇

进行词汇级别的序列标注时,该词汇的Head词汇是其自身。

如果标注的对象是词汇组合,该特征试图找出词汇组合中的关键词汇,例如“an approach”的Head词汇是“approach”,“an”是作为“approach”的修饰成分出现。

为了实现Head词汇识别,进行以下操作:

①如果词汇组合仅包含一个对象,将该对象直接返回。

②将词汇组合中的词汇加入到一个有向网络中,根据词汇之间的依存关系构建相应的有向边。例如,在“an approach”中,存在“approach”指向“an”的一个依存关系,其中“approach”是governer词汇[1],则相应地构建一个从“approach”指向“an”的边。

遍历网络中的每一个节点,如果发现节点有入链而没有出链,则将节点删除。

④重复操作③,直到网络中剩下的节点都是孤立节点。

⑤如果网络中只存在一个节点,返回节点对应的词汇,否则返回“<MULI_HEAD>”。图3-2给出了一个Head词汇识别的例子。图3-2所示文本中,为了识别出“Information Retrieval”中的Head词汇,在构造得到的网络中,“Information”对应的节点仅有入链而无出链,将该节点删除,此时,网络中仅剩下一个节点,返回该节点对应的词汇“Retrieval”。

图3-2 Head词汇识别结果示意图

(2)词汇到Root的依存路径

本书使用的依存路径是从目标术语到句子Root词汇的最短路径。

句法解析器能够针对句子生成句法结构和依存关系结构,前者是树形的句法关系表示,而后者是词元间依存关系的表示。由于依存关系发生于词汇之间,对于词汇组合,本书使用词汇组合的Heade词到Root词的路径作为特征。(www.xing528.com)

给定句子S,依存路径提取的结果类似于(word1,Category1:Relation:Category2,word2)+,*+表示多个*的重复。word是词汇的文本,Categroy是词汇的词性,Relation表示word1所指节点到word2所指节点之间的依存关系,可能的依存关系如nsubj、det、dobj、nn等。

以例3.1.1为例,针对“an approach”,得到路径特征“develop,VBN:dobj:approach,NN”。

另外,词汇组合如果包含多个Head词汇,则不计算依存路径,直接返回“<NOPATH>”。

(3)仅记录动词节点的词汇-Root依存路径

该路径同上一个路径的生成方法一致,但仅仅记录动词,其他词汇节点以词性代替。

以例3.1.1为例,针对“an approach”,得到路径特征“verbRootPath:develop,VBN:dobj:NN”。

(4)词汇直接关联的依存关系特征

该特征记录词汇直接关联的依存关系和依存关系连接的词汇。

给定词汇或者词汇组合的Head词汇,记为word,word的特征生成策略如下:

①如果word存在直接关联的dobj关系,关联词汇记为target,如果word在dobj关系中是governer词汇,则返回“dobj:target”,如果target为governer词汇,返回“dobj-r:target”。

②如果word不存在直接关联的dobj关系,但存在直接关联的obj关系,参照步骤1给出的规则处理,区别在于返回字符串将“dobj”替换为“obj”。

③如果①和②的条件都不满足,将词汇所有直接关联的关系及其关联的词汇拼接,作为结果返回。

实验发现,在上面的直接关联依存关系特征构造方法中,直接使用关联到的词汇构造特征会导致特征稀疏问题,得到的特征对序列标注的性能提升没有效果。因此,本书使用动词的角色聚类结果替换原始词汇,以得到对提升序列标注性能有帮助的特征。

词汇角色聚类的方法在第3.1.4节介绍。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈