(1)Head词汇
给定词汇组合,该特征试图找出词汇组合中的关键词汇,例如“an approach”的Head词汇是“approach”,“an”是作为“approach”的修饰成分出现。为了实现Head词汇识别,进行以下操作:
①将词汇组合中的词汇加入到一个有向网络中,根据词汇之间的依存关系构建相应的有向边,例如在“an approach”中,存在“approach”指向“an”的一个依存关系,其中“approach”是governer词汇[2],则相应地构建一个从“approach”指向“an”的边。
②遍历网络中的每一个节点,如果发现节点有入链而没有出链,则将节点删除。
③重复操作②,直到网络中剩下的节点都是孤立节点。
④如果网络中只存在一个节点,返回节点对应的词汇,否则返回“<MULI_HEAD>”。
(2)词汇到Root的依存路径
本书使用的依存路径是从目标术语到句子Root词汇的最短路径。
句法解析器能够针对句子生成句法结构和依存关系结构,前者是树形的句法关系表示,而后者是词元间依存关系的表示。由于依存关系发生于词汇之间,对于词汇组合,本书使用词汇组合的Head词到Root词的路径作为特征。(www.xing528.com)
给定句子S,句法解析器能够解析得到一个确定的句法结构,依存路径提取的结果类似于(word1,Category1:Relation:Category2,word2)+,*+表示多个*的重复。word是词汇的文本,categroy是词汇的词性,Relation表示word1所指节点到word2所指节点之间的依存关系,可能的依存关系如nsubj、det、dobj、nn等。
对于目标候选项,本书定义依存路径为Root动词到候选项Head词汇的最短路径。注意,词汇组合如果包含多个Head词汇,则不计算依存路径,而直接返回“<NOPATH>”。
(3)仅记录动词节点的词汇-Root依存路径
该路径同上一个路径的生成方法一致,但仅仅记录动词,其他词汇节点以词性代替。
(4)词汇直接关联的依存关系特征
该特征记录词汇直接关联的依存关系和依存关系连接的词汇。
给定词汇或者词汇组合的Head词汇,记为word,word的特征生成策略为:对与word存在关联的每个依存关系tr,因tr关联的词汇记为target,如果word在tr关系中是governer词汇,则返回“tr:target”,如果target为governer词汇,返回“tr-r:target”。因此,如果word存在n个关联关系,则会形成n个特征。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。