【摘要】:实际上,选择有判别力的特征能够增强话题字典对话题的描述能力,从而提高话题识别与追踪的有效性。根据上述分析,本章在特征选择相关理论的基础上,融合互信息理论,通过话题之间、话题内部报道和有判别力词之间的位置关系,提出一种新的有判别力的话题字典生产方法。实验在第2章介绍的TDT语料上,以上述的基于信念网络的动态话题模型Ⅱ为表示模型,验证了新的特征选择方法的有效性。
话题识别与追踪技术的实现过程涉及话题建模、相似度计算和阈值估计,目前的主流研究集中于如何构造话题模型以提高话题识别与追踪的综合性能[91]。实际上,选择有判别力的特征能够增强话题字典对话题的描述能力,从而提高话题识别与追踪的有效性。
已有话题字典生成方法没有考虑到有判别力词之间的位置关系,比如“博尔特夺得了北京奥运会的男子100米冠军”,如果只考虑有判别力的词,则仅有“博尔特”和“冠军”两个词语,忽略了用于修饰有判别力词的重要信息,“北京奥运会”和“100米”,虽然它们是作为修饰词出现,但是恰恰这些词可以区分出这个话题中的博尔特参加的是与以往不同的比赛(不同比赛,不同项目)。(www.xing528.com)
根据上述分析,本章在特征选择相关理论的基础上,融合互信息理论,通过话题之间、话题内部报道和有判别力词之间的位置关系,提出一种新的有判别力的话题字典生产方法。该方法首先通过计算话题与词之间的互信息来判断每个词对话题的表示能力。然后通过计算话题之间、话题内部报道和有判别力词之间的位置关系,求解优化得到每个话题的初始有判别力的字典。最后随着时间的推移,通过新的相关报道来实现对初始话题字典的不断更新。实验在第2章介绍的TDT语料上,以上述的基于信念网络的动态话题模型Ⅱ(BDTM-Ⅱ)为表示模型,验证了新的特征选择方法的有效性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。