话题跟踪就是要检测出关于某个已知话题的新闻报道,通常要事先给出一个或几个已知的、关于该话题的新闻报道。这项研究类似于信息检索领域基于例子的查询以及信息过滤研究。话题跟踪系统的性能受到以下一些因素的影响:训练用新闻报道的数量,训练及测试语料使用的语言,文字记录的质量等。有多种不同方法在这项研究中被尝试使用,如Rocchio分类方法、决策树方法、基于HMM的语言模型等,其中比较成功的是K近邻法或多种方法的组合。和话题检测一样,针对话题跟踪的研究单位主要集中在国外,我国只有中科院、中国台湾大学、中国香港中文大学和国防科技大学等少数几家单位在研究,并且还处于起步阶段。CMU的研究者尝试了使用多种不同的方法来追踪事件,包括:K近邻算法、Rocchio算法以及语言模型方法。其中K近邻算法是一种基于实例或称基于记忆的学习算法。它的基本思想非常直接。简单的说,为了给某个文档归类,只要找到训练集合中与此文档最相似的文档,将这个最相似文档的类别赋予该文档即可。Rocchio法[12]是基于Rocchio在1971年为向量空间检索模型提出的一种相关反馈算法。首先为每个类别训练得到一个原型向量或称核向量,作为该类别文档的代表(类向量)。在分类时,分别计算每个待分类文档的文档向量与各个类向量之间的相似度(夹角余弦值),将其归入具有最大相似度的类别中。此外,他们还将这些方法组合成BORG算法,取得了优于任何一种单独方法的性能。Nianli等人将交叉—语言技术应用到了话题跟踪过程中[13],交叉语言话题跟踪需要处理多语言环境下的追踪任务,因此难度要明显高于单语言环境下的追踪任务,其难点主要在于如何跨越新闻报道和事件之间的语言鸿沟。解决这一问题的传统方法是先将多语言测试文档翻译成某种符合系统偏好的语言,然后按照单语言任务的模式进行处理。这种做法的缺陷在于:盲目地将所有多语言文档进行翻译不但会导致巨大的计算开销,而且很多情况下没必要这么做,因为大多数被翻译的文档和用户的兴趣根本不相关。Dragon公司的Mulbregt等研究者在其追踪系统中是通过使用标准语言建模技术测量文档相似性[14]。对于系统涉及的平滑问题,他们从背景资料中取出大量的语言模型,并找出稀疏模型的最佳概算模式并将其作为平滑分布。Dragon的追踪系统所用的鉴别器是由大量的通过自动聚类背景资料导出的unigram模型组成,对于任一个给出的测试报道,得分最高的模型正是被选作与事件主题模型相比较的那一模型。马萨诸塞大学的话题跟踪系统基于简单的Rocchio算法[15,16]。事件向量是训练正例样本的某种质心,如训练样本的算术平均。相似度评价函数也是使用向量的夹角余弦。系统的判断决策值是事件向量与待测报道间相似度经规范化后得到的值。这种规范化非常简单,即用训练正例样本与事件向量间相似度的平均值去除待规范化的相似度值。马萨诸塞大学的研究者还尝试了自适应追踪方法,即在追踪过程中动态调整事件向量。另有多种语言模型被用于话题跟踪,如Dragon公司基于KL-divergence的聚类方法[17]、BBN公司使用的两阶段隐马尔可夫模型[18]和基于简单贝叶斯算法的概率模型等。
TDT是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,涉及计算语言学、机器学习、信息科学和人工智能学等很多领域的相关技术,其核心是自然语言理解技术。TDT的发展和实际应用息息相关,在国家信息安全、企业市场调查、个人信息定制等方面都存在着实际需求。随着现有系统性能的不断提高,TDT在各个领域得到越来越广泛地应用。作为一个直接面向应用的研究方向,话题检测与跟踪旨在研究自然语言信息流中基于事件的信息组织问题。当前话题检测与跟踪的研究主要还是基于传统的统计方法,这些方法在文本分类、信息检索、信息过滤等领域得到广泛的应用。将来的发展应主要关注话题本身的特性,如面向话题、基于时间等,这也决定了仅仅利用现有信息检索方法对进一步提升TDT系统的性能是有限的,要想突破必须要借助更多的自然语言理解技术。同时应考虑多种方法的综合运用,综合使用多种相对成熟的方法,从长期看来在实际应用中可能效果最佳,这也是将来的一个研究发展方向。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。