首页 理论教育 新闻话题检测与跟踪技术

新闻话题检测与跟踪技术

时间:2023-11-23 理论教育 版权反馈
【摘要】:新闻话题检测与跟踪又称为事件探测与跟踪的基本思想源于1996年,当时美国国防高级研究计划委员会提出需要开发一种新技术,能在没有人工干预的情况下自动判断和识别新闻数据流的话题。2000年进行第三次评测,重点是多语言的话题检测与跟踪。2003年进行第六次TDT评测,主要有下面几个任务:首故事检测、相关检测、话题检测、话题追踪。

新闻话题检测与跟踪技术

新闻话题检测与跟踪又称为事件探测与跟踪(Topic Detection and Tracking,TDT)的基本思想源于1996年,当时美国国防高级研究计划委员会(DARPA)提出需要开发一种新技术,能在没有人工干预的情况下自动判断和识别新闻数据流的话题。新闻话题检测与跟踪技术的研究工作不同于传统的信息检索、信息抽取、文档分类、信息管理和数据挖掘等文档管理技术,主要原因在于该技术更多地关注如何识别新的话题和获取特定话题相关的数据。TDT研究中对话题的定义描述不同于传统的话题定义描述,TDT的话题描述倾向于某一特定事件及其相关活动的描述,从而TDT主要将事件作为分析与处理的对象。

TDT项目开始于1997年,开始阶段主要发表了包括卡耐基梅隆大学、马萨诸塞大学、宾州大学等系统的研究报告,对这项技术进行初步研究,并做了一些基础工作。TDT的研究人员力求设计一种功能强大、通用、自动的学习算法,能够识别和获取人类语言数据的话题结构,独立于数据的来源、媒介、语种、领域和具体应用。总体来说,TDT的研究内容可以分为5个技术任务:

(1)将新闻故事数据流分割成为多个故事(Story Segmentation);

(2)寻找属于特定话题的所有故事(Topic Tracking);

(3)发现新话题,并将属于同一个话题的所有故事进行聚类(Topic Detec-tion);

(4)发现与新话题相关的第一个出现的故事(First story Detection);(www.xing528.com)

(5)确定两个故事涉及的内容是否属于同一个话题(story Link Detection)。

其中第4项技术是第3项技术Topic Detection的基础关键技术,第5项技术相当于为第2、第3和第4项技术任务提供一个基础关键技术。

从1998年开始,在DARPA发起和支持下,美国国家标准技术研究所(NIST)每年都举办TDT评测。每次先在评测计划中公布当年的评测标准,然后经过一段时期的研究,再进行评测,最后工作组讨论评测结果和研究进展。TDT评测采用的语料是由语言数据联盟(LDC)提供的TDT系列语料,这些语料都由人工标注了若干事件话题作为标准答案。1998年,TDT技术第一次公开评测,有9个研究机构参加,主要有三项评测任务:故事分割、话题追踪和话题检测。评测的目的是评定由自动语音识别产生的错误和训练样本数目对TDT性能的影响。1999年秋季进行第二次TDT评测,这次评测将1998年的三个任务扩展到汉语语料中,另外增加了两项新任务:话题的新故事检测和相关检测,这两个新任务只针对英语语料。评测的主要任务是提高包括新闻故事的分割、检测和追踪所需要的信息的描述技术,这次评测加入了中文的语料。2000年进行第三次评测,重点是多语言的话题检测与跟踪。第四次评测在2001年举办,主要任务是提高在多语言新闻数据流中同时进行的TDT技术。在2002年举办了第五次TDT评测,阿拉伯语的语料填入到测试集,提倡并鼓励对文本过滤、机器翻译、语音识别、文本分割等技术的研究。2003年进行第六次TDT评测,主要有下面几个任务:首故事检测、相关检测、话题检测、话题追踪。2004年的TDT评测与以往的评测有较大的变化:故事分割任务不再进行评测;保留话题追踪任务、话题检测和相关检测任务;增加了有监督的自适应话题追踪任务和层次话题检测任务。TDT评测越来越受到人们的重视,已成为一个新兴的研究热点,国内外的很多著名大学、公司和研究机构都参加了该评测。国外的机构主要有:IBM Watson研究中心、BBN公司、卡耐基梅隆大学、马萨诸塞大学、宾州大学、爱荷华州大学、马里兰大学等。

国内这方面的研究开展得明显晚些,1999年台湾大学参加了话题检测任务的评测,2000年香港中文大学参加了TDT某些子任务的评测。目前,北京大学计算语言学研究所、中科院计算所、哈尔滨工业大学东北大学复旦大学、微软亚洲研究院、清华大学等一些国内有名的研究机构的研究人员也开始进行TDT相关关键技术的研究,但他们主要侧重于追踪国外最新理论和跟踪性研究,相关研究成果的报道不多。

作为一个直接面向应用的研究方向,到目前为止,话题检测与跟踪领域的大部分研究都是借用信息检索的某些方法,只是通过调整某些参数来使这些方法更适合于处理话题。但是,话题检测与跟踪研究的某些特殊性,如面向话题、基于时间等,也决定了仅仅利用现有信息检索方法来进一步提升TDT系统的性能是有限的,要想有所突破,必须更多地借助于自然语言理解技术。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈