首页 理论教育 最新研究:信息内容安全新闻处理技术

最新研究:信息内容安全新闻处理技术

时间:2023-11-23 理论教育 版权反馈
【摘要】:话题检测意在将输入的新闻报道归入不同的话题簇,并在需要的时候建立新的话题簇。显然,第一个阶段就是对新发生事件的检测。话题检测任务是对新话题检测任务的一个自然扩展。对于话题检测,研究者们常采用的算法有:增量K均值、Agglomerative聚类、Single-pass法、单遍聚类等[3]。IBM公司的话题检测系统的一个最突出的特点是使用一种对称的Okapi公式[9]计算两篇报道之间的相似度。

最新研究:信息内容安全新闻处理技术

话题检测意在将输入的新闻报道归入不同的话题簇,并在需要的时候建立新的话题簇。从本质上看,这项研究等同于无指导的聚类研究,但只允许有限的向前看。通常的聚类可看做是基于全局信息的聚类,即在整个数据集合上进行聚类,但话题检测中用到的聚类是以增量方式进行的。这意味着,在做出最终的决策前,不能或只能向前面看有限数量的文本或报道。话题检测作为一种增量聚类,可以划分为两个阶段:检测出新事件的出现;将描写先前遇到的话题的报道归入相应的话题簇。显然,第一个阶段就是对新发生事件的检测。话题检测任务是对新话题检测任务的一个自然扩展。对于话题检测,研究者们常采用的算法有:增量K均值、Agglomerative聚类、Single-pass法、单遍聚类等[3]卡耐基-梅隆大学的研究者在话题检测时主要采用了一种带有时间窗口的Single-pass法[4],此外,他们还尝试了两种不同的特征权重计算方法:TF-IDF和基于语言模型[5,6]的方法,并试图将采用这两种权重计算方法的系统组合起来,采取“或”的策略,即认为任何一种方法判断的结果都有效。他们将每篇报道以及每个事件簇都表示成空间中的一个向量,在使用TF-IDF权重计算模式时采用“LTC”组合,而在使用基于语言模型的权重计算方法时,特征的权值是该特征在讨论某事件的新闻报道中出现的概率估值。报道向量与事件簇向量之间相似度的计算主要采用向量夹角余弦值,但要根据时间因素利用一个时间窗口做调整。BNN公司的Frederick等人提出了一种基于增量K均值的话题检测方法[7],从严格意义上说,该方法并不能准确地称为K均值法,因为聚类的类别数并未事先给定。算法通过比较一个可变窗口之内的每篇新闻报道与已确定的类簇之间的相似度,从而决定该报道是融入该类簇还是自立为一新类簇。该算法能够对不完善的初始聚类进行重构,算法中采用两种类型的度量:甄别度量和阈值度量。前者用于发现和某报道最相似的类簇,后者的目的则是决定某一给定的报道是否应该融入一类簇。IBM公司的话题检测系统采用了两层聚类的策略[8],也就是两遍聚类:第一遍将所有报道分成不同的微类,第二遍以这些微类为分析对象形成较大的类,两遍分析的结果将作为最终结果输出。每一遍聚类的基本算法都是一样的,采用Single-pass算法,差别只在于分析的对象不同和选取的阈值不同。IBM公司的话题检测系统的一个最突出的特点是使用一种对称的Okapi公式[9]计算两篇报道之间的相似度。每个微类由属于该类的所有报道的表示成分的质心来表示,一篇报道与某个微类间的相似度值是该报道与微类中所有报道相似度值的均值,同样设定一个阈值,用于判断将当前报道归入已有的事件簇还是建立一个新的事件簇。另外,中国台湾大学的研究者主要是对汉语普通话文本的分析,他们使用的算法也是基于Single-pass法[10]。中国香港中文大学的研究者使用了层次凝聚聚类作为话题检测算法[11]。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈