首页 理论教育 话题检测与跟踪技术框架,实现信息内容安全

话题检测与跟踪技术框架,实现信息内容安全

时间:2023-11-23 理论教育 版权反馈
【摘要】:无独有偶,事件相关多文档摘要也是在话题检测的基础上进行的,它首先要进行预处理,继而确定出局部话题,最后产生事件相关多文档摘要。由图中可以看出,事件模板是在话题检测后形成事件簇的基础上,运用一定的特征提取策略获得的。

话题检测与跟踪技术框架,实现信息内容安全

从前面的图2-2中我们可以看出,基于事件的新闻报道分析是一个多层次、多源的过程,尽管所处理的源数据包含视频、音频和文本等多种媒体类型,但是经过故事单元切分、预处理、字幕探测与识别等低层处理后,新闻话题检测、追踪、事件RSU的检索和摘要等高层分析任务均是以文本为核心处理对象。

新闻报道话题跟踪是在话题检测基础上进行的,换言之,系统首先通过话题检测过程识别出每类新闻事件的新事件种子并对事件进行动态聚类形成若干个事件簇,而话题跟踪过程则根据已经存在的事件种子对新闻报道信息流进行监控,发掘出与已知事件相关的后续新闻报道。无独有偶,事件相关多文档摘要也是在话题检测的基础上进行的,它首先要进行预处理,继而确定出局部话题,最后产生事件相关多文档摘要。多种新闻媒体数据经过预处理等步骤提取出文本之后,通过结构划分、特征词提取和关键语句选取(即代表词句的选取),得到粗略摘要,后经平滑修正即可得到事件单文档摘要。事件单文档摘要虽然不依赖话题检测结果,但其结果可以辅助话题检测与跟踪过程,因为摘要本身可以视做一个精简的过程,使用精简后的新闻报道进行话题检测和追踪可以将对新闻主题意义贡献不大的句子去除,只保留携带重要信息的句子,这在一定程度上将会提高话题检测和追踪的性能。事件RSU检索的核心思想是通过评价事件模板和从每段新闻故事单元中获取的文本向量之间的相似性度量来对检索到的事件RSU进行降序排列,和事件模板的相似度越大的故事单元其排列位置越靠前,该过程的关键是获取合适的事件模板,事件模板生成质量的优劣直接影响着检索结果的满意度。由图中可以看出,事件模板是在话题检测后形成事件簇的基础上,运用一定的特征提取策略获得的。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈