基于网络新闻媒体的特点,网络新闻报道结构除了以时间为轴线的纵向结构和以空间为线索的横向结构外,还可以采用全方位反映某一事件的纵向流程和横向联系的复式结构,多角度、多侧面、多视点、多层次反映某一事件的散点式结构,从而能够增加事件报道的完整感和厚重感,但同时也带来了各方面的问题。比如事件相关信息的收集和整理,目前基本上都是依靠人工来完成的,其智能性有待提高。同时直接进行新闻报道内容的浏览是非常耗时的,更何况是从纷繁复杂的新闻中寻找极少数有意义的情报,并且以人工劳动为主的新闻信息管理方式也很难实现高效的检索。因此,研究网络新闻信息处理技术,将在一定程度上改善耗时并且代价昂贵的人工组织和管理新闻事件的过程,同时将体现新闻事件来龙去脉的分析结果呈现给用户,提高信息收集整理工作的效率,具有广泛的应用前景和潜在的经济效益。对于金融市场分析人员,需要关注任何可能给股市带来巨大波动的事件的发生和发展状况;对于国际关系或社会学的研究者,有时需要通过某种技术将所有关于某一新闻事件的新闻报道自动地收集整理出来,以便进一步对该事件的前因后果进行深入的调查和研究,甚至需要对该事件的发展趋势做出预测;对于情报分析人员,需要密切监视国内或国际上发生的重大事件,尤其是该技术在情报分析中的应用,对于军队信息化进程的发展更有着切实的军事意义和研究价值。不论是在和平时期还是战争时期,以新闻报道为代表的公开信息源始终是情报分析的重要来源。
从技术角度来讲,新闻信息处理旨在依据事件对语言文本信息流进行分析和组织,利用信息检索、信息过滤、信息抽取、数据挖掘和自然语言处理等不同领域的技术,试图发展一系列能够满足用户信息需求的核心技术,是一个交叉性的前沿学科。首先,通过新闻文档自动分聚类对新闻文章进行归类组织,实现对新闻报道高效便捷地管理。使用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更容易。另外,新闻文档摘要则是致力于提取新闻的重要信息,将信息全面的、简洁的文本直接呈现给用户,使用户通过浏览摘要掌握各种新闻的主要内容,提高用户获取信息的效率。再者,对新闻内容进行挖掘更加有现实意义。提取新闻中的关系网络,帮助用户了解事态的发展,分析整个事件中所有参与实体之间的冲突关系,了解舆论对事件的评价。最后,通过对新闻话题的探测与跟踪,帮助人们从整体上了解一个事件的全部细节以及事件之间的关系。
综上所述,该课题的研究在理论与实践上都具有非常重要的意义。新闻信息处理是一个充满希望与挑战的前沿学科,虽然在此之前,出现了一些商业性的新闻搜索引擎,例如百度新闻,Yahoo新闻等。另外,也出现了一些新闻信息处理的原型系统,例如NewsInEssence[1][2]、QCS[3]。但是真正涉及网络新闻内容自动处理的相关研究并不是很多。对此问题进行深入研究必将对以新闻报道为对象的信息组织技术以及传统的数据挖掘技术产生极大的促进。同时,基于事件的网络新闻信息处理技术的应用领域已经由信息检索、证券市场分析扩展到决策支持、信息安全等领域。该技术的理论研究以及将现有的理论成果向应用领域推广将成为未来的一个研究热点。该课题的研究不仅可以将情报分析人员从繁重耗时的人工劳动中解脱出来,而且可以提高新闻报道分析的智能化程度。
从广义上讲,新闻信息处理的对象可以是文本、图像、语音、视频等多种媒体。但随着文本信息处理研究的发展,特别是在美国防高级研究计划局(DAR-PA)所资助的消息理解会议(MUC)对不同文本信息处理系统组织统一评估后,信息处理往往被用来专指文本信息处理。另外相对于英文文本信息处理技术,汉语文本信息处理基础相对薄弱,所以本书的主要研究对象是中文新闻文本信息。基于事件的新闻信息处理是一个分层次的过程,其层次结构如图2-1所示:

图2-1 新闻信息分析系统层次结构图(https://www.xing528.com)
图2-1表示的是一个完整的从新闻源媒体数据获取到新闻报道高层分析的过程,包括从新闻网页、视频、广播等新闻媒体中获取新闻媒体数据、低层处理、高层分析等阶段。该图引入了层次的概念,即将新闻信息处理的过程分为低层处理和高层分析两个核心层,在进行低层处理之前,首先要获取新闻源数据。低层处理包括自动语音识别、字幕探测与识别、镜头探测、新闻报道切分、网页清洗和净化等。低层处理的主要目标是为了完成新闻媒体的结构分析、句法分段以及预处理等任务,为高层分析提供特征元数据并完成必要的准备工作。高层的分析主要包括新闻事件的探测[4,5]、跟踪[6,7]、分类、聚类[8,9]、事件相关文档摘要[10,11]、新闻内容分析[12,13]等任务,本书的研究内容主要涉及低层分析中预处理部分和高层分析中的事件相关多文档摘要、新闻内容分析等几项任务。这些任务不但是当前学术界的研究热点,而且具有很强的理论价值和应用价值。在新闻分析层次结构的基础上,对高层分析所涉及的关键技术和内容的进一步细化,得到新闻信息处理技术框架,如图2-2所示。

图2-2 新闻信息处理技术框架
从图2-2可以看出,新闻信息处理是一个多层次、多源的过程,尽管所处理的源数据包含视频、音频和文本等多种媒体类型,但是经过故事单元切分、预处理等低层处理后,新闻话题检测、跟踪和摘要等高层分析任务均是以文本信息为核心处理对象。新闻事件跟踪是在话题检测基础上进行的,换言之,系统首先通过话题检测过程识别出每类新闻事件的新事件种子,并对事件进行动态聚类,形成若干个事件簇,而事件跟踪过程则根据已经存在的事件种子对新闻报道信息流进行监控,发掘出与已知事件相关的后续新闻报道。同时,事件相关多文档摘要也是在话题检测的基础上进行的,它首先要进行预处理,既而通过聚类方法确定出局部话题,最后产生事件相关多文档摘要。多种新闻媒体数据经过预处理等步骤提取出文本之后,通过结构划分、特征词提取和关键语句选取,得到粗略摘要,后经平滑修正即可得到关于事件的单文档摘要。对事件聚类的结果,通过特征提取和知识库辅助的方法,还可进一步进行内容分析。后续章节主要是对网络新闻信息处理中使用到的关键技术进行介绍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
