首页 理论教育 网络舆情监控系统体系结构:保障信息内容安全的新闻处理技术

网络舆情监控系统体系结构:保障信息内容安全的新闻处理技术

时间:2023-11-23 理论教育 版权反馈
【摘要】:舆情监控分析系统以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能。智能分析则是对数据进行分析挖掘,找到数据中隐含的模式或数据之间潜在的关系,产生新的知识,例如,热点检测和分析、关联分析、趋势分析等。实际应用系统可采用这一引擎实现基于内容的海量图片快速检索。

网络舆情监控系统体系结构:保障信息内容安全的新闻处理技术

舆情监控分析系统以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能。

智能检索指基于数据对象的多种属性的综合特征来进行基于内容的相似检索,包括文档相似搜索、基于内容的图片检索、基于内容的视频检索等功能。

智能处理指对数据进行自动处理,代替或辅助人完成有关工作任务,可以节省人力物力,提高效率,例如:文档自动消重、自动摘要、关键词抽取、自动聚类、自动分类等功能。

智能分析则是对数据进行分析挖掘,找到数据中隐含的模式或数据之间潜在的关系,产生新的知识,例如,热点检测和分析、关联分析、趋势分析等。

下面介绍这些模块具体功能如下:

全文检索:基于中文分词的多种索引单位,采用多信息域多数据类型的索引方式和词频相关的排序方式;支持多种检索运算;高扩展,高开放;支持海量索引,索引、检索速度快,低膨胀率,系统资源占用小;支持多平台、多语种。

文档相似搜索:基于倒排索引快速检索到初始的文档集合,然后利用基于文档结构的相似搜索模型对初始结果进行重排,提高检索性能。

图片检索:提供以图片内容(如颜色、纹理、布局)为基础,结合描述信息的综合检索。实际应用系统可采用这一引擎实现基于内容的海量图片快速检索。

视频检索:以颜色为特征,利用图论匹配理论提供对视频内容的检索(例如关键帧、场景、主题)以及结合描述信息的综合检索。(www.xing528.com)

自动消重:基于高维索引结构CSS树对重复文档进行快速准确地定位。该引擎可实现对文本的自动消重,降低文档冗余度,避免文档重复发布等。

自动摘要:包括单文档摘要与多文档摘要。单文档摘要方法为综合考虑句子的词频、位置等特征对句子进行权重计算,抽取重要的句子形成摘要。多文档摘要采用基于句子关系的摘要方法,主要用于为文档聚类以及主题检测得到的主题类簇提供简洁的摘要,方便用户了解主题类簇的内容。

自动关键词提取:通过智能的手段为文档自动提取关键词的技术。主要综合考虑词语的频率、词性、位置等多种特征为词语计算权重,选取权重大的词作为候选词,然后利用规则对候选词进行过滤和合并,得到最终关键词。

自动分类:用于对新闻稿件、图书资料、图片的自动分类。

自动聚类:可实现对检索结果自动聚类并构建树状结构,以便用户快速定位所需信息;对新闻稿件自动聚类,实现辅助专题制作等。

热点检测和分析:采用舆情热点动态检测算法,能够在线检测新热点并提供诸多舆情热点的分析功能。

关联分析与趋势分析:基于数据挖掘技术,关联分析引擎可从海量数据中挖掘信息之间的关联关系,趋势分析则实现与时间相关的分析。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈