理论是为应用服务的,应用也促进了理论的深入研究。本节介绍几种信息内容安全技术的典型应用及系统实现,这些系统也有效地证明了信息内容安全理论的实用价值,使理论更加具体。
1.电子邮件过滤
作为互联网的第一大应用,电子邮件一直受到广大网民的青睐。但是近些年来,垃圾邮件问题日益严重。垃圾邮件不仅耗费网络带宽和计算机时空开销,而且会对企业的正常运作和用户的正常工作造成了严重的干扰,所以邮件过滤成为需要解决的网络安全问题之一。
基于信息内容安全的垃圾邮件过滤系统不同于普通基于关键词的邮件过滤系统,它主要基于对邮件信息内容的理解,使用的关键技术是自然语言理解,此类邮件过滤系统的框架如图1-1所示。
从邮件过滤系统框架图可以看出,在应用层上主要包括5个模块:
(1)邮件截获、转发控制模块:输入为客户端发来的SMTP指令和信件,输出为信件内容指针,将信件体提交给电子邮件文本获取模块。
(2)邮件文本获取模块:输入为一个带标记的电子邮件文本文件,是由电子邮件文本截获模块提供的;输出为纯文本文件,去掉了电子邮件文件中的各种用于文本显示的标记,获得纯内容,也是电子邮件文本分词模块的输入。
(3)邮件文本分词模块:输入为一个纯文本文件,也就是电子邮件文本获取模块的输出;输出为经过分词的纯文本文件,也就是电子邮件文本主题识别模块的输入。
(4)邮件主题识别模块:输入为一个经过分词的纯文本文件。也就是文本分词模块的输出;输出为整型值,该参数传给电子文本倾向识别模块。
(5)邮件倾向识别模块:输入为文章文本文件,也就是文本分词模块的输出,并接收文本主题识别模块传来的参数;输出为整型值,该参数最终表示电子邮件文本是否合法。
其中邮件文本分词模块、邮件主题识别模块和邮件倾向识别模块,是基于信息内容安全的邮件过滤系统的三个主要部分。邮件文本分词模块,主要对应于信息内容安全的语法分析。作用是把邮件文本切分为一个个的词。分词的依据一般是驻留在计算机内存中的字典。这个模块对于英文来说是不必要的,因为英文单词本身就是词,而汉字却要由若干个字组成词。邮件主题识别模块,主要对应于信息内容安全的主题分类。作用是确定邮件文本属于主题的类别。分类的依据是驻留在计算机内存中词关联关系的知识库。邮件倾向识别模块,主要对应于信息内容安全的倾向分类。作用是确定邮件文本的倾向(判定的依据是语言知识库和安全定义)。针对邮件过滤系统中信息内容安全子系统,可以总结出如图1-2所示的模型。
图1-1 基于信息内容安全的垃圾邮件过滤系统框架图
图1-2 信息安全子系统模型
2.互联网舆情管控(www.xing528.com)
当前,互联网己经确立了它第四大媒体的主导地位,根据最新统计,2009年全球的网民人数已经超过了17亿,而且,至今为止,国内网民数量已经超过4亿,中国的网民成为世界最大的网民群体之一,这其中有很大一部分是青少年。在高度信息化的当今社会,当发生社会性突发事件后,容易造成网络上的小道消息流行,从而引起公众的不理性判断和行为混乱。而对突发事件相关报道和信息进行认真分析、判断、预测,才可以做到防患于未然。互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越成为人们表达个人想法的渠道。由此网络舆情的爆发也以“内容威胁”的形式逐渐对社会公共安全形成威胁。因此,在加强互联网信息监管的同时,组织力量开展信息汇集、整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。
然而,随着国际互联网在全球的迅猛发展,互联网载体每天都在产生着近乎于海量的信息,面对这些海量信息,传统的人工方式已经不能满足对信息的处理和分析需求。互联网舆情监控分析系统需要做的就是通过计算机技术,最大程度、最大范围地去分析、归纳、概括、描述广大民意,最终为用户全面掌握网络舆情提供有效的信息化手段。互联网舆情监控分析系统的系统结构如图1-3所示:总体分为IT基础设施、软件层面、安全和管理体系。软件层面分为三层:最上层为统一应用门户,直接为用户提供服务;中间层为舆情信息智能处理层,为上层提供智能分析服务;最下层为数据采集和提取层。
下面对软件层面的三个部分分别进行介绍:
(1)舆情信息自动采集和提取:本部分功能包括互联网信息(新闻、论坛、博客等)的实时监测、采集、内容提取及排重等。为了全面、客观、准确地反映民意,舆情信息系统信源采集的数量、质量和种类是非常重要的,应该强调采集的广度和深度。从这个角度而言,我们面临的信息对象有报纸、广播、电视和互联网,其中基于互联网有网页、邮件、论坛、聊天等;其中的信息格式或者协议也是五花八门,有HTTP、SMTP、MP3、XML、影音视频…,文档类的还有DOC、PDF、XLS等。如此纷繁的对象,需要各类互联接口和转换系统,同时系统本身还应该具有开放的第三方开发拓展能力,能够支持特定的接口开发,从而最大程度地捕捉各类信息。
(2)舆情信息智能分析:舆情信息具有数量大、增长快、主题相关、时效性强、动态演化等特性,传统的人工方式已经不能满足对海量舆情信息的处理和分析需求。舆情信息智能分析应具有自动分类、自动关键词和摘要、敏感信息监测、热点自动发现和分析、个性化服务等功能,并提供多语言文字的处理手段,通过自动分类引擎、自动关键词和摘要引擎、敏感信息监测引擎、热点自动发现和分析引擎以及个性化用户引擎等来实现。其中,舆情热点自动发现和分析模块基于主题发现和追踪(TDT)技术进一步深化应用,从而实现舆情信息的热点检测和分析功能。舆情热点发现模块利用舆情信息的热点自动检测技术,实时地将海量舆情信息按照舆情热点以及更高层次的类别进行组织,给出当前舆情热点的排行以及热点分布图,方便用户的检索浏览和选择使用。舆情热点分析模块需要对热点进行关键词和摘要提取、褒贬分析、传播分析、趋势分析和关联分析等进一步的智能分析,为用户全面、准确地掌握舆情热点信息提供强有力的辅助手段。
图1-3 舆情监控分析系统的系统结构图
(3)舆情信息全面服务:舆情信息服务部分根据采集并分析整理后的信息直接为用户提供各种信息服务,如自动生成舆情信息简报、追踪已发现的舆论热点并形成趋势分析、辅助各级领导的决策支持、完成用户个性化信息定制、将特定主题及专题信息主动推送给用户等。
在如上所述的三个层次中,舆情信息智能分析部分是整个系统的核心,也是整个系统的难点。
3.结合内容的网站信息安全风险评估系统
网站信息安全风险评估是建立信息系统安全体系的基础和前提,也是评价信息系统建设的重要部分。针对网站是一个特殊的信息系统,它主要是提供网页给用户查阅。而网页的主要文字和图像等内容是否安全健康也是网站风险需要考虑的重要因素,因而一般的风险评估软件在这方面很难达到要求。根据对网站相关风险评估的需求,网站信息安全风险评估系统设计应该考虑到各类信息所面临的威胁类别及其可被利用的群体等。结合内容的网站信息安全风险评估系统框架图如图1-4所示。
图1-4 结合内容的网站信息安全风险评估系统框架图
本节仅仅介绍了信息内容安全技术的几个具体应用举例,其实可以想象,在其他很多方面都可以应用此技术。例如:对网页过滤、短消息过滤、个性化服务等。另外,对于整个社会安全来言,也越来越需要基于信息内容的安全,例如:对于政府,要防止黑色的、黄色的网络信息;对于公司,要防止内部机密文件泄露;对于个人,需要在浩瀚的信息海洋中获取自己最需要的信息。只有对信息内容安全进行全面研究,这些需要才能渐渐有理论依据和技术实现,也就可以得到更好的满足。而且随着网络技术的不断发展,社会对信息安全的要求也会越来越高,基于内容分析的网络信息安全技术将会随之得到人们更多的重视。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。