首页 理论教育 新闻信息处理技术:基于内容过滤的局域网防泄密系统

新闻信息处理技术:基于内容过滤的局域网防泄密系统

时间:2023-11-23 理论教育 版权反馈
【摘要】:基于内容过滤的局域网防泄密系统的设计目标是在网络监听的基础上,通过对文档结构化数据的识别过滤,达到从网络数据流中截获完整文档的目的,然后根据用户要求进行分类,并产生相应的日志信息和报警[37]。图3-8 基于内容过滤的局域网防泄密系统的结构系统划分为三个模块:数据包捕获模块,完成数据包捕获及协议分析过滤。

新闻信息处理技术:基于内容过滤的局域网防泄密系统

基于内容过滤的局域网防泄密系统的设计目标是在网络监听的基础上,通过对文档结构化数据的识别过滤,达到从网络数据流中截获完整文档的目的,然后根据用户要求进行分类,并产生相应的日志信息和报警[37]

1.系统总体设计思想

基于内容过滤的局域网防泄密系统的总体设计思想如下:

(1)网络数据包的捕获与协议分析。利用网络数据包捕获开发包WinPcap完成数据包的捕获与协议分析。

(2)数据包的检测与文档提取。根据Office文档结构化数据的特点,通过格式分析确定文档的头部特征码和文档长度,然后通过检测特征码来判断是否含有文档,通过文档长度来实现从用户数据中提取完整的文档。

(3)文档内容的审计。通过设计的中文文本分类器对所捕获的文档进行分类,对被判定为涉密的文档进行记录并产生报警信息。

从上述思想可以看出,系统在设计上首先进行网络数据包的捕获,然后进行协议分析与用户数据还原,这一过程利用网络数据包捕获开发包WinPcap完成。对于数据包的检测,核心是确定要检测对象的特征。直接通过对各类MS Office文档进行对照来确定其专有特征是非常困难的,我们通过对微软公布的复合文档格式进行研究后发现,所有的微软复合文档有着共同的起始特征码“D0 CF 11EO A1 B11A E1”,MS Office文档作为微软复合文档的一种,必然有着共同的特征。对于文档的提取,核心是要确定文档在用户数据中的起始和结束位置,在知晓微软复合文档起始特征码的情况下,要完成文档的提取有两种方法,一是找到文档结束的标志,二是确定出文档的大小。通过对微软复合文档的格式分析,发现微软复合文档没有规定文档结束的标志,但能通过格式分析的结果计算出文档的大小,再加上先前检测出的起始位置,就能实现从用户数据中提取完整的文档。对于所截获的文档进行审计其实质是采用中文文本分类器进行分类处理。

2.系统的体系结构(www.xing528.com)

根据上述设计思想,基于内容过滤的局域网防泄密系统的结构如图3-8所示。

978-7-111-33166-7-Chapter03-27.jpg

图3-8 基于内容过滤的局域网防泄密系统的结构

系统划分为三个模块:

(1)数据包捕获模块,完成数据包捕获及协议分析过滤。数据包捕获模块通过网卡捕获流经的所有数据包,由于数据包种类繁多,这里要通过帧协议分析,只过滤出所要的以太网数据帧,然后进行协议的分析,去掉加在用户数据上的控制信息,还原出用户数据。

(2)数据包检测与文档提取模块,过滤数据包,发现并提取组装文档。对还原出来的用户数据进行检测,过滤出含有文档数据的用户数据,然后从中提取出完整的文档。用户数据的检测依赖于高效的字符串匹配算法,用户数据的检测和文档的提取,都必须以微软复合文档格式的分析为基础,通过对文档格式的掌握,才能识别和提取出完整的文档,并能区分文档的类型。

(3)文档内容审计模块,完成对所捕获文档的分类工作,并生成相应文档日志,同时对判定为涉密的文档发出报警信息。必须收集大量的训练样本,分为涉密样本集和非涉密样本集,然后利用训练样本对分类器进行训练,训练完的分类器才能对文本进行分类处理。分类数目可以根据需要来划分。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈