4.9.1 公开资料搜集
美国从20世纪90年代开始,就明确地把网络恐怖主义作为未来要面对的主要威胁之一。据统计,2000年全球无线通信用户发送的文本信息达200亿条,而美国有7.5亿条。2000年,美国联邦调查局采取了CANU系统监控互联网,在这套系统里打入关键字就可以搜索各网站上和电子邮件中的有关敏感信息。该系统在互联网服务商处直接安置设备进行监控,一旦发现有价值的信息情报,便可根据指令的不同,记录电子邮件的地址,也可记录通信的内容。针对恐怖分子的加密通信,美国国家安全局研制出一种运算速度极快的巨型机,用于密码破译。一个普通加密系统的“底码”数据大约7 000万亿个,如果用普通个人电脑来查找,将“底码”的每一种可能组合都试一遍,大概需要22 652年,而用巨型机只需几秒钟即可破解。
2001年“9·11事件”后,美国政府调整网络安全计划,进一步完善网络信息基础设施,为此美国国务院在贝尔茨维尔创建网络监视中心。该中心建立了各种传感器系统,拥有75个中央报告台,能显示500多个网络入侵测试设备的信息,对探测到的攻击信息可自动做出响应,以保护内部计算机网络的安全,防止情报泄露,保证网络连接畅通。在确保网络正常运转的同时,美国政府有关科研机构研制了网络监测软件用于搜索和采集网络信息,并有针对性地进行筛选、分析、研究。
日本长期以来一直重视全面情报收集工作,在互联网情报信息收集方面也一以贯之。为使日本在5年以内成为互联网领域世界最先进的情报技术国家,日本前首相森喜朗在2000年9月国会报告中,正式提出了“e-Japan”的构想;而在2001年3月IT战略总部(政府高度情报通信网络社会推进战略总部)会议上,森喜朗又表示,为强化日本经济竞争力,必须积极发展情报通信技术,所以日本政府坚决支持“e-Japan”战略计划,并且在2002年的财政预算中投资2兆日元来实施该计划。同时,IT战略总部还起草了“e-Japan”战略计划草案,并于2001年5月31日召开会议,宣布了关于2002年IT重点施政方针的“e-Japan2002计划”。在此计划中将确保“信息安全”作为五大主要方针之一,主张建立对付网络恐怖数据库,收集、传送、积累官方与民间的网络恐怖活动信息,并着手开发密码技术及信息安全评估技术等基础技术。
韩国在1995年就组建了“黑客”侦查队,并积极开展工作,此后分别于1997年和1999年建立了计算机犯罪侦查队和网络犯罪侦查队,并于2000年成立了网络恐怖监控中心。各国警方纷纷派人员到韩国学习网络犯罪侦查技术。2004年2月20日韩国成立了国家网络安全中心,这个隶属于韩国国家情报院的机构的任务是保护国家通信网络不受网络恐怖袭击。该中心的人员来自韩国情报保护振兴院、国家保安技术研究所、财政经济部、国防部、行政自治部、信息通信部、大检察厅和督察厅等部门。该中心将对来自国内外的各种威胁情报进行综合分析,在发现攻击迹象时协助各级机关制定安全对策,并在发生紧急状况时负责预报和发出警报,同时负责发放国家网络安全宣传资料,加强预防等工作。
互联网已经深化成一个虚拟社会,在加强互联网管理的同时,组织力量开展互联网信息的整理和分析,对于维护国家安全和保障社会稳定具有重要意义。如何规范对互联网网站信息的收集和管理,是目前各国需要迫切解决的问题。
当前,各国负责网络安全的网络安全运行管理人员都管理着大量的网站信息,而大部分网站信息都是松散式的,依靠人工发现或检索信息则要耗费大量的精力。按照传统的人工浏览方式对互联网网站信息进行巡查,如果按照一名专业人员每分钟浏览一页网页,平均每天每个网站信息更新10页网页计算,要将10 000个网站更新信息浏览一遍,将需要约200余名专业人员连续工作24小时才能完成。
即便如此,如何有效地针对发现的异常信息进行深入分析处理,仍然是一件非常困难的事情,特别是对大量离散事件之间的关系进行挖掘和分析。因此,需要发展相应的信息挖掘分析手段。
4.9.2 网络信息挖掘
网络,是情报的重要来源。网络信息挖掘是数据挖掘技术在网络信息处理中的应用,通过从大量训练样本中获取数据对象间的内在特征,并以此为依据进行有目的的情报与信息提取。网络信息挖掘技术以知识库技术为基础,综合运用了人工智能、模式识别、神经网络领域等各种技术。图4.27为经典的网络侦查及信息挖掘系统组成示意图。
网络侦查及信息挖掘系统包括以下要素:
(1)数据中心
它是各类情报资料和系统管理数据的存储核心,也称为情报数据库。
(2)情报采集
根据决策者或使用者的信息需求,设定主题目标,确定信息收集任务,自动从网页上实时采集有关的情报信息。系统对这些情报信息进行自动下载、内容智能分析与初步过滤,剔除无用、过期与重复的信息,并进行自动分类。
图4.27 网络侦查及信息挖掘系统组成
(3)情报分析
对收集到的信息素材进行计算机自动分类与人工辅助分类,然后通过提取关键词、数据挖掘,按照主题重新组织信息,从大量文本信息中提取出有价值的情报。
(4)情报服务
提供情报分类导航、情报预警,并对指定的情报内容进行发布。
(5)情报管理中心
提供系统管理和定制管理功能,包括用户/权限管理、工作流管理、情报源设定、情报主题管理等功能。
4.9.2.1 技术架构
图4.28为网络侦查及信息挖掘系统的技术架构示意图。
(1)全面收集互联网公开信息
系统实时地将各种途径采集的标准格式信息自动接收,按照定义的规则对信息重排后,存入后台内容管理数据平台,并自动提取摘要和关键词,建立索引。
(2)新闻网站信息自动收集
采用多配置端、多线程下载的自动网络采集技术,自动跟踪下载每日网络新闻信息的更新。支持动态和静态网站信息的采集、加密网站信息采集和需要登录验证的网站信息采集。
图4.28 网络侦查及信息挖掘系统的技术架构
(3)论坛信息获取分析
监控论坛并跟踪主题,根据回复数和点击数进行热点话题统计。定制规则分析敏感话题,对所有的话题可进行浏览和检索。
(4)信息的智能加工处理(www.xing528.com)
应用基于自然语言理解的自动摘要技术和自动提取关键词技术,可实现对信息的初步加工处理,减少人工浏览所需要的大量时间。按照业务需求,定制多种分类类别,对于采集到的互联网公开信息进行自动归类。归类结果可以按照信息来源等属性显示,也可以按照信息内容的类别显示。可根据信息内容的不同,自动建立关联和相关推荐,自动聚焦互联网热点报道。可以通过主题检测功能实时地将海量网站信息按照网站主题以及更高层次的专题进行组织,方便用户的检索浏览和选择使用,也可以主动将特定主题及专题信息推送给用户。网站主题追踪技术则能帮助有关职能部门及时追踪特定网站主题,从而获得最关注的网站信息,满足各业务角色的需求。
4.9.2.2 网页信息采集
网页信息采集的主要功能是通过Web页面之间的链接关系,从Web上自动地获取页面信息,并且随着链接不断地向所需要的Web页面扩展的过程。
网页采集是指从一个初始的URL或者URL集出发,将这些URL全部放入到一个有序的待采集队列里,而采集器从这个队列里按顺序取出URL,通过Web上的协议,获取URL所指向的页面,然后从这些已获取的页面中提取新的URL,并将它们继续加入到待采集队列里,然后重复上面的过程,直到采集器根据自己的策略停止采集。
采集程序从一个网页或多个网页出发,逐步遍历网上的文档。设计这种程序的主要目的是自动浏览网页并将符合要求的网页采集下来,存储到本地的数据库中。采集程序首先要做的是解析网页的HTML代码,查找该页面内的超链接,然后通过递归和非递归两种方式来实现采集程序。
(1)递归方式,是在一个方法中调用自己本身的程序方式。这种方式在遍历的过程中,在没有处理完一个网页对应的URL情况下处理该网页中某个URL。这种程序虽然简单,但是当一个URL本身的链接较多时,递归每次要将本次未完成的代码压进程序代码栈,这样在执行程序时要耗费大量计算机资源。另外,这种程序不能使用多线程技术。因此,在高效的采集程序中不采用此方式。
(2)非递归方式,这种方法使用队列的数据结构,当采集程序发现超链接后并不调用自己本身,而是把超链接加入到等待队列中。当采集程序扫描完当前页面后,会根据制定的策略访问队列中的下一个超链接地址。
从工作角度上来说,网页信息采集面临的挑战包括:
(1)网站的内容更新频繁,获取的信息有时效性要求。
(2)Web的动态性。每天Web中的内容和Web的结构都在变化着。
(3)Web的异构性。Web中包含的文件类型各式各样,包括图像、图片、声音、文本以及Script等。
(4)Web页面的重复性。最近的研究表明,将近30%的页面是转载重复的。
目前网站的网页源代码的代码量都十分庞大,直接下载后,有效信息只占很少一部分,整个网页下载增加了存储空间和后续处理量。
从技术角度看,网页采集面临的主要困难有:
(1)如何高效稳定地以较小的代价获取网络信息,提高信息采集的速度与效率。网页采集是系统的核心部分,网页采集的速度也一直是影响系统性能的重要原因。如何在单位时间内采集到尽可能多的高质量网页,是网页采集技术的一个重要研究。
(2)如何解决链接信息的准确性与相关性问题。由于现在网站的商业性,链接到的地址都是由商家自由定义的,因此会出现许多泛滥的链接信息,导致搜集到的信息不相关或不准确。如何解决链接信息的准确性与相关性问题也是网页采集的一个重大挑战。
目前网页信息采集的技术发展较快,方法也很多。网页信息采集主要分为被动采集和主动采集。被动采集通常是将设备介入到网络的特定部位进行信息采集;主动采集主要是基于Web的信息采集(网页爬虫,Web Crawling,简称WC)。
主动采集的Web信息采集技术又可以分成基于整个Web的信息采集(Scalable WC)、增量式Web信息采集(Incremental WC)、基于主题的Web信息采集(Focused WC)、基于用户个性化的Web信息采集(Customized WC)、基于Agent的信息采集(Agent-based WC)、迁移的信息采集(Relocatable WC)等等。
在这里,简单介绍基于整个Web的信息采集和基于主题的Web信息采集这两种技术。
面向整个Web的网页采集程序是从一个或多个URL开始,然后遍历整个Web。这种网页采集主要是作为门户搜索引擎和大型的Web服务提供商的数据收集部分。对于这类网页采集来说,存在以下几个特点:
(1)采集的范围和数量非常巨大,对采集速度和存储空间要求很高。
(2)由于目标是采集整个Web,所以对采集页的顺序要求相对较低。
(3)当页面需要更新时,尽管多个采集程序并行处理,但仍需要数周甚至数月的时间才能更新一次。
面向主题的网页采集程序是指有选择性地搜寻那些与预先定义好的主题相关的信息。和面向整个Web的网页采集相比,面向主题的网页采集是近几年来比较热门的研究领域,目前流行的信息图书馆及专业网站中都有较深的研究,甚至不少企业自建的企业情报收集系统中也必须应用到此技术。面向主题的网页采集主要有以下几个特点:
(1)信息更新较快。面向整个Web的网页采集的较差的实时性使得数据在采集到的同时就面临着过时的危险。而面向主题的网页采集,采集的数据只是某个方面的,相对来说,数据量少得多,因此信息的更新周期大大变短。
(2)有效地节省了硬件资源,提高了网络资源的利用率。
(3)有利于为用户服务。采集的目的是为了服务于用户,对于每个用户来说,他们并不关心整个Web上的数据,而只是关注其中的一小部分。面向主题的网页采集恰恰可以满足这些用户的需求。
4.9.2.3 网页清洗
浏览Web上的网页,会发现并不是所有的内容都是我们所需要的。网页信息通常包含两方面的内容:一部分体现了网页的主题信息,比如一篇新闻网页中的新闻部分,这部分称为“主题”内容,通常也是网页的核心内容,也是用户最感兴趣的内容;另一部分则是一些与主题内容无关的导航信息、广告信息、版权信息以及调查问卷等内容,常称之为“噪音”。
这些噪音信息往往以链接文字的形式出现,并且和主题没有相关性。这些网页中的噪音不是用户所需要的信息,同样对于确定网页的类别属性没有任何贡献,这些噪音内容不仅给Web上基于网页内容的应用系统带来困难,如网页分类系统、聚类系统、网页信息抽取系统,也给基于网页超链指向的应用系统带来困难,如网页评级系统。
因此,如何快速解决上述问题,准确地识别并清除网页内的噪音是提高Web应用程序处理结果准确性的一项关键技术,通常称之为网页清洗技术。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。