非结构化数据的采集就是针对所有非结构化的数据的采集,包括企业内部数据的采集和网络数据采集等。企业内部数据的采集是对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的数据采集。
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。互联网网页数据处理,就是对抽取出来的网页数据进行内容和格式上的处理、转换和加工,使之能够适应用户的需求,并将之存储下来,供以后使用。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。
网络数据采集和处理的整体过程如图2-1所示,包含4个主要模块:网络爬虫(Spider)、数据处理(Data Process)、URL队列(URL Queue)和数据(Data)。
图2-1 网络数据采集和处理流程
这4个主要模块的功能如下:
(1)网络爬虫:从Internet上抓取网页内容,并抽取出需要的属性内容。
(2)数据处理:对爬虫抓取的内容进行处理。
(3)URL队列(URL Queue):为爬虫提供需要抓取数据网站的URL。(www.xing528.com)
(4)数据:包含Site URL、Spider Data和Dp Data。其中,Site URL是需要抓取数据网站的URL信息;Spider Data是爬虫从网页中抽取出来的数据;Dp Data是经过数据处理之后的数据。
整个网络数据采集和处理的基本步骤如下:
(1)将需要抓取数据的网站的URL信息(Site URL)写入URL队列。
(2)爬虫从URL队列中获取需要抓取数据的网站的Site URL信息。
(3)爬虫从Internet抓取与Site URL对应的网页内容,并抽取出网页特定属性的内容值。
(4)爬虫将从网页中抽取出的数据(Spider Data)写入数据库。
(5)Dp读取Spider Data,并进行处理。
(6)Dp将处理之后的数据写入数据库。
目前网络数据采集的关键技术为链接过滤,其实质是判断一个链接(当前链接)是不是在一个链接集合(已经抓取过的链接)里。在对网页大数据的采集中,可以采用布隆过滤器(Bloom Filter)来实现对链接的过滤。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。