当的确需要从网页上抓取电子商务数据时,我们一定希望采集工具低成本、易操作、速度快。数据抓取是个稍有难度的事情,原因有4个。第一,每次数据采集需求都不一样,使得采集工具产品化非常困难。第二,web页面本身非常复杂与混乱,JavaScript更是使得抓取不可控。第三,大部分的工具(开源库)都有相当大的局限性,扩展不方便,数据输出不稳定,不太合适于严肃的商业应用。第四,网络世界无边无际,确定进行网页数据采集,工作量巨大。为引导学习者入门网页数据采集,这里以“八爪鱼采集器”为例,实操网页数据采集。
1)单网页信息采集
打开网页采集器,点击“快速开始”,点击“新建任务”,进入任务配置页面,如图3-1所示。自定义任务名称,选择任务组并填写备注,点击“下一步”。
图3-1 “八爪鱼采集器”配置页面
进入流程配置页面,往流程设计器中拖入一个打开网页的步骤,如图3-2所示。选中浏览器中的打开网页步骤,在右边页面的Url中输入网页Url并点击“保存”,系统会在软件下方的浏览器中自动打开对应网页。
图3-2 “八爪鱼采集器”流程配置页面
下面进行数据字段的提取。点击浏览器中需要提取的字段,然后在弹出的选择对话框中选择“抓取这个元素的文本”,抓取元素文本“TED哪个演讲最打动你?”如图3-3所示。
图3-3 抓取元素1
抓取文本元素“10条评论”,如图3-4所示。
图3-4 抓取元素2
抓取文本元素“I’ve watch…impression.”,如图3-5所示。
图3-5 抓取元素3
这里仅抓取3项文本元素,还可以继续点击配置页面中其他需要抓取的字段,配置完成之后修改字段名称,点击“保存”,如图3-6所示。
图3-6 保存设置
单击“数据字段”,系统将会显示采集列表,如图3-7所示,再点击“下一步”。
图3-7 数据字段
单击“下一步”,如图3-8所示。
图3-8 设置执行计划
单击“启动单机采集”,如图3-9所示,系统将会在本地执行采集流程并显示最终采集的结果。
图3-9 执行“单机采集”
单网页信息采集任务完成,显示如图3-10所示。
图3-10 任务完成
2)单网页列表信息采集
打开网页采集器,点击“快速开始”,点击“新建任务”,进入任务配置页面,如图3-11所示。
自定义任务名称,选择任务组并填写备注,点击“下一步”。
图3-11 任务配置页面
进入流程配置页面,往流程设计器中拖入一个打开网页的步骤。在右边的页面Url中输入网页Url并点击“保存”,系统会在软件下方的浏览器中自动打开对应网页,如图3-12所示。
如果滑动浏览器滚动条,大家可以看到网页都是由同样的区域块组成的,我们需要抓取每一个区域块中的数据信息,而且每个区域块中的格式都是一样的。这时候我们需要创建一个循环列表,循环抓取每一个区域块中的元素。
图3-12 流程配置页面
点击图中第一个区域块,如图3-13所示,可以看到浏览器中的红色虚线框是选中了整个区域块的,如果选不中的话,可以在弹出的选择对话框上面的HTML等选项上进行调整。
图3-13 区域块选择
调整好之后,选择“创建一个元素列表以处理一组元素”,如图3-14所示。
图3-14 创建一元素列表
接下来在弹出的对话框中选择“添加到列表”,如图3-15所示。
图3-15 添加到列表
第一个区域块添加好之后选择“继续编辑列表”,如图3-16所示。
图3-16 继续编辑列表
接下来以同样的方式添加第二个区域块,如图3-17所示。
图3-17 添加第二个区域块
我们添加第二个区域块的时候可以看图3-18,这时候页面中其他元素都被添加进来了。这是因为我们添加的是两个具有相似特征的元素,系统会智能地将页面中其他具有相似特征的元素都添加进来。然后选择“创建列表完成”,如图3-18所示。
图3-18 创建列表完成
单击图3-19中的“循环”,循环采集列表就完成了。系统会在页面右上方显示本页面添加进来的所有循环项。
图3-19 循环处理
下面进行数据字段的提取。选择浏览器中需要提取的字段,如图3-20所示。
图3-20 提取字段
然后在弹出的选择对话框中选择“抓取这个元素的文本”,如图3-21所示。
图3-21 抓取元素的文本
上述操作之后,系统会在页面的右上方显示我们抓取的字段,如图3-22所示。
图3-22 显示抓取字段
接下来配置页面中其他需要抓取的字段,配置完成之后修改字段名称,如图3-23所示。修改完成之后点击“保存”按钮,再点击“数据字段”可以看到采集列表。
图3-23 抓取其他字段
依次点击“下一步”“下一步”“启动单机采集”,本次单网页列表信息采集完成,如图3-24所示。
图3-24 完成采集
3)单网页列表详细信息采集
列表页面在互联网上的“出镜率”非常高,点击列表中的一行链接会打开一个详细信息页面,接下来演示如何采集这种类型网页里面的详细信息。
打开网页采集器,点击“快速开始”,点击“新建任务”,进入任务配置页面。自定义任务名称,选择任务组并填写备注,点击“下一步”。往流程设计器中拖入一个打开网页的步骤,在右边的页面Url中输入网页Url并点击“保存”,系统会在软件下方的浏览器中自动打开对应网页,如图3-25所示。
图3-25 打开列表网页
由于我们需要循环点击采集器内嵌浏览器中歌曲名称,再提取子页面中的数据信息,所以我们需要做一个循环采集列表。点击图3-26中第一个循环项,在弹出的对话框中选择“创建一个元素列表以处理一组元素”,如图3-27所示。
图3-26 创建循环采集列表
图3-27 创建一个元素列表
接下来在弹出的对话框中选择“添加到列表”,如图3-28所示。
图3-28 添加到列表
第一个循环项添加好之后选择“继续编辑列表”,如图3-29所示。
图3-29 继续编辑列表
接下来以同样的方式添加第二个循环项,在浏览器中点击添加项,如图3-30所示。
图3-30 创建第二个循环采集列表
再点击“添加到列表”,如图3-31所示。
图3-31 添加到列表
在添加第二个循环项时可以看图3-32,这时候页面中其他元素都被添加进来了。这是因为我们添加的是两个具有相似特征的元素,系统会智能地将页面中其他具有相似特征的元素都添加进来,然后选择“创建列表完成”。
图3-32 创建列表完成
点击“循环”,如图3-33所示。
图3-33 循环处理列表
如上操作之后,循环采集列表就完成了。系统会在页面右上方显示本页面添加进来的所有循环项。(www.xing528.com)
选择点击图3-33第一个循环项,进入第一个子链接里面,选择浏览器中歌曲名称、评分等需要提取的字段,如图3-34所示。
图3-34 选择需提取的字段
然后在弹出的选择对话框中选择“抓取这个元素的文本”,如图3-35所示。
上述操作之后,系统会在页面的右上方显示我们将要抓取的字段。接下来配置页面中其他需要抓取的字段,配置完成之后修改字段名称。修改完成之后点击上图中的“保存”按钮,再点开图中的“数据字段”可以看到系统显示采集列表。点击上图中的“下一步”,“下一步”,“启动单机采集”。点击“启动单机采集”,系统将会在本地执行采集流程并显示最终采集的结果,如图3-36所示。
图3-35 抓取这个元素的文本
图3-36 采集完成
4)单网页表格信息采集
如何采集单网页上的表格信息?通过“单网页表格信息采集”演示,一目了然,即学即会。
打开网页采集器,点击“快速开始”,点击“新建任务”,进入任务配置页面。自定义任务名称,选择任务组并填写备注,点击“下一步”,如图3-37所示。
图3-37 单网页表格信息配置
往流程设计器中拖入一个打开网页的步骤。在右边的页面Url中输入网页Url并点击“保存”,如图3-38所示。
图3-38 打开表格网页
系统会在软件下方的浏览器中自动打开对应网页。如图3-39所示,浏览器中大家可以看到网页都是由同样的区域行组成的,我们需要抓取每一个区域行中的数据信息,而且每个区域行的格式都是一样的。这时候我们需要创建一个循环列表,循环抓取每一个区域行中的元素。注意最终提取的元素一定包含在循环项里面。
图3-39 表格网页展示
点击图3-40中第一个区域行,可以看到浏览器中的红色虚线框是选中了整个区域行的,如果无法选中,可以在弹出的选择对话框上面的扩大选项上进行调整。调整好之后,选择“创建一个元素列表以处理一组元素”,如图3-41所示。
图3-40 选择整个区域行
图3-41 创建一个元素列表
接下来在弹出的对话框中选择“添加到列表”,如图3-42所示。
图3-42 添加到列表
第一个区域行添加好之后选择“继续编辑列表”,如图3-43所示。
图3-43 继续编辑列表
选择“添加到列表”,如图3-44所示。
图3-44 添加到列表
我们添加第二个区域行的时候可以看图3-45,这时候页面中其他元素都被添加进来了。这是因为我们添加的是两个具有相似特征的元素,系统会智能地将页面中其他具有相似特征的元素都添加进来。然后选择“创建列表完成”。
图3-45 创建列表完成
点击“循环”,如图3-46所示。如上操作之后,循环采集列表就完成了。系统会在页面右上方显示本页面添加进来的所有循环项。
图3-46 循环处理列表
下面进行数据字段的提取。在浏览器中点击需要提取的字段,然后在弹出的选择对话框中选择抓取这个元素的文本。上述操作之后,系统会在页面的右上方显示我们将要抓取的字段,如图3-47所示。
图3-47 提取字段
依次点击浏览器中表格第一行各个单元格,并在每次弹出的窗口中选择“抓取这个元素的文本”选项,如图3-48所示。
图3-48 抓取这个元素的文本
配置完成之后按照表格每列的名称(如“年度”“进出口”等)修改字段名称,如图3-49所示。
图3-49 修改字段名称
修改完成之后点击图3-49中的“保存”按钮,再点开图中的“数据字段”可以看到,系统将会显示最终的采集列表,如图3-50所示。
图3-50 采集列表
点击“下一步”,“下一步”,“启动单机采集”。单网页表格信息采集完成,如图3-51所示。
图3-51 采集完成
5)分页列表信息采集
怎么创建循环翻页并能正常采集网页数据信息呢?“分页列表信息采集”演示将告诉大家具体操作步骤。经过演示前面几项任务,大家对“设置基本信息”步骤已经非常熟悉。分页列表信息采集与之相似。
设计工作流程步骤选中在右边的页面Url中输入网页Url并点击“保存”,系统会在软件下方的浏览器中自动打开对应网页,如图3-52所示。
图3-52 打开网页
下面创建循环翻页。点击图3-52浏览器页面中的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”,如图3-53所示。翻页循环创建完毕之后,点击弹出窗口中的“保存”。
图3-53 循环点击下一页
滚动浏览器查看网页,可以看到网页都是由同样的区域块组成的,我们需要抓取每一个区域块中的数据信息,而且每个区域块的格式都是一样的。这时候我们需要创建一个循环列表,循环抓取每一个区域块中的元素。点击图3-54中第一个区域块,在弹出的对话框中选择“创建一个元素列表以处理一组元素”,如图3-55所示。
图3-54 第一个区域块
图3-55 创建一个元素列表
接下来在弹出的对话框中选择“添加到列表”。第一个区域块添加好之后选择“继续编辑列表”。接下来以同样的方式添加第二个区域块。添加第二个区域块之后,如图3-56所示,这时候页面中其他元素都被添加进来了。这是因为我们添加的是具有两个相似特征的元素,系统会智能地将页面中其他具有相似特征的元素都添加进来。
然后选择图3-56中“创建列表完成”,点击“循环”。
图3-56 创建列表完成
循环采集列表完成后,下面进行数据字段的提取。设计工作流程如图3-57所示,点击流程设计器中的提取数据,再选择浏览器中需要提取的字段,然后在弹出的选择对话框中选择“抓取这个元素的文本”。
图3-57 设计工作流程
接下来配置页面中其他需要抓取的字段,配置完成之后修改字段名称,如图3-58所示。
图3-58 配置数据字段
点击图3-58中的“下一步”,弹出窗口中再依次点击“下一步”“启动单机采集”,系统将会在本地执行采集流程并显示最终采集的结果,如图3-59所示。
图3-59 采集结果
6)分页列表详细信息采集
创建循环翻页的步骤与“分页列表信息采集”演示中的步骤相同,因此直接跳过前面步骤的演示。如图3-60所示,点击“循环点击下一页”,翻页循环创建完毕。
图3-60 创建翻页循环
点击图3-61中的“保存”按钮。由于我们需要循环点击图3-61浏览器中文章名称,再提取子页面中的数据信息,所以我们需要做一个循环采集列表。
图3-61 子页面信息
点击图3-61中第一个循环项,在弹出的对话框中选择“创建一个元素列表以处理一组元素”,如图3-62所示。
图3-62 创建一个元素列表
接下来在弹出的对话框中选择“添加到列表”。第一个循环项添加好之后选择“继续编辑列表”。
当添加第二个循环项后,页面中其他元素都被添加进来了。这是因为我们添加的是具有两个相似特征的元素,系统会智能地将页面中其他具有相似特征的元素都添加进来。然后选择“创建列表完成”,点击“循环”,循环采集列表就完成了。
系统会在页面右上方显示本页面添加进来的所有循环项。注意循环流程应从上一网页执行,所以这个循环列表需要放到点击翻页的前面,否则会漏掉第一页的数据。
选择第一个循环项,再选择“点击元素”,如图3-63所示,进入到第一个子链接里面。选择浏览器中需要提取的字段,然后在弹出的选择对话框中选择“抓取这个元素的文本”。
图3-63 提取子链接的字段
上述操作之后,系统会在页面的右上方显示我们将要抓取的字段。修改完成之后点击上图中的“保存”按钮,再点开图中的“数据字段”可以看到,系统将会显示采集列表,如图3-64所示。
图3-64 采集列表
点击图3-64中的“下一步”,“下一步”,“启动单机采集”。系统将会在本地执行采集流程并显示最终采集的结果,如图3-65所示。
图3-65 采集结果
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。