如何使用八爪鱼采集器进行网页数据采集？

时间：2023-05-30 理论教育版权反馈

【摘要】：为引导学习者入门网页数据采集，这里以“八爪鱼采集器”为例，实操网页数据采集。图3-9执行“单机采集”单网页信息采集任务完成，显示如图3-10所示。图3-25打开列表网页由于我们需要循环点击采集器内嵌浏览器中歌曲名称，再提取子页面中的数据信息，所以我们需要做一个循环采集列表。

如何使用八爪鱼采集器进行网页数据采集？

当的确需要从网页上抓取电子商务数据时，我们一定希望采集工具低成本、易操作、速度快。数据抓取是个稍有难度的事情，原因有4个。第一，每次数据采集需求都不一样，使得采集工具产品化非常困难。第二，web页面本身非常复杂与混乱，JavaScript更是使得抓取不可控。第三，大部分的工具（开源库）都有相当大的局限性，扩展不方便，数据输出不稳定，不太合适于严肃的商业应用。第四，网络世界无边无际，确定进行网页数据采集，工作量巨大。为引导学习者入门网页数据采集，这里以“八爪鱼采集器”为例，实操网页数据采集。

1）单网页信息采集

打开网页采集器，点击“快速开始”，点击“新建任务”，进入任务配置页面，如图3-1所示。自定义任务名称，选择任务组并填写备注，点击“下一步”。

图3-1　“八爪鱼采集器”配置页面

进入流程配置页面，往流程设计器中拖入一个打开网页的步骤，如图3-2所示。选中浏览器中的打开网页步骤，在右边页面的Url中输入网页Url并点击“保存”，系统会在软件下方的浏览器中自动打开对应网页。

图3-2　“八爪鱼采集器”流程配置页面

下面进行数据字段的提取。点击浏览器中需要提取的字段，然后在弹出的选择对话框中选择“抓取这个元素的文本”，抓取元素文本“TED哪个演讲最打动你？”如图3-3所示。

图3-3　抓取元素1

抓取文本元素“10条评论”，如图3-4所示。

图3-4　抓取元素2

抓取文本元素“I’ve　watch…impression．”，如图3-5所示。

图3-5　抓取元素3

这里仅抓取3项文本元素，还可以继续点击配置页面中其他需要抓取的字段，配置完成之后修改字段名称，点击“保存”，如图3-6所示。

图3-6　保存设置

单击“数据字段”，系统将会显示采集列表，如图3-7所示，再点击“下一步”。

图3-7　数据字段

单击“下一步”，如图3-8所示。

图3-8　设置执行计划

单击“启动单机采集”，如图3-9所示，系统将会在本地执行采集流程并显示最终采集的结果。

图3-9　执行“单机采集”

单网页信息采集任务完成，显示如图3-10所示。

图3-10　任务完成

2）单网页列表信息采集

打开网页采集器，点击“快速开始”，点击“新建任务”，进入任务配置页面，如图3-11所示。

自定义任务名称，选择任务组并填写备注，点击“下一步”。

图3-11　任务配置页面

进入流程配置页面，往流程设计器中拖入一个打开网页的步骤。在右边的页面Url中输入网页Url并点击“保存”，系统会在软件下方的浏览器中自动打开对应网页，如图3-12所示。

如果滑动浏览器滚动条，大家可以看到网页都是由同样的区域块组成的，我们需要抓取每一个区域块中的数据信息，而且每个区域块中的格式都是一样的。这时候我们需要创建一个循环列表，循环抓取每一个区域块中的元素。

图3-12　流程配置页面

点击图中第一个区域块，如图3-13所示，可以看到浏览器中的红色虚线框是选中了整个区域块的，如果选不中的话，可以在弹出的选择对话框上面的HTML等选项上进行调整。

图3-13　区域块选择

调整好之后，选择“创建一个元素列表以处理一组元素”，如图3-14所示。

图3-14　创建一元素列表

接下来在弹出的对话框中选择“添加到列表”，如图3-15所示。

图3-15　添加到列表

第一个区域块添加好之后选择“继续编辑列表”，如图3-16所示。

图3-16　继续编辑列表

接下来以同样的方式添加第二个区域块，如图3-17所示。

图3-17　添加第二个区域块

我们添加第二个区域块的时候可以看图3-18，这时候页面中其他元素都被添加进来了。这是因为我们添加的是两个具有相似特征的元素，系统会智能地将页面中其他具有相似特征的元素都添加进来。然后选择“创建列表完成”，如图3-18所示。

图3-18　创建列表完成

单击图3-19中的“循环”，循环采集列表就完成了。系统会在页面右上方显示本页面添加进来的所有循环项。

图3-19　循环处理

下面进行数据字段的提取。选择浏览器中需要提取的字段，如图3-20所示。

图3-20　提取字段

然后在弹出的选择对话框中选择“抓取这个元素的文本”，如图3-21所示。

图3-21　抓取元素的文本

上述操作之后，系统会在页面的右上方显示我们抓取的字段，如图3-22所示。

图3-22　显示抓取字段

接下来配置页面中其他需要抓取的字段，配置完成之后修改字段名称，如图3-23所示。修改完成之后点击“保存”按钮，再点击“数据字段”可以看到采集列表。

图3-23　抓取其他字段

依次点击“下一步”“下一步”“启动单机采集”，本次单网页列表信息采集完成，如图3-24所示。

图3-24　完成采集

3）单网页列表详细信息采集

列表页面在互联网上的“出镜率”非常高，点击列表中的一行链接会打开一个详细信息页面，接下来演示如何采集这种类型网页里面的详细信息。

打开网页采集器，点击“快速开始”，点击“新建任务”，进入任务配置页面。自定义任务名称，选择任务组并填写备注，点击“下一步”。往流程设计器中拖入一个打开网页的步骤，在右边的页面Url中输入网页Url并点击“保存”，系统会在软件下方的浏览器中自动打开对应网页，如图3-25所示。

图3-25　打开列表网页

由于我们需要循环点击采集器内嵌浏览器中歌曲名称，再提取子页面中的数据信息，所以我们需要做一个循环采集列表。点击图3-26中第一个循环项，在弹出的对话框中选择“创建一个元素列表以处理一组元素”，如图3-27所示。

图3-26　创建循环采集列表

图3-27　创建一个元素列表

接下来在弹出的对话框中选择“添加到列表”，如图3-28所示。

图3-28　添加到列表

第一个循环项添加好之后选择“继续编辑列表”，如图3-29所示。

图3-29　继续编辑列表

接下来以同样的方式添加第二个循环项，在浏览器中点击添加项，如图3-30所示。

图3-30　创建第二个循环采集列表

再点击“添加到列表”，如图3-31所示。

图3-31　添加到列表

在添加第二个循环项时可以看图3-32，这时候页面中其他元素都被添加进来了。这是因为我们添加的是两个具有相似特征的元素，系统会智能地将页面中其他具有相似特征的元素都添加进来，然后选择“创建列表完成”。

图3-32　创建列表完成

点击“循环”，如图3-33所示。

图3-33　循环处理列表

如上操作之后，循环采集列表就完成了。系统会在页面右上方显示本页面添加进来的所有循环项。(www.xing528.com)

选择点击图3-33第一个循环项，进入第一个子链接里面，选择浏览器中歌曲名称、评分等需要提取的字段，如图3-34所示。

图3-34　选择需提取的字段

然后在弹出的选择对话框中选择“抓取这个元素的文本”，如图3-35所示。

上述操作之后，系统会在页面的右上方显示我们将要抓取的字段。接下来配置页面中其他需要抓取的字段，配置完成之后修改字段名称。修改完成之后点击上图中的“保存”按钮，再点开图中的“数据字段”可以看到系统显示采集列表。点击上图中的“下一步”，“下一步”，“启动单机采集”。点击“启动单机采集”，系统将会在本地执行采集流程并显示最终采集的结果，如图3-36所示。

图3-35　抓取这个元素的文本

图3-36　采集完成

4）单网页表格信息采集

如何采集单网页上的表格信息？通过“单网页表格信息采集”演示，一目了然，即学即会。

打开网页采集器，点击“快速开始”，点击“新建任务”，进入任务配置页面。自定义任务名称，选择任务组并填写备注，点击“下一步”，如图3-37所示。

图3-37　单网页表格信息配置

往流程设计器中拖入一个打开网页的步骤。在右边的页面Url中输入网页Url并点击“保存”，如图3-38所示。

图3-38　打开表格网页

系统会在软件下方的浏览器中自动打开对应网页。如图3-39所示，浏览器中大家可以看到网页都是由同样的区域行组成的，我们需要抓取每一个区域行中的数据信息，而且每个区域行的格式都是一样的。这时候我们需要创建一个循环列表，循环抓取每一个区域行中的元素。注意最终提取的元素一定包含在循环项里面。

图3-39　表格网页展示

点击图3-40中第一个区域行，可以看到浏览器中的红色虚线框是选中了整个区域行的，如果无法选中，可以在弹出的选择对话框上面的扩大选项上进行调整。调整好之后，选择“创建一个元素列表以处理一组元素”，如图3-41所示。

图3-40　选择整个区域行

图3-41　创建一个元素列表

接下来在弹出的对话框中选择“添加到列表”，如图3-42所示。

图3-42　添加到列表

第一个区域行添加好之后选择“继续编辑列表”，如图3-43所示。

图3-43　继续编辑列表

选择“添加到列表”，如图3-44所示。

图3-44　添加到列表

我们添加第二个区域行的时候可以看图3-45，这时候页面中其他元素都被添加进来了。这是因为我们添加的是两个具有相似特征的元素，系统会智能地将页面中其他具有相似特征的元素都添加进来。然后选择“创建列表完成”。

图3-45　创建列表完成

点击“循环”，如图3-46所示。如上操作之后，循环采集列表就完成了。系统会在页面右上方显示本页面添加进来的所有循环项。

图3-46　循环处理列表

下面进行数据字段的提取。在浏览器中点击需要提取的字段，然后在弹出的选择对话框中选择抓取这个元素的文本。上述操作之后，系统会在页面的右上方显示我们将要抓取的字段，如图3-47所示。

图3-47　提取字段

依次点击浏览器中表格第一行各个单元格，并在每次弹出的窗口中选择“抓取这个元素的文本”选项，如图3-48所示。

图3-48　抓取这个元素的文本

配置完成之后按照表格每列的名称（如“年度”“进出口”等）修改字段名称，如图3-49所示。

图3-49　修改字段名称

修改完成之后点击图3-49中的“保存”按钮，再点开图中的“数据字段”可以看到，系统将会显示最终的采集列表，如图3-50所示。

图3-50　采集列表

点击“下一步”，“下一步”，“启动单机采集”。单网页表格信息采集完成，如图3-51所示。

图3-51　采集完成

5）分页列表信息采集

怎么创建循环翻页并能正常采集网页数据信息呢？“分页列表信息采集”演示将告诉大家具体操作步骤。经过演示前面几项任务，大家对“设置基本信息”步骤已经非常熟悉。分页列表信息采集与之相似。

设计工作流程步骤选中在右边的页面Url中输入网页Url并点击“保存”，系统会在软件下方的浏览器中自动打开对应网页，如图3-52所示。

图3-52　打开网页

下面创建循环翻页。点击图3-52浏览器页面中的“下一页”按钮，在弹出的对话框中选择“循环点击下一页”，如图3-53所示。翻页循环创建完毕之后，点击弹出窗口中的“保存”。

图3-53　循环点击下一页

滚动浏览器查看网页，可以看到网页都是由同样的区域块组成的，我们需要抓取每一个区域块中的数据信息，而且每个区域块的格式都是一样的。这时候我们需要创建一个循环列表，循环抓取每一个区域块中的元素。点击图3-54中第一个区域块，在弹出的对话框中选择“创建一个元素列表以处理一组元素”，如图3-55所示。

图3-54　第一个区域块

图3-55　创建一个元素列表

接下来在弹出的对话框中选择“添加到列表”。第一个区域块添加好之后选择“继续编辑列表”。接下来以同样的方式添加第二个区域块。添加第二个区域块之后，如图3-56所示，这时候页面中其他元素都被添加进来了。这是因为我们添加的是具有两个相似特征的元素，系统会智能地将页面中其他具有相似特征的元素都添加进来。

然后选择图3-56中“创建列表完成”，点击“循环”。

图3-56　创建列表完成

循环采集列表完成后，下面进行数据字段的提取。设计工作流程如图3-57所示，点击流程设计器中的提取数据，再选择浏览器中需要提取的字段，然后在弹出的选择对话框中选择“抓取这个元素的文本”。

图3-57　设计工作流程

接下来配置页面中其他需要抓取的字段，配置完成之后修改字段名称，如图3-58所示。

图3-58　配置数据字段

点击图3-58中的“下一步”，弹出窗口中再依次点击“下一步”“启动单机采集”，系统将会在本地执行采集流程并显示最终采集的结果，如图3-59所示。

图3-59　采集结果

6）分页列表详细信息采集

创建循环翻页的步骤与“分页列表信息采集”演示中的步骤相同，因此直接跳过前面步骤的演示。如图3-60所示，点击“循环点击下一页”，翻页循环创建完毕。

图3-60　创建翻页循环

点击图3-61中的“保存”按钮。由于我们需要循环点击图3-61浏览器中文章名称，再提取子页面中的数据信息，所以我们需要做一个循环采集列表。

图3-61　子页面信息

点击图3-61中第一个循环项，在弹出的对话框中选择“创建一个元素列表以处理一组元素”，如图3-62所示。

图3-62　创建一个元素列表

接下来在弹出的对话框中选择“添加到列表”。第一个循环项添加好之后选择“继续编辑列表”。

当添加第二个循环项后，页面中其他元素都被添加进来了。这是因为我们添加的是具有两个相似特征的元素，系统会智能地将页面中其他具有相似特征的元素都添加进来。然后选择“创建列表完成”，点击“循环”，循环采集列表就完成了。

系统会在页面右上方显示本页面添加进来的所有循环项。注意循环流程应从上一网页执行，所以这个循环列表需要放到点击翻页的前面，否则会漏掉第一页的数据。

选择第一个循环项，再选择“点击元素”，如图3-63所示，进入到第一个子链接里面。选择浏览器中需要提取的字段，然后在弹出的选择对话框中选择“抓取这个元素的文本”。

图3-63　提取子链接的字段

上述操作之后，系统会在页面的右上方显示我们将要抓取的字段。修改完成之后点击上图中的“保存”按钮，再点开图中的“数据字段”可以看到，系统将会显示采集列表，如图3-64所示。

图3-64　采集列表

点击图3-64中的“下一步”，“下一步”，“启动单机采集”。系统将会在本地执行采集流程并显示最终采集的结果，如图3-65所示。

图3-65　采集结果

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

如何使用八爪鱼采集器进行网页数据采集？

相关推荐

如何使用八爪鱼采集器进行网页数据采集？

有关电子商务数据分析与应用的文章

相关推荐