【摘要】:对于2020年突发的新冠肺炎疫情,人们比较关心的是国内外各个地方的确诊数据。本章节以“获取国内外新冠肺炎实时数据”为例,讲解网络爬虫的实现过程。第3步:观察数据。第4步:获取国内实时数据导出到Excel表中。在component的globalList中得到国外的数据然后创建excel表格中的sheet即可,分别表示不同的大洲。运行结果产生一个Excel文件,爬虫数据结果如图6-2所示。
对于2020年突发的新冠肺炎疫情,人们比较关心的是国内外各个地方的确诊数据。本章节以“获取国内外新冠肺炎实时数据”为例,讲解网络爬虫的实现过程。
例6_1_worm.py
第1步:导入requests模块。
requests是Python实现的简单易用的HTTP库,因为是第三方库,所以使用前需要cmd安装:
用法:requests.get()用于请求目标网站,返回一个HTTPresponse类型的响应。
第2步:获取网页信息。
第3步:观察数据。
数据包含在script标签里,使用xpath来获取数据。
首先导入模块:from lxml import etree,生成一个html对象并且进行解析,得到一个类型为list的内容。(www.xing528.com)
接下来获取component的内容,使用json模块,将字符串类型转变为字典,为了获取国内的数据,需要在component中找到caseList。
第4步:获取国内实时数据导出到Excel表中。
使用openyxl模块,import openpyxl。首先创建一个工作簿,在工作簿下创建一个工作表,接下来给工作表命名和给工作表赋予属性。
第5步:获取国际实时数据导出到Excel表中。
在component的globalList中得到国外的数据然后创建excel表格中的sheet即可,分别表示不同的大洲。
运行结果产生一个Excel文件,爬虫数据结果如图6-2所示。
图6-2 网络爬虫效果
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。