首页 理论教育 Python网络爬虫:按规则自动抓取万维网信息

Python网络爬虫:按规则自动抓取万维网信息

时间:2023-11-16 理论教育 版权反馈
【摘要】:网络“爬虫”是一种按照一定的规则、自动抓取万维网信息的程序或者脚本。如果将互联网比作一张大网,爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到需要的资源,就会抓取下来,程序员来控制抓取的内容。例如抓取一个网页时,在这个网中发现了一条道路,其实就是指向另外一个网页的超链接, “爬虫”就可以“爬”到另一张网上去获取数据。这样,整个连在一起的大网对这只 “蜘蛛”来说触手可及,很容易抓取到想要的信息。

Python网络爬虫:按规则自动抓取万维网信息

网络“爬虫”(WebSpider)是一种按照一定的规则、自动抓取万维网信息的程序或者脚本。如果将互联网比作一张大网,爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到需要的资源,就会抓取下来,程序员来控制抓取的内容。例如抓取一个网页时,在这个网中发现了一条道路,其实就是指向另外一个网页的超链接, “爬虫”就可以“爬”到另一张网上去获取数据。这样,整个连在一起的大网对这只 “蜘蛛”来说触手可及,很容易抓取到想要的信息。通俗的讲 “爬虫”就是通过程序去获取Web页面上自己想要的数据,也就是自动抓取数据。

当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括HTML、JS、CSS等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果。用户看到的浏览器的结果就是由HTML代码构成的,“爬虫”就是为了获取这些内容,然后通过分析和过滤HTML代码,从中获取我们想要资源。

“爬虫”的基本流程如下:

(1)发起请求:通过HTTP 库向目标站点发起请求,也就是发送一个请求 (Request),请求可以包含额外的头(Header)等信息,等待服务器响应;(www.xing528.com)

(2)获取响应内容:如果服务器能正常响应,会得到一个响应信息 (Response),响应信息的内容便是所要获取的页面内容,类型可能是HTML、JSON 字符串、二进制数据(图片或者视频)等类型;

(3)解析内容:得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析;也可能是JSON,可以直接转换为JSON 对象解析,可能是二进制数据,可以做保存或者进一步的处理;

(4)保存数据:保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈