首页 理论教育 搜索引擎的工作原理解析

搜索引擎的工作原理解析

时间:2023-06-10 理论教育 版权反馈
【摘要】:我们之所以能够在Google、百度等搜索引擎中很快找到所需信息,是因为搜索引擎事先为我们收录了大量的网页信息,并且会定期更新。搜索引擎的工作原理可分为抓取、建库、分析搜索请求及计算排列顺序。(一)抓取搜索引擎能够把这么多的信息收录在自己的信息库中求助的是蜘蛛程序。通常情况下,搜索引擎不会将整个网页信息都取回。这主要与搜索引擎公司的排名机制有关。

搜索引擎的工作原理解析

我们之所以能够在Google、百度索引擎中很快找到所需信息,是因为搜索引擎事先为我们收录了大量的网页信息,并且会定期更新。搜索引擎的工作原理可分为抓取、建库、分析搜索请求及计算排列顺序。

(一)抓取

搜索引擎能够把这么多的信息收录在自己的信息库中求助的是蜘蛛程序(Spider)。蜘蛛程序是用计算机语言编制的程序,用以在互联网中不分昼夜地访问各大网站,将访问到的网页信息以最快的速度带回。蜘蛛程序通过浏览器上安装的搜索工具栏,或者网站主从搜索引擎提交页面提交的网站入口开始爬取信息,顺着网站链接找到下一个链接,将抓取的文件存入数据库并定期更新。通常情况下,搜索引擎不会将整个网页信息都取回。对网页信息量大的网站,搜索引擎只会取每个网页有价值的信息,如标题、描述、关键词等。那么什么样的网站更容易被蜘蛛程序抓取呢?第一,结构合理的网站更容易被抓取;第二,有可读信息的网站容易被抓取;第三,有规范化URL的网站容易被抓取。

(二)建库

蜘蛛程序将抓取回来的各种信息放置于数据仓库中,但存放信息是通过关键字描述等相关信息进行分门别类整理压缩,再编辑索引后存放的。这样,用户在输入关键字检索信息时,相关网站信息就会被呈现给最终用户。首先,将抓取的网页分配编号,并对抓取的网页所有文本进行分析,确定网页的关键词。编号为7222的网页主要描述的是世界汽车史,则在数据库中通过构建一维数据表格将与世界汽车史相关的文件编号都归入相应的关键词记录中,再创建另外一张二维数据表格,存储对应网页编号的网站网址、标题。[1](www.xing528.com)

(三)分析搜索请求

当用户在搜索引擎中输入需要查找的关键词后,通过查找数据仓库中与之匹配的关键词对应的文件编号便可找出相关网页的URL及标题等信息。

(四)计算排列顺序

通过分析搜索请求,一批与用户输入关键词相对应的网页被找出,那么,这些网页如何排序呢?这主要与搜索引擎公司的排名机制有关。另外,网页标题与搜索请求相关、网页内容与搜索请求相关,被用户推荐的网站或被其他网站链接的网站的网页较其他网页来说排名应靠前。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈