首页 理论教育 搜索引擎原理:搜索-索引-检索

搜索引擎原理:搜索-索引-检索

时间:2023-08-12 理论教育 版权反馈
【摘要】:一个搜索引擎由搜索器、索引器和检索器三部分组成,与之相对应,搜索引擎的原理就可以分为三步:①从英特网上采集信息;②建立索引数据库;③提供检索服务。(二)索引器建立索引数据库搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。搜索引擎的运作就是通过搜索器、索引器和检索器三者的配合,在英特网上接受用户的查询指令,完成检索过程并给出反馈结果的过程。

搜索引擎原理:搜索-索引-检索

一个索引擎由搜索器、索引器和检索器三部分组成,与之相对应,搜索引擎的原理就可以分为三步:①从英特网上采集信息;②建立索引数据库;③提供检索服务。

(一)搜索器从英特网上采集信息

搜索器,也就是“蜘蛛”(Spider)程序、“爬虫”(Crawler)或“机器人”(Robot)程序,其功能就是在互联网上漫游,爬来爬去,来抓取和搜集信息。世界上第一个Spider程序,是MIT Matthew Gray的World Wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。每个独立的搜索引擎都有自己的Spider,这种“网络蜘蛛”顺着网页中的超链接,连续地抓取网页,被抓取的网页被称为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。而且,由于搜索器是一个计算机程序,因此可以日夜不停地运行,尽可能多而快地搜集到各种类型的新信息,并定期地更新已经搜集过的旧信息,以避免出现无效链接。

搜索器通常以两种方式运作:一种是以一个URL集合为基础,顺着这些URL中的超链接,依次请求响应的网络资源,并将其交给网页标引模块进行标引处理;另一种是将Web空间按照域名、IP地址或国别域名划分成子空间,让每个搜索器负责一个子空间的穷尽搜索。

(二)索引器建立索引数据库(www.xing528.com)

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。索引器的主要功能就是把搜索器搜集的信息进行分类整理,提取出索引项和关键词,建立索引文件数据库。此外,索引器还起到去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等作用。不同的搜索引擎在进行信息分类整理时,有的会把“网络蜘蛛”发往每一个站点,记录下每一页的所有文本内容并收集到数据库中,从而形成全文搜索引擎;有的只记录网页的地址、篇名、特殊段落和关键词等,如目录搜索引擎。因此,搜索引擎所整理的结果呈现形式是有明显差异的,所形成的引擎数据库也大小不一。

(三)检索器提供检索服务

检索器的功能是提供给用户检索界面并接受用户的检索要求,到索引数据库中进行信息匹配或直接依靠搜索器发现结果,进而为用户输出相关性结果和信息。在检索时,用户可以通过输入关键词或短语进行检索,搜索引擎从索引数据库中查找相应的词语,找到匹配的网页;为了用户便于判断,除了网页标题和URL外,搜索引擎还会提供一段来自网页的摘要以及其他信息。

搜索引擎的运作就是通过搜索器、索引器和检索器三者的配合,在英特网上接受用户的查询指令,完成检索过程并给出反馈结果的过程。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈