首页 理论教育 搜索引擎的工作原理与系统结构详解

搜索引擎的工作原理与系统结构详解

时间:2023-07-07 理论教育 版权反馈
【摘要】:搜索引擎是对WWW站点资源以及其他网络信息资源进行标引和检索的软件,是网络信息索引和检索工具的核心。从上述定义可以看出,搜索引擎作为检索和利用Internet上信息资源的中介,其工作原理仍然符合计算机信息检索的工作原理——对信息集合和需求集合进行匹配。全文检索技术是关键词式搜索引擎的核心支撑技术。目前搜索引擎的信息采集分为人工采集和自动采集。

搜索引擎的工作原理与系统结构详解

1.索引擎的定义

对于搜索引擎(Search engine)的定义,目前有很多种说法,人们从不同的角度给予阐述,但总的来说主要有以下两种。

(1)搜索引擎是一种检索软件

搜索引擎是对WWW站点资源以及其他网络信息资源进行标引和检索的软件,是网络信息索引和检索工具的核心。它一般由数据采集机制、数据组织机制和用户检索机制组成。

(2)搜索引擎是一类网站。

搜索引擎是Internet上专门提供网络信息检索服务的网站,依托Internet接受用户的查询请求,在其后台建立的索引数据库中进行用户需求和数据库记录的匹配运算,然后向用户提供所需信息所在的网址列表。

本书取后者定义,将搜索引擎视为一种在网络上提供信息检索服务的检索导航工具。在网络技术、数据库技术、自动分类与标引技术、检索匹配技术、人工智能技术等的支持下,搜索引擎以一定的方式和策略在Internet上发现、收集信息,对信息进行分析理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。

2.搜索引擎的基本工作原理与系统结构

(1)基本工作原理。

从上述定义可以看出,搜索引擎作为检索和利用Internet上信息资源的中介,其工作原理仍然符合计算机信息检索的工作原理——对信息集合和需求集合进行匹配。为了实现自身的角色定位,搜索引擎担负着网络信息资源的采集、组织和检索功能,它一方面需要从WWW信息资源中采集信息,另一方面需要构建与主题搜索相关的索引数据库,提供检索接口,反馈用户所需信息。目前搜索引擎一般使用两种技术来实现信息检索。

①网站分类技术。即依据主题分类法(即一个主题一个类目,类目按字顺排列)、学科分类法(按照学科领域组织网络资源)或者大型图书分类法,如杜威十进分类法(DDC)、国际十进分类法(UDC)以及国会图书馆分类(LCC)等建立一个网络分类目录,将收集的相关网站,归入相应级别的类目下,并对每个站点进行简要描述,形成一个树状的分类体系结构,即总目—子类目—链接—文本。如Yahoo!之类的网络资源指南采取的就是这种方式。(www.xing528.com)

②网页全文检索技术。通过计算机程序自动遍历因特网,将相关网页收集起来,并扫描网页中的每一个词,建立从字(词)到整个网页的倒排索引。在此基础上,用户使用关键词进行查询,系统将向用户反馈包含该关键词的网页。全文检索技术是关键词式搜索引擎的核心支撑技术。

(2)搜索引擎的系统结构。

一般来说,无论搜索引擎采用什么技术,一般都由信息采集子系统、索引子系统、检索子系统三部分组成。

①信息采集子系统。信息采集子系统负责发现、跟踪和采集网络信息资源。目前搜索引擎的信息采集分为人工采集和自动采集。人工采集由专门信息人员根据一定的采集原则和标准,跟踪和选择有用的WWW站点或者页面,建立、维护和更新索引数据库。自动采集是通过一些计算机程序,如Robot、Spider、WebCrawler等“顺链而行”来搜寻网页,提取信息,建立、维护和更新索引数据库。人工采集基于专业信息人员对信息的分析、选择和组织,因此所收集资源的质量较高,排除了很多冗余和垃圾信息;自动采集基于自动运作,能够随时、尽可能多和快地收集各种类型的新信息,同时定期更新已有的旧信息,避免死链接或者无效链接,因此收集资源比较全面、有效和及时,但是信息的重复率较高、质量不如人工收集。目前,很多检索工具采用了人工采集和自动采集相结合的方式。

②索引子系统。索引子系统又称为索引数据库,其功能是利用数据库管理系统来生成、更新、维护和删除记录,即分析采集系统所收集到的信息,抽取索引项,生成新的记录,更新或者删除已发生变化信息的记录。数据库中的一条记录基本上对应一个网页或者网站。索引项分为客观索引项和内容索引项两种。客观索引项与文档的语义内容无关,包括作者、URL、更新时间、编码、长度、链接流行度(1ink popularity)等。内容索引项是用来反映文档内容的,如关键词及其权重、主题、分类等,所采用的标引原则和方法因系统而异,有的是自动索引、有的是人工索引,有的对网页整个页面内容进行全文索引,有的对特定内容,如摘要、标题等信息进行抽取等。索引系统是用户进行检索的基础,它的数据质量直接影响检索效果。

③检索子系统。检索子系统的功能是利用系统的信息检索算法,将用户的查询条件与索引系统中的信息记录进行匹配和相关度比较,对将要输出的结果进行排序、整理,尽可能将最相关的页面反馈给用户。检索系统主要包括以下四个部分:

a.检索界面模块,接受用户的检索要求。往往分为基本检索界面和高级检索界面。

b.检索策略模块,将用户输入的检索要求编制成计算机可执行的规范化检索式。

c.检索执行模块,利用检索式检索索引数据库,并保证检索的速度和准确性。

d.检索结果组织模块,对命中检索结果进行整理、组织和排序输出。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈