首页 理论教育 搜索引擎的信息采集和建立索引原理及发展历程。

搜索引擎的信息采集和建立索引原理及发展历程。

时间:2023-05-16 理论教育 版权反馈
【摘要】:图5-1全文搜索引擎基本原理1)信息采集。搜索引擎整理信息的过程称为“建立索引”。用户向搜索引擎发出查询要求,搜索引擎接受查询要求并向用户返回资料。早期,它的检索结果使用Google的数据,2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作。

搜索引擎的信息采集和建立索引原理及发展历程。

按照工作原理的不同,索引擎主要分为三个类别:全文搜索引擎、分类目录搜索引擎和元搜索引擎。

1.全文搜索引擎

(1)原理及组成

全文搜索引擎通过自动的方式分析网页的超链接,依靠超链接和HTML代码分析获取网页信息内容,并按事先设计好的规则分析整理形成索引,供用户查询。全文检索自动建立网页的索引。全文搜索引擎一般由信息采集、索引和搜索三个部分组成。

图5-1 全文搜索引擎基本原理

1)信息采集(web crawling)。信息采集的工作由搜索器和分析器共同完成,搜索引擎利用被称为“网络爬虫(crawlers)”“网络蜘蛛(spider)”或者叫做“网络机器人(robots)”的自动检索机器人程序来查询网页上的超链接。

“机器人”实际上是一些基于Web的程序,通过请求Web站点上的HTML网页来采集该HTML网页指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。“机器人”每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果“机器人”建立一个适当的初始网页集,从这个初始网页集出发,查遍所有链接,“机器人”将能够采集到整个Web空间的网页。搜索机器人有专门的搜索链接库,在搜索相同超链接时,会自动比对新旧网页内容和大小,如果一致,则不采集。

2)索引(indexing)。搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则编排。索引可以采用通用的大型数据库,如ORACLE、Sybase等,也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分,涉及到网页结构分析、分词和排序等技术,好的索引能极大地提高检索速度。

创建索引需要较长的时间,搜索引擎会定期更新索引,因此当爬虫来过,到我们能在页面上检索到,会有一定的时间间隔。

3)检索(searching)。用户向搜索引擎发出查询要求,搜索引擎接受查询要求并向用户返回资料。有的系统在返回结果之前对网页的相关度进行计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级,返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。

不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同关键词,排序是不同的。

(2)主要的全文搜索引擎

1)Google(http://www.google.com)。Google成立于1997年,几年间迅速发展成为世界范围内规模最大的搜索引擎。默认网站排名顺序并非按照字母顺序,而是根据网站PageRank的分值高低排列。

图5-2 Google搜索页面(www.xing528.com)

2)百度(http://www.baidu.com)。百度是国内较早的商业化全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场。除有网页搜索外,百度还有新闻、MP3和图片等搜索。

图5-3 百度搜索页面

2.分类目录搜索引擎

(1)原理及组成

分类目录的整个工作过程也同样分为信息采集、索引和检索三部分,只不过分类目录的采集信息、索引信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词检索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址和简介等内容中进行,它的查询结果也只有被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码簿一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址。一般还会提供各个网站的内容简介,用户不使用关键词也可以进行查询,只要找到相关目录,就完全可以找到相关的网站。

(2)主要的分类目录搜索引擎

1)雅虎中国分类目录(http://cn.yahoo.com)。雅虎中国的分类目录是最早的分类目录,有14个主类目,包括“商业与经济”“艺术人文”等,可以逐层进入进行检索,也可以利用关键词对“分类网站”进行检索(http://m6.search.cnb.yahoo.com/dirsrch)。此外,雅虎中国也可以对“所有网站”进行关键词检索(http://cn.search.yahoo.com/websrch)。早期,它的检索结果使用Google的数据,2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作。2005年8月,中国雅虎由阿里巴巴集团全资收购。2013年9月,中国雅虎邮箱停止服务,同时也不再提供资讯及社区服务

2)搜狐分类目录(http://dir.sohu.com)。搜狐分类目录把网站作为收录对象,具体的方法就是将每个网站首页的URL地址提供给搜索用户,并且将网站的标题和整个网站的内容进行简单描述,但是并不揭示网站中每个网页的信息内容。除此之外,也可以使用关键词对搜狐的“分类目录”或所有网站进行搜索。

3)网易分类目录(http://search.163.com)。网易的分类目录采用“开放式目录”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5000多位各界专业人士参与可浏览分类目录的编辑工作,极大地使用了因特网信息爆炸式增长的趋势。在加强与其他搜索引擎合作的基础上,还支持使用关键词对所有网站进行检索。

3.元搜索引擎

元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具有代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

4.其他非主流搜索引擎形式

(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈