搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术,它旨在提高人们获取搜集信息的速度,为人们提供更好的网络使用环境。常见信息类搜索引擎如图4-3所示。
图4-3 常见信息类搜索引擎
从功能和原理上搜索引擎大致分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。
1.全文搜索引擎
全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表是Google,国内最大的是百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和360搜索就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法(通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量)计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
2.元搜索引擎
元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。(www.xing528.com)
国外对元搜索的开发应用很早,目前在美国使用元搜索引擎和使用Google一样普遍,当然Google仍然占据美国绝对市场,但元搜索引擎也一样生机勃勃。国内的起步较晚,我国首个元搜索引擎是比比猫(bbmao),于2005年成立,在2006年获得Red Herring亚洲100强大奖,从而拉开国内对元搜索的真正关注和探索,但是比比猫存在的时间非常短暂,现已关闭。
整体来讲,国外元搜索引擎已自成体系,而国内真正长期坚持致力于开发独特用户体验的元搜索网站并不多,还有较大进步空间。
3.垂直搜索引擎
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
4.目录搜索引擎
目录搜索引擎(简称为目录索引)也称为分类检索,是互联网上最早提供WWW资源查询的服务,主要通过搜集和整理互联网的资源,根据搜索到的网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无须输入任何文字,只要根据网站提供的主题分类目录,层层单击进入,便可查到所需的网络信息资源。
虽然有搜索功能,但目录索引严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。目录搜索方式的适应范围非常有限,且需要较高的人工成本来支持维护。
除此之外,还有其他类型的搜索引擎,随着科技的进步、用户特性的变化等,搜索引擎的种类也在不断革新。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。