(一)搜索引擎的含义
关于搜索引擎,通常可以从广义和狭义两个方面来理解。
从狭义的角度来讲,搜索引擎由信息收集软件、索引数据库和查询接口三部分组成。信息收集软件从一个已知的文档集中读取信息,并检查这些文档的链接指针,找出新的信息空间,然后取回这些新空间中的文档,将它们加入到索引数据库。查询接口通过索引数据库为用户的查询请求提供服务。所以搜索引擎指的是基于某种技术在整个网上自动执行网页全文搜索的网上指南工具。
从广义的角度来讲,搜索引擎是互联网上的一类网站,这类网站与一般的网站不同的是它是提供查询、搜索的网站,或称查询站点、导航站点,即互联网上具有检索功能的网页。从这点上说,搜索引擎分为以下两种:
一种是分类目录型的检索,它将互联网上的信息资源,如网址、描述主题、字序或时间顺序汇总整理,形成图书馆目录一样的分类树形结构目录,用户通过逐级浏览这些目录来找寻自己需要的网址或相关内容。
另一种是基于关键词的检索,通过这种方式,用户可以用逻辑组合的方式输入各种关键词(KeyWords),搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的顺序(如字母排列、时间、相关级别等)反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。
搜索引擎现在的发展趋势是以基于关键字的检索为主、分类目录型检索为辅。基于关键字的检索功能强大、维护成本低廉,但实现技术比较复杂。
真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页,并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词时,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低依次排列。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎也不能真正理解网页上的内容,它只能机械地匹配网页上的文字。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、Anchor Text,甚至链接周围的文字。所以,有时即使某个网页A中并没有某个词,比如“里约奥运会”,但如果有别的网页B用链接“里约奥运会”指向这个网页A,那么用户搜索“里约奥运会”时也能找到网页A。
(二)搜索引擎的类型
1.按工作方式分类
搜索引擎按其工作方式主要可分为以下几种:
(1)全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有谷歌、Fast、AltaVista、Inktomi、Teoma、Wise Nut等,国内著名的有百度。它们都是将从互联网上提取的各个网站的信息(以网页文字为主)存入数据库中,然后检索与用户查询条件匹配的相关记录,按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种:一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
(2)目录索引类搜索引擎
目录索引虽然有搜索功能,但是严格来讲算不上是真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的雅虎,它将搜集到的信息资源由分类专家按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成了一个可浏览式等级主题索引式搜索引擎。一般的搜索引擎分类体系有五六层,有的甚至十几层,用户查找信息时,采取逐层浏览打开目录,逐步细化,就可以查到要找到信息。
由于目录式搜索引擎的信息分类和信息搜集有人的参与,可以依靠编目员的知识进行甄别和分类,因此其搜索的准确度是相当高的,但由于人工信息搜集速度较慢,不能及时地对网上信息进行实际监控,其查全率并不是很好,是一种网站级搜索引擎。
目录式搜索是第一代搜索引擎,实事求是地讲,它的技术含量很低,目录式搜索的本质就是人工分类,与老式图书馆里的工作是一样的。但由于它有用户、有需求、有市场,所以就有人做。
其他著名的目录索引还有Look Smart、About等。
(3)关键词型搜索引擎
它是通过用户输入关键词来查找所需的信息资源,这种方式方便直接,而且可以使用逻辑关系组合关键词,可以限制查找对象的地区、网络范围、数据类型、时间等,可对满足选定条件的资源准确定位。
这种关键词型搜索引擎通常有三大模块:信息采集、信息处理和信息查询。信息采集一般指爬行器或网络蜘蛛的搜索软件,是通过一个URL列表进行网页的自动分析与采集。具体过程是:URL服务器发送要去抓取的URL,搜索软件根据URL抓取Web页并送给存储器,存储器压缩Web页并存入数据资源库,然后由索引软件分析每个Web页的所有链接并把相关的重要信息存储在锚库文件中。URL解析器读锚库文件并解析URL,然后依次转成docID,再把锚库中文本变成顺排索引,送入索引库。
(4)混合型搜索引擎
它兼有关键词型和目录型两种查找方式,既可以直接输入关键词查找特定信息,又可以浏览目录了解某个领域范围的资源。事实上,现在大多数的搜索引擎站点都同时提供关键词检索和目录浏览检索这两种方式。(https://www.xing528.com)
(5)元搜索引擎
元搜索引擎也称集成型搜索引擎,是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库,为用户提供信息服务的系统。它并不像全文搜索引擎那样拥有自己的索引数据库,而是当用户提交搜索申请时,通过对多个独立搜索引擎的整合和调用,然后按照多元搜索引擎自己设定的规则将搜索结果进行取舍和排序并反馈给用户。从用户的角度来看,利用多元搜索引擎的优点在于可以同时获得多个源搜索引擎的结果。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。但由于元搜索引擎在信息来源和技术方面都存在一定的限制,因此搜索结果实际上并不理想,目前尽管有数以百计的元搜索引擎,但还没有一个能像谷歌、百度等独立搜索引擎那样受到用户的广泛认可。
2.非主流形式的搜索引擎
除上述五类引擎外,还有以下几种非主流形式的搜索引擎:
(1)集合式搜索引擎
如Hot Bot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于,它不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此称它为“集合式”搜索引擎更确切些。
(2)门户搜索引擎
如AOLSearch、MSN Search等。虽然提供搜索服务,但自身既没有分类目录,也没有网页数据库,其搜索结果完全来自其他引擎。
(3)免费链接列表(Free For All Links,FFA)
这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起雅虎等目录索引要小得多。
3.按搜索内容划分为综合型、专业型和特殊型
(1)综合型
它对搜集的信息资源不限制主题范围和数据类型。
(2)专业型
它只搜集某一行业或专业范围内的信息资源。
(3)特殊型
它是专门搜集特定的某一方面信息的,例如电话、人名、地址、图像等。
4.按发展状况分类
搜索引擎按其发展状况来分类主要可分为三类:
(1)第一代搜索引擎
依靠人工分拣的分类目录搜索,以雅虎为标志。
(2)第二代搜索引擎
依靠及其抓取,并建立在超链分析技术基础之上的网页搜索,以谷歌为代表,信息量大,更新及时,返回信息多。
(3)第三代搜索引擎
把“智能化”“人机交互”等功能融入了主流。将自动分类技术、多语言内容分析技术及区域识别技术应用到了大型搜索引擎中,除了在信息检索速度、更新频率等基本技术指标方面处于领先地位之外,它的网页相关检索、拼音纠错、模糊查询、语音查询等技术也具有很高的水准。此外,还兼备了新闻、MP3、图片、Flash搜索功能。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
