首页 理论教育 搜索引擎的概念与发展-《信息检索与利用教程》内容全解析

搜索引擎的概念与发展-《信息检索与利用教程》内容全解析

时间:2023-07-25 理论教育 版权反馈
【摘要】:目前,WWW检索工具基本上采用搜索引擎的方式对各种信息进行检索,并已成为现代网络信息资源的基本模式。这一时期的搜索引擎收集的网页数量基本都超过了1 000万个,并向着5 000万个发展,对Internet的扩张产生了极大的促进作用。HotBot、Google等被业界人士称为搜索引擎的规范楷模,并逐渐确立了自己在搜索引擎市场的优势地位。进入21世纪之后,国外搜索引擎进入到多向发展时期。

搜索引擎的概念与发展-《信息检索与利用教程》内容全解析

网络信息检索工具很多,既有早期的Archie、WAIS、Gopher、Veronica等检索工具,也有后来居上的目录浏览型和关键词查寻型搜索引擎;既有White Pages Directory、Internet Yellow Pages、Whois、DejaNews、FAQ A rchive等字典型查询工具,也有A rchie、Verronica、Jughead等索引型查询工具;既有Alta Vista、Excite、Yahoo!等综合性检索工具,也有Medical World Search、Social Science Information Gateway、MapBlast、WebSEEK等专题性和专门性的检索工具等。

在各种检索工具中,WWW是Internet上发展最快、信息最丰富的一种检索服务程序。它基于HTTP协议,用HTML语言多媒体信息组织成超文本,并通过这种方式把全世界Internet上的不同地点的相关信息有机地结合起来,具有联网简单、格式标准、多媒体信息浏览、界面友好等优点。因此,WWW检索工具能够在短时间内经历了从无到有、从少到多、从功能单一到功能多元化的过程,其发展的速度和数量是其他检索工具无法比拟的。目前,WWW检索工具基本上采用搜索引擎的方式对各种信息进行检索,并已成为现代网络信息资源的基本模式。

1.搜索引擎的概念与构成

搜索引擎(Search Engine)通常是指通过网络搜索软件(网络机器人)收集Internet上大量Web页加以索引并提供给用户查询的专门网站。换言之,搜索引擎是以分散于世界各地的Internet文档(包括html、htm、asp、nsf、shtml、txt、pdf等格式)为收集对象,并建立索引机制,目的是为用户提供搜索网络资源链接的服务性网站。广义的搜索引擎包括由人工方式收集起来的站点(目录服务)。

搜索引擎一般由以下4个部分构成:

(1)搜集器:负责从网络上搜集网页。这部分可由搜索引擎的网络机器人(Net Robots,或称Search Index、Spiders、Craw lers、Worms),自动在网上进行搜索,也可以通过人工进行收集。其基本机制是:启动蜘蛛或爬虫等程序、扫描Internet、查找Web页并提取数据纳入自己的数据库

(2)管理器:负责搜索策略的制定及管理、索引的存储组织和增删改等工作。

(3)检索器:提供网络用户检索界面,并根据用户的查询要求,从信息数据库中检索出与之相关的信息资料并反馈给用户。也就是用户在检索时直接输入关键词,搜索引擎根据一定的规则将检索式与其数据库中的文献进行匹配,从而生成结果清单。

(4)扩展服务部分:搜索引擎除前3项以外所提供的各项服务,这些服务往往是搜索引擎经济收入的来源。

搜索引擎的前两个部分属后台作业,对用户来说是不可见的,用户在使用搜索引擎时,见到的只是检索界面(扩展服务包含在检索界面内)。

2.搜索引擎的产生与发展

(1)萌芽和雏形时期(1990—1993):搜索引擎的起源可以追溯到1990年加拿大蒙特利尔大学学生A lan Em tage开发的A rchie。当时Web还没有正式应用,A rchie用于检索分散在FTP服务器上的文件,它的工作原理与搜索引擎很接近,就是依靠脚本程序自动搜索网上的文件,然后对相关信息进行索引,供用户以特定方式查询。(www.xing528.com)

1993年之前,人们认识到既然所有网页都可能与其他网站进行链接,那么从跟踪一个网站的链接开始,就有可能检索整个Internet,这一简单想法就是今天搜索引擎的基本原理。不过当时人们采用的查找方法是从一个WWW服务器中的某一个URL开始,沿着其中的超链接连接到其他URL,逐一查找。但用这种手工方法进行查寻既费时又费力,用户很难得到满意的信息。从1993年开始,一些服务站点为了方便用户浏览阅读,将手工收集到的站点信息编成HTML文件,按字母表顺序、网站地址或网站信息类型等方式组织起来,从而使用户能通过这种分类目录找到相关网站信息。这种系统被称为Catalog或Directory。与此同时,另有一批人着手研究用计算机代替人工进行超链接跟踪,并记录下来各站点的URL及摘要信息。在1994年前后出现了这样的程序,被称为Net Robot或Spider等,利用它们建立起来的查询系统就是所谓的搜索引擎。这种系统由软件程序自动在网上进行数据收集和索引,收集速度大大提高,覆盖面扩大,并且收集到的网页也更加及时。这两类系统在不断的发展过程中互相借鉴,人工收集的系统增加了关键词检索功能,而基于网络机器人的收集系统也增加了分类目录浏览功能,但当时这两类系统均没有统一的称法。

(2)初建与扩容时期(1994—1996)。1994年4月,Web Crawler公司的WebCrawler搜索引擎在网上正式发布;6月,Lycos公司建立的Lycos搜索引擎开始服务;年底,Yahoo!公司创办并正式建立了Yahoo!站点。1995年,Excite公司和Digital公司先后发布了Excite和Alta Vista搜索引擎。到了1996年,已经有10多家较大的搜索引擎投入运行,竞争的焦点是谁家的数据库更大,谁家的索引更新最快。这一时期的搜索引擎收集的网页数量基本都超过了1 000万个,并向着5 000万个发展,对Internet的扩张产生了极大的促进作用。

(3)注重质量建设时期(1997—1999)。从1997年开始,搜索引擎从追求容量转向追求质量,力争做出最好的索引。以HotBot、Google等为代表的一批搜索引擎,不再追求搜索引擎数据库的大而全,而是追求收录网页和查询的质量。HotBot、Google等被业界人士称为搜索引擎的规范楷模,并逐渐确立了自己在搜索引擎市场的优势地位。

(4)多向发展时期(2000—)。进入21世纪之后,国外搜索引擎进入到多向发展时期。搜索引擎的数量已经达到3 500个左右,其中既有大型综合性搜索引擎,也有特定领域的专业搜索引擎,并呈现出下列发展趋势和重要特点:

首先,第二代搜索引擎粉墨登场。第二代搜索引擎在为用户查找网上信息时,特别注重网站的重要性。所谓网站重要性是指在满足用户需求的基础上,侧重于网站内容的权威性、丰富性和准确性,根据网站重要性的等级对检索结果进行排序。第一代搜索引擎是根据关键词在主页中的位置和出现的频率来进行加权和排序,而第二代搜索引擎则根据用户实际访问一个网站并在该网站上所花费的时间来确定网站的重要性,或者根据一个网站被其他网站链接的数量来确定网站的重要性,还有的根据概念、域名等排列。这种根据用户忠诚度的评判方法更具有客观性,因而用户所获得的信息也就更准确。比如,http://www.google.com/是以大量广泛使用的链接作为排列网址的主要方法,这些链接取自于搜索服务中排列靠前的网页;http://www.directhit.com/是通过用户从所见到的检索结果进行精选来完成监控调整工作,用户所进行精选的网址要多于Direct Hit在检索结果中所列出的网址;http://www.infind.com/依靠概念和网址来排列检索结果;http://www.metafind.com/是通过关键词、字母顺序或域名来排列结果。

其次,专业搜索引擎纷纷出现。近年来,针对性强、目标明确、查准率高的专业搜索引擎发展很快,其作用和功能是综合性搜索引擎所不能替代的。例如,用于查找图书的专业搜索引擎,就能够显示一本图书的书名、作者、版本、出版年月、在不同网上书店中的不同价格等信息,从而引导用户在网上书店订购图书。

第三,智能搜索引擎崭露头角。目前智能搜索引擎还不多,智能化还不高,随着人们对智能特征认识程度的加深和用户需要的逐步扩大,智能搜索引擎将会越来越完善。例如,由世纪联数码科技有限公司开发的互联网智能搜索引擎,运用了世界先进的基于自然语言处理和神经网络的智能互动技术,通过系统内部独特的“智能语义”、“知识引擎”等技术支持,可以实现对网站的内容覆盖。由于这种引擎模拟神经网络,支持基于概念的信息搜索和动态页面检索,同时界面采用独特的“你问我答”式搜索方式,因而具有较高的实用性和准确性。比如,当用户想了解北京市有关的旅游信息,只要键入“北京有什么地方好玩” 这样的提问,系统就会自动完成搜索并给出相关的信息地址或答案。这一点与传统搜索引擎使用关键词或分类查询的方式有很大的不同。

第四,多媒体和图像搜索引擎亮丽登场。多媒体搜索引擎可以检索网络上的声音、音乐、图像、电影和电台播音节目等信息。例如,http://www.scour.net/可以检索音乐、电影、电台播音节目;http://www.ditto.com/可以提供网上图像的搜索,它已经收集了超过200万个图像,并且大多经过人工的筛选,因而搜索结果质量较高;http://www.freefoto.com/则是最大的图像搜索引擎。

第五,精选网站搜索引擎蓬勃兴起。这类搜索引擎以人工的方式精心挑选高质量的网站,并按类别排列供用户查找信息,有的搜索引擎对所挑选的网站以“星级”来评判。为了确保在众多的网站中进行精选工作的质量,各个搜索引擎采用的方法也都有所不同。例如,http://www.about.com/是一个由各行各业专家参与挑选和推荐最佳网站的搜索引擎;http://www.refdesk. com/index.html/则是提供参考性信息的搜索引擎,受到多家媒体的好评,它精选的网址很实用。

最后,搜索引擎的搜索引擎层出不穷。由于各类搜索引擎的发展速度很快,大多数用户根本无法知道目前有多少种搜索引擎,一些独立的搜索引擎指南或附属性的搜索引擎帮助等应运而生。独立的搜索引擎指南专门收录世界各国的各种搜索引擎,对每个搜索引擎进行简短的文字说明,以便用户使用。用户可以按国家名称或者类别来查找所需要的搜索引擎。这类搜索引擎有:http://www.searchenginecolossus.com/,按国家字母顺序排列,对每个搜索引擎都有文字说明;http://www.searchpower.com/和http://www. searchengineguide.com/,分别收录有2 000多个搜索引擎,并按照分类加以排列;http://www. se-express.com/和http://www.sowang.com/等对中外文搜索引擎都有一定的介绍和评价。

需要说明的是,由于网络信息数量庞大,搜索结果杂乱无章,因此第二代搜索引擎、精选网站搜索引擎和专业搜索引擎基本上都是朝着满足用户查准率的方向发展。此外,一些新的多媒体技术和智能检索技术也将体现在下一代搜索引擎中,使得搜索引擎提供的信息更加精确和直观,实用性更强。总之,搜索引擎正面临着一片广阔的发展天地。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈