(一)网络信息检索工具及一般构成
网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网信息空间中各种类型的网络信息资源。网络信息检索工具包括早期的搜寻FTP资源的Archie,检索Gopher网站资源的Veronica和Jughead,查询Usenet新闻组资源的WAIS等非Web检索工具,以及Yahoo、AltaVista、Lvcos等Web检索工具。
网络信息检索工具一般由以下几部分构成。
1.自动索引程序
大多数网络检索工具一般采用一种被称为Robot(又名Spider、Crawler、Worms、Wanders等)的网络自动跟踪索引程序。它实际上是一个在网络上检索文件,且自动跟踪该文件的超文本结构,并循环检索被参照的所有文件的软件。它穿行于网络信息空间,访问网络中公共区域的各个站点,记录其网址,标引其内容,并组织建立索引文档,形成供检索的数据库。同时还继续跟踪这个网页内链接的其他网页,确认链接的合法性。
2.数据库
自动索引程序将采集和标引的信息汇集成数据库,作为该网络检索工具提供检索服务的基础。数据库规模的大小决定了查询到的信息是否全面。不同的网络检索工具的数据库的收录范围不同,标引方式也不同,规模大小不同。一般数据库中提供的网络资源内容有:网站的名称、标题、网址、网页的长度、相关的超文本链接点、内容简介或摘要等。不同数据库收录网络资源的数量也会有很大差异,目前世界上最大的搜索引擎Google(谷歌)据称对30多亿网页进行了整理,每天提供2亿次查询服务。
3.检索代理软件
当用户提出检索查询时,由检索软件负责代理用户在数据库中进行检索。不同的网络检索工具所采用的检索机制、算法有所不同,布尔逻辑检索是较普遍采用的一种机制。除了布尔逻辑检索外,许多网络检索工具还提供了一些其他的检索机制。如自然语言检索,即允许用户以短语、句子等自然语言的形式输入检索提问式,而检索软件可根据其中的语义关系进行分析、判断后形成检索策略检索。相关度排序,即检索软件综合运用某些检索模型(如模糊逻辑、向量空间或概率模型等)来对检索结果进行处理,将检索结果与检索要求的相关程度进行计算和评估比较,根据计算结果对文档排序,将最相关、最重要的信息排在较前面的位置,优先向用户提供。
(二)网络信息检索工具的类型
网络检索工具一般可分为Web资源检索工具和非Web资源检索工具。
1.Web资源检索工具
以Web资源为主要检索对象,又以Web形式提供的检索工具。它是以超文本技术在互联网上建立的一种提供网上信息资源导航、检索服务的专门Web服务器或网站,目前已成为互联网信息资源的主流形式。随着Web检索工具的发展,有的还将检索范围逐渐扩大到其他网络资源,如Usenet、Gopher、FFP等。因此,Web检索工具显得格外重要,并成为人们获取互联网信息资源的主要检索工具和手段,也几乎成了网络检索工具的代称。Web资源检索工具应用非常普遍,也代表了网络信息检索的较高水平。
Web资源检索工具可以分为目录型检索工具、搜索引擎和多元搜索引擎。
(1)目录型检索工具(subject directory)
目录型检索工具也称作catalogue,它是按照某种主题分类体系编制的一种可供检索的等级结构式目录。在每个目录类及子类下提供相应的网络资源站点地址,并给予简单的描述。它的优点是:目录型检索工具经过信息管理专业人员、分类专家的人工设计和编制,所收录的网络资源经过专业人员的鉴别、选择和组织,保证了检索工具的质量,提高了检索的准确性。它的局限性是:其更新、维护的速度或周期要受系统人员工作时间的制约,导致检索工具的新颖性不够;若用户不熟悉其分类体系或对分类标准理解与系统人员不一致,就会影响其检索;在某些主题下收录范围不够全面,使检索到的信息数量有限。目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高的课题。最著名的目录型检索工具是Yahoo。
(2)搜索引擎(search engine)
搜索引擎使用自动索引软件来发现、收集并标引网页,建立数据库,以Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问匹配的记录,并返回结果且按相关度排序输出。搜索引擎突出的是检索功能,一般可称为因特网资源的关键词索引。搜索引擎的特点是:由自动索引软件生成数据库,收录、加工信息的范围广、速度快,能及时地向用户提供新增信息;检索时直接输入关键词或词组、短语,无须判断类目归属,比较方便。它的局限性是:由于标引过程缺乏人工干预,准确性较差,加之检索软件的智能化程度又不是很高,导致检索误差较大;虽一次检索输出的结果可能很多,但会包含许多的重复、虚假信息,即检索噪音较大;不同的搜索引擎有不同的检索项选择、检索界面,不同的句法要求和对符号、标识符的处理,因此,检索策略的构造和输入方式也会直接影响检索结果。搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。较有代表性的英文搜索引擎有AltaVista、Excite、Lycos、Hotbot等。
随着检索技术的发展,目录型检索工具和搜索引擎之间的界限越来越模糊。
①大多数流行的网络检索工具同时提供两种方式的检索,从而将目录型工具的组织、导引功能与搜索引擎的检索功能更好地结合起来。这种担负了网络资源主题指南和索引双重责任的混合型检索工具似乎代表了网络检索工具的发展趋势。
②有些著名的目录型检索工具如Yahoo曾与搜索引擎的典型代表AltaVista相链接,当检索提问在Yahoo的分类目录指南数据库中未找到相关的记录时,可自动转向AltaVista的索引数据库中继续检索,并将有关的结果提供给用户,从而加强了Yahoo的检索功能。
③其他一些著名的搜索引擎,如Excite、LYCOS、Magellan、WebCrawler等均在过去主要提供索引服务的基础上,增设了各种形式的分类目录,以强化其组织、导引、浏览等功能。这种发展趋势使得许多用户已将上述两种工具混合,均称为搜索引擎。(www.xing528.com)
(3)多元搜索引擎(metasearch engine)
多元搜索引擎又称为集合式搜索引擎。多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面。它可分为两种类型:搜索引擎目录和元搜索引擎。
搜索引擎目录即检索工具的检索工具,它将主要的搜索引擎集中起来,并按类型或按检索问题等编排组织成目录,帮助、导引用户根据检索需求来选择适用的搜索引擎。它集中罗列检索工具,并将用户导引到相应的工具去检索。检索时还是检索某一搜索引擎自己的数据库,与普通单一搜索引擎的检索是一样的。只不过是设立了又一层门户,通过其组织检索界面,为用户选择适用的检索工具提供积极的帮助,以克服用户面对众多的检索工具的无所适从。较典型的搜索引擎目录有:All-in-One、CUSI、iTools! 等。
元搜索引擎是将多个搜索引擎集成在一起,提供一个统一的检索界面,将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。它是一种集中检索的方式,与Dialog联机检索中的跨文档检索OneSearch非常类似。元搜索引擎的优点是:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要输入同样的检索词等。因为检索的是多个数据库,检索的综合性、完整性也有所提高。它的缺点是:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同,没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多,或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果,却缺少做进一步判断、阅读的相关指导信息。为此,有些检索人员提出:避免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问,或就某一课题的网络资源进行快速调查、摸底、综览时使用多元搜索引擎。较常用的多元搜索引擎有:Dogpile、Metacrawler、Inference Find、SavvySearch、Highway61等。
2.非Web资源检索工具
即以非Web资源为检索对象的检索工具,如Archie、Veronica、WAIS等。由于Web检索工具的出现,这些传统的检索工具正走向消退,使用者越来越少。其主要分为以下类型。
(1)远程登录
远程登录(Telnet)是因特网提供的最基本的信息服务之一,远程登录是在网络通信协议的支持下使本地计算机暂时成为远程计算机访问终端的过程。在远程计算机上登录,必须事先成为该计算机系统的合法用户并拥有相应的账号和口令。登录时要给出远程计算机的域名或IP地址,并按照系统提示,输入用户名及口令。登录成功后,用户便可以实时使用该系统对外开放的功能和资源。Telnet是一个强有力的资源共享工具。许多大学图书馆都通过Telnet对外提供联机检索服务,一些政府部门、研究机构也将它们的数据库对外开放,用户可通过Telnet进行检索。
(2)文件传输服务
文件传输服务是在TCP/IP的文件传送协议(FTP,File Transfer Protocol)支持下实现的一种本地计算机和远程服务器间的文件传送,通常用FTP来表示文件传输服务。用户使用FTP将存放在异地计算机上的文件取回到自己计算机中,可以阅读和处理这些取来的文件;用户也可以将存放在本地计算机上的文件传送到远程的FTP服务器上,让其他人使用。
(3)电子邮件
电子邮件(E-mail)是用户或用户之间通过计算机网络收发信息的服务。目前,电子邮件已成为网络用户之间快速、简便、可靠且成本低廉的现代通信手段,也是因特网上使用最广泛、最受欢迎的服务之一。电子邮件使网络用户能够发送或接收文字、图像和语音等多种形式的信息。通过电子邮件还可访问的信息服务有:FTP、Archie、Gopher、WWW、News、WAIS等。因特网上的许多信息服务中心就提供了这种机制。当用户想向这些信息中心查询资料时,只需要向其指定的电子信箱发送一封含有一系列查询命令的电子邮件,用户就可以获得相应服务。此外,在因特网上有许多数据库可以通过电子邮件检索。
(4)电子公告牌
电子公告牌(BBS,Bulletin Board System)是因特网上非常快捷的信息交流场所。目前,很多高校和信息服务机构都有BBS,用户只要进入BBS,就可以得到BBS系统所提供的各种服务。服务又分为有偿服务和免费服务。这两种类型的服务决定了用户使用BBS系统的时间和权限。各地的BBS系统一般都让初次访问的用户能够免费浏览系统的内容,用户可在各个BBS系统间进行选择,然后再确定是否要成为这个系统的正式用户。通过BBS可随时取得国际最新的软件及信息,也可以通过BBS系统来和别人讨论各种有趣话题、刊登启事、收发电子信件、进行文件交流、网上游戏等。在BBS上,有发言权的用户可以畅所欲言,也可以询问任何信息,包括电脑、生活时事等任何方面的信息。
(5)Archie
Archie是因特网上用来查找其标题满足特定条件的所有文档的自动搜索服务的工具。Archie文档搜索系统是检索匿名FTP资源的工具。为了从匿名FTP服务器上下载一个文件,必须知道这个文件的所在地,即必须知道这个匿名FTP服务器的地址及文件所在的目录名。Archie就是帮助用户在遍及全世界的千余个FTP 服务器中寻找文件的工具。ArchieServer又被称作文档查询服务器。用户只要给出所要查找文件的全名或部分名字,文档查询服务器就会指出在哪些FTP服务器上存放着这样的文件。使用Archie进行查询的前提是要有查找的文件名或部分文件名,知道某个或几个Archie服务器的地址。
(6)广域消息服务
广域消息服务(WAIS,Wide Area Information Service)在1991年由Brewster Kahle(布鲁斯特·卡利)发明,并由Thinking Machines公司发布。它是一种数据库索引查询服务。Archie所处理的是文件名,不涉及文件的内容;而WAIS则是通过文件内容(而不是文件名)进行查询。因此,如果打算寻找包含在某个或某些文件中的信息,WAIS便是一个较好的选择。WAIS是一种分布式文本搜索系统,它基于239.50标准。用户通过给定索引关键词查询到所需的文本信息,如文章或图书等。
(7)Gopher
Gopher是基于菜单驱动的因特网信息检索工具。1991年,美国明尼苏达大学的保罗·林德纳和马克·麦卡希尔发布了Gopher。Gopher的菜单项可以是一个文件或一个目录,分别标以相应的标记。是目录则可以继续跟踪进入下一级菜单;是文件则可以用多种方式获取,如邮寄、存储、打印等。Gopher内部集成了Telnet、FTP等工具,可以直接取出文件,而无须知道文件所在地及文件获取工具等细节。Gopher是一个深受用户欢迎的因特网信息查询工具。通过Gopher可以进行文本文件信息查询、电话簿查询、多媒体信息查询、专有格式的文件查询等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。