首页 理论教育 网络信息检索的优化措施与方法

网络信息检索的优化措施与方法

时间:2023-07-07 理论教育 版权反馈
【摘要】:而网络信息检索正是试图从技术上改善Internet上信息无序的局面,使网上信息资源为人们充分利用的新型检索模式。

网络信息检索的优化措施与方法

1.网络信息检索的定义

Internet的广泛应用和发展,使世界范围内的信息资源交流、共享成为可能,为人们提供了一个更为广阔的信息空间,但网络信息资源的无序、量大、良莠不齐和缺乏统一管理与控制,使得网络环境下的信息获取并不是一件容易的事情。而网络信息检索正是试图从技术上改善Internet上信息无序的局面,使网上信息资源为人们充分利用的新型检索模式。

正如同信息检索的概念有广义和狭义之分,网络信息检索的概念也可分为广义和狭义两种。狭义的网络信息检索就是指网络信息的查找,即以Internet为检索平台和媒介,利用相应的网络信息检索工具或者检索系统,运用一定的网络信息检索技术与策略,从有序的网络信息集合体中查出所需信息的过程。广义的网络信息检索包括网络信息整序和网络信息查找。网络信息整序是将与Internet相连的信息按一定的规则进行收集、分析和标引,并以数据库方式、主题树方式或者其他方式组织、排序和存储,形成检索工具或检索系统。网络信息整序既是网络信息查找的基础和前提,又是整理搜索结果,是使网络信息能加以利用的必要阶段。

2.网络信息检索的特点

网络信息检索借助于网络通信信息处理等技术的发展,出现了许多不同于传统信息检索的特点。具体特点如下。

(1)检索范围涵盖整个Internet。

Internet是一个全球性、开放性的网络,由分布在世界各地的主机联网构成。因此网络信息检索在检索空间上比传统信息检索大大扩宽,可以检索Internet上所有领域、各种类型、各种媒体的公开信息资源,远远超过了手工、联机和光盘检索可利用的信息源。

(2)传统检索方法与全新网络检索技术相结合。

网络信息检索沿用了许多传统的检索方法和技术,如布尔逻辑、截词检索、限定检索等。借助于网络信息技术的发展,网络信息检索还采用了许多新的检索技术,如自然语言检索、超文本/超媒体检索等。但是这些检索技术在不同检索工具中的实现方式存在很多差异,需要用户在检索前详细了解其具体的检索规则。

(3)用户界面友好且操作方便。

网络信息检索工具直接以终端用户为服务对象,一般都采用图形窗口界面,交互式作业,检索途径多,提供多种导航功能,可做书签标记,保留检索历史。检索者无须专门的检索技巧和知识,只要在检索界面按一定规则输入检索式就可获得检索结果。

(4)用户透明度高。

网络信息检索对用户屏蔽了Internet上的各种系统平台、应用程序、数据结构、文件格式、通信传输协议等多方面的物理差异,使用户只须一步检索就可获取多个信息源、多种类型、多种形式的网络信息,感受检索系统的透明度。

(5)信息检索效率不高。

网络信息缺乏规范和统一管理,动态性强、雷同率高,而且存在很多的垃圾信息。目前的网络检索工具在信息收集、分析和标引等方面也存在许多的不足之处,极大地影响了网络信息检索的查全率查准率,尤其是通过索引擎进行网络信息检索的查准率很低,信息冗余度高。不过,随着智能代理技术、数据挖掘技术、知识发现技术、自然语言理解技术等在网络信息检索中的应用,网络信息检索的效率已经大大改观。

3.网络信息检索的一般方法

要在浩如烟海的网络信息资源中找到自己所需的信息,可以按照以下几种方法进行。

(1)浏览方式。

①随意浏览。这是在Internet上发现信息和信息线索的最原始的方法。在没有明确的检索目的和要求的情况下,随意查看或者选择与所需信息相近的内容作为检索依据,“顺链而行”,从一个网页“行至”其他相关的网页,一轮轮扩大检索范围,获取相关信息。这种方式适合目的性不强的检索,其检索结果具有不可预见性。网络用户可以在平时的网络漫游中将一些感兴趣的优秀网站添加到收藏夹,以备将来使用。

②分类体系浏览。即通过浏览网络资源指南的分类体系获取相关信息。网络资源指南是专业人员基于对网络信息资源的产生、传递与利用机制的广泛了解,对网络信息资源分布状况的熟悉,对网络信息资源进行采集、评价、组织、过滤和控制,从而开发出的可供用户浏览和检索的多级主题分类体系。此外,网上还存在很多的专业性网络资源指南,它们提供获取特定学科领域的信息。当用户对某一类信息资源的描述不确定的时候,通过逐级浏览网络主题指南的分类体系,就可获取相关信息较为全面系统的汇总。

(2)查询方式。

查询主要是指通过输入检索条件,从大量的信息集合中检索信息的方式。这种方式比较快捷、简单,能够准确、快速地在Internet上进行所需信息的定位,直接返回所需信息或者所需信息所在的主机名、域名或者网址等。

4.网络信息检索技术

面对网络信息资源的海量、异构、非结构化、动态和分散,传统的信息检索算法和技术已经无法满足网络环境下的信息检索需求。网络信息检索技术借助于计算机技术、信息处理技术的发展,如全文检索技术、多媒体检索技术、人工智能技术、数据挖掘技术、自动标引和分类技术等,得以应用于网络信息检索中,极大地推动了网络环境下信息检索的发展,提高了网络信息检索的效率。

(1)全文检索技术。

全文检索(Full Text Retrieval)技术,就是以信息资料的内容,如文字、声音、图像等为主要处理对象,而不是其外在特征来实现信息检索的技术,全文检索出现于20世纪50年代末。全文检索技术通过提供快捷的数据管理工具和强大的数据查询手段,为人们快速方便地获取文献原文而非文献线索提供了一条有效途径。经过几十年的发展,全文检索技术已经从最初的字符串匹配层面演进到能对超大文本、语音、图像、视频影像等非结构化数据进行综合管理,成为全文数据库系统和搜索引擎的核心支撑技术,广泛应用于企业信息门户、媒体网站、政府网站、数字图书馆、搜索引擎及商业网站等。据统计,在目前的Internet信息资源中,非结构化数据(包括一些文本数据、图像、视频和声音等)占整个信息量的80%以上。通过全文检索技术就可以解决数据库管理系统管理非结构化信息的不足,就能高效地管理这些非结构化数据。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词。但是为了在整体上提高全文检索系统的水平和可用性,全文检索技术仍需在自然语言处理技术、信息的深层挖掘等方面进一步有所突破。

(2)多媒体信息检索技术。

多媒体信息技术是针对用户对文字、声音、图像(形)、视频和动画等多种形式的信息的全方位需求,而对其进行综合、集成化处理的一种技术。自20世纪60年代多媒体的概念被提出以来,多媒体技术逐渐成为计算机技术的潮流。以前对多媒体信息的检索主要是依赖于文本信息,即多媒体信息的标题、作者,以及索引人员为其编制的属性描述和注释。这种方式具有很大的主观性,而且难以充分揭示多媒体信息中的丰富内容,尤其是对多媒体的处理几乎不可行。由此,基于内容的多媒体信息检索研究应运而生,已经从基本的颜色检索发展到综合利用多种媒体特征进行检索,出现了许多多媒体检索系统。基于内容的多媒体信息检索技术是对图像、音频、视频等媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的信息检索技术,其核心技术是对多媒体信息内容特征的识别和描述技术、对特征的相似性匹配技术。目前,多媒体信息检索技术按检索内容可分为图像检索、视频检索和音频检索三种。

①基于内容的图像检索技术。基于内容的图像检索是通过分析图像的内容(如颜色、纹理、形状和空间关系等)建立特征索引,并将其存储在特征数据库中。用户查询时,只需对所需图像进行模糊描述,或者利用系统提供的图像样本,就可在图像信息库中找到所需的图像。基于内容的图像检索技术的关键技术是颜色特征、纹理特征、形状特征和空间关系特征的提取。

②基于内容的视频检索技术。基于内容的视频信息检索,就是根据视频的内容和上下文关系,在大规模视频数据库中进行的视频数据检索。为了实现检索,需要对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将视频流划分为具有特定语义的视频片段——镜头,以镜头作为检索的基本单元,提取关键帧的特征,形成描述镜头的特征索引。依据镜头的特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据。视频分割、关键帧特征的提取和描述(包括视觉特征、颜色、形状及运动信息和对象信息等)、视频结构重构(将语义相关的镜头组合聚类到一起)是基于内容的视频检索的关键技术。

③基于内容的音频检索技术。基于内容的音频检索是分析和提取音频信息的特征、建立特征索引库,并依据特征对音频数据聚类,将聚类信息装入聚类参数库,通过示例法、拟声法、直喻法等多种方式进行检索,获取所需音频信息的过程。语音识别、音频特征提取和聚类是基于内容的音频信息检索的关键技术。音频信息的特征主要包括振幅、频率、相位、声强、音调、音色、音量、和谐等属性。

(3)智能检索技术。

智能检索技术就是采用人工智能计算机技术进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略,进行智能、快速、高效的信息检索。智能检索技术主要体现在语义理解、知识管理和知识检索,包含机器学习技术、知识发现技术、自然语言理解技术和智能代理技术四种。

①机器学习技术。机器学习技术是网络信息检索技术智能化的基础,研究机器人如何模拟人进行学习、获取知识,并进行知识的积累、修改和扩充。其目的是将数据库和信息系统中的信息自动提炼和转换成知识库中的知识,使人自动获取知识。(www.xing528.com)

②知识发现技术。随着网上大规模数据库的应用,一些简单查询和检索不能使用户直接获得带有结论性的信息,从而造成资源上的浪费。而知识发现技术就可从大量不完全的、模糊的、随机的数据中发现有用的信息和知识,它综合了统计学、模糊逻辑、机器学习和专家系统等多种方法。将知识发现技术应用于网络信息检索中,就可使检索结果深入知识单元层面,提高检索的针对性。目前,知识发现技术的开发以及应用刚刚起步,但已显示出较好的发展前景,成为网络信息检索技术的重要部分。

③自然语言理解技术。自然语言检索是以自然语言作为检索提问与对话接口的检索方式,易懂易用,扫除了人—机之间交互的障碍,因此,很多信息检索系统都提供自然语言检索功能。但是自然语言本身存在很多缺点,如词义模糊、词间关系含混等,不易被计算机正确理解和处理,从而导致错配情况发生,检索的漏检率和误检率较高。自然语言理解技术是人工智能研究的核心之一,也是网络信息检索智能化的关键所在。自然语言理解技术通过对用户输入的自然语言进行句法分析、语义分析等多种处理,生成相应的用规范词形式表达的查询语句,避免自然语言本身所存在的缺点,使计算机能进行准确的信息传递和认识活动,提高检索效率。

④智能代理技术。智能代理又称智能体,可以在用户没有明确具体要求的情况下,通过学习了解用户的行为、爱好、兴趣,推理出用户的潜在需求;可以根据用户需要,代理用户进行各种复杂的工作,如信息查询、筛选及管理。可以根据用户的评价和反馈调整自己的行为,动态地关注用户所需信息的变化,实时地把最新信息推送给用户,实现服务的个性化。它具有智能性、代理性、学习性和主动性等特点,它使得网络信息检索工具在信息的收集、处理、检索和服务等多个方面实现智能化,成为网络信息技术的最前沿代表。目前,智能搜索代理还存在一些局限,如智能化程度不高、自然语言处理有待提高等。

(4)数据挖掘技术。

面对信息资源数量的不断增长,如何从庞大的信息数据库中寻找出更有价值的信息,便是摆在网络信息检索面前的问题。尽管网上有很多检索工具可以用于信息查询,但是查准率特别低。随着数据库技术和机器学习技术的发展,数据挖掘(Data Mining)技术逐渐发展起来,数据挖掘技术也称为数据库中的知识发现(Knowledge Discovery in Database,KDD)技术,是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取的知识一般可表示为概念(concepts)、规则(roles)、规律(regulations)、模式(patterns)等形式。被发现的知识可以用于信息管理、查询优化决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘技术是一种深层次的数据分析技术,可用来对海量数据进行处理,从中抽取和发现知识,集成了数据库、人工智能、数理统计可视化并行计算等方面的技术。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,企图发现事件间的相互关联,以指导实际问题的解决,甚至利用已有的数据对未来的活动进行预测。目前Web信息挖掘可以分为三类,即Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用记录挖掘(Web Usage Mining)。

①Web内容挖掘。Web内容挖掘是一个从文档内容或其描述中抽取知识的过程,它包含两种策略:一种是直接挖掘文档的内容,如Web查询语言Web Log、Web OQL等;另一种是利用其他搜索工具的结果进行处理,如对搜索引擎的返回结果进行聚类分析等。

②Web结构挖掘。Web结构挖掘是从WWW的组织结构和链接关系中推导知识。HTML页面所包含的知识不仅存在于各个页面的内容中,也存在于这些页面之间的相互链接中。利用这方面的知识可以对页面的重要性进行排序,以发现重要的页面。

③Web使用记录挖掘。Web使用记录挖掘也称基于Web访问的数据挖掘。我们可以通过对网站Log文件的分析,获得网站访问情况的详细统计数据。针对这些统计数据进行的数据挖掘就是(静态的)Web访问记录的数据挖掘,从中可以了解网站的被访问率、用户的访问模式、访问时间段以及个性化的使用记录,从而对网站的信息服务进行改进。

(5)自动标引和分类技术。

信息的自动标引和分类技术是20世纪50年代就开始发展起来的技术。20世纪90年代以来,随着大量的统计方法和机器学习方法被应用于自动标引和分类技术,自动标引和分类技术被广泛应用于网络信息检索工具,特别是自然语言在网络信息检索中的应用,极大地提高了网络信息标引与分类的速度和效率。

自动标引技术是指由计算机代替人工完成文本的主题内容分析,并赋予语词标识的技术,可分为抽词标引和赋词标引两种。抽词标引主要是指利用原文本信息中的自然语言直接标引,不加任何处理。如从题名、文摘、小标题或正文中直接抽取关键词进行标引,这是一种自然语言标引形式。赋词标引是指使用已建词表中的主题词(叙词)替代文本信息中的关键词来表达文本主题内容概念的标引过程,即使用受控语词进行标引,这是一种受控语言标引。目前网上采用的是词频加权统计法对一个网页文本信息进行主题标引,经权值计算、汇总、排序后自动生成网页的主题词(词串),该标引词由主题词(词串)及其权值组成,是网页自动分类的依据。

自动分类技术就是利用计算机信息技术对信息按照一定的分类体系或标准进行自动分类标记,它主要用于实现信息特征的聚类和归类,即将具有相同或者相近特征的信息对象集中在一起,而将不同特征者尽可能归于不同的类别中,从而实现快速检索。确切地说,自动分类建立在语词共现原理的基础上,是通过计算机对文档原文中的关键词进行词频统计分析,提取出若干最能表达文档内容的词,然后用语词共现频率统计方法将其与语词类集进行相似性比较,确定一篇文献属于代表某个语词类集的类,从而达到使相关文献聚集在一起成为一类的目的。自动分类技术的关键技术涉及文本预处理、文本表示和特征提取等技术。

5.网络信息检索工具的类型

正如手工信息检索离不开目录、索引、文摘等各种工具,网络信息检索也需要专门的信息检索工具,实现对分散、无序的网络信息资源的有效控制。从20世纪80年代起人们就开发了诸如Archie、WAIS、Veronica等检索工具,用于检索FTP、WAIS、Gopher等网络信息资源,90年代中期又出现了检索Web信息资源的搜索引擎技术。目前已经形成了检索各类网络信息资源的检索工具体系。

网络信息检索工具是Internet上提供信息检索服务的计算机系统(应用程序软件或者网站),其检索对象是存在于Internet信息空间中的各种类型的网络信息资源,利用人工或计算机软件来进行信息的收集、记录、标引、整序,形成索引数据库,供用户检索、获取所需信息或指引用户至相关信息资源。一般来说,网络信息检索工具都是用户界面友好、简单易用的,而且在众多网络信息检索技术的支持下,检索功能日益强大,从而增强了用户自我信息检索服务的能力。

Internet信息资源的多样性,导致了网络信息检索工具的多样性。要有效地利用这些网络检索工具,就必须了解它们的检索机制、收录资源类型的适用范围。总的来说,Internet信息资源可以分为WWW信息资源和非WWW信息资源,我们将根据网络信息检索工具收录的信息资源的类型及其对应的检索方式分别对WWW检索工具和非WWW检索工具包含的类型进行介绍。

(1)WWW信息资源检索工具。

WWW信息资源检索工具是以万维网(WWW)上的资源为主要检索对象,又以WWW形式提供检索结果的检索工具。目前主流的WWW检索工具为搜索引擎,搜索引擎几乎是WWW检索工具的代名词。目前搜索引擎可分为目录型搜索引擎和关键词型搜索引擎,目录型搜索引擎也称为网络资源指南。下面详细介绍目前Internet上的WWW信息资源检索工具的几种类型。

①网络资源指南。网络资源指南(WebDirectory),也称为主题指南,是基于人工建立的网站分类目录,将所收集的网站信息按特定的主题分类目录体系进行组织,并辅以年代、地区等分类,形成一个树状结构目录,用户逐层浏览主题分类目录,逐步细化检索范围来查找合适的类目,直至具体资源。其后台数据库并不保存网页,而是保存各网站的站名、网址以及内容摘要。这种检索工具层次和结构清晰、易于查找;分类目录下的网站简介可以使用户一目了然,从而确定取舍;专题性强,能较好地满足族性检索的要求;人工的介入确保了信息准确,导航质量高。但是也存在许多的问题,如分类目录体系不够完善与合理;检索功能相对较弱;人工介入引起维护量大,导致信息量少、更新不及时、查全率不高,难以检索到较专深的信息等。这类检索工具按事先设置的检索途径进行检索,故多适用于泛性课题的检索。其典型代表有Yahoo!、Open Directory、搜狐网站目录等。

②搜索引擎。搜索引擎(指关键词型搜索引擎)借助于网上自动搜索软件(Robot、Spider等)定期遍历万维网,收集Web网页,对其进行标引,建立索引数据库。当用户在检索文本框中输入检索词或检索表达式后,以自己特定的检索算法从后台数据库中找出相关记录,并按相关性或者时间顺序对其进行排序,反馈给用户。每个搜索引擎都有自己独有的搜索系统和索引数据库。它具有检索面广、信息量大、更新及时、界面直观简洁、使用方便直接等优点,而且绝大多数都支持布尔运算符、截词运算符、模糊检索和自然语言检索等,可准确表示检索需求,检索功能较强。此外,借助全文检索技术,可实现网页内容全文检索。其缺点是返回的检索结果数量大,无关和冗余信息较多,用户必须从中进行筛选。目前出现了许多可以同时调用多个搜索引擎的集合型搜索引擎,极大地提高了检索效率。

③信息门户。信息门户(Information Portal),也称为信息网关(Information Gateway),是将特定领域或者众多领域的信息资源、工具和服务都集成到一个网页上,为用户提供一个方便的信息检索和服务入口,“一站式”获取所需信息资源,是一种以清晰的用户界面构建大量信息资源平台的有效方式,提高了网络资源的序化程度。从涉及的内容范围看,信息门户分为水平和垂直两种。水平信息门户是面向大众、包罗万象的信息门户,如Sohu、Sina、Yahoo!等网站。垂直信息门户收录特定的内容,面向特定用户服务,如政府信息门户、商业信息门户、公司信息门户、学科信息门户等。对于想要获取学术科研信息的用户,学科信息门户是首选。学科信息门户是图书馆界利用传统的文献信息处理技术和经验,结合现代信息技术,在网络信息资源组织和检索方面做出的积极贡献。学科信息门户是针对特定学科或主题领域,按照一定的资源选择和评价标准、规范的资源描述和组织体系,对具有一定学术价值的网络信息资源进行收集、选择、描述和组织,并提供浏览、检索、导航等增值服务的垂直性信息门户。学科信息门户的用户一般有明显的针对性,所收信息资源都经专业信息工作者严格选择和深入揭示,并提供注解和评价信息,准确性、可靠性较高。其组织的对象包括电子出版物(图书、期刊、报纸、工具书)、数据库、会议论坛、科技报告,以及相关网站链接等,检索性能高于网络资源指南、搜索引擎、资源导航等。

目前国外很多学术机构都建立了自己的学科信息门户,如英国的社会科学信息门户(The Social Science Information Gateway,SOSIG)、爱丁堡大学工程虚拟图书馆(Edinburgh Engineering Virtual Library,EEVL)、美国的图书馆员因特网索引(Librarians Index to the Internet)等。我国中科院的“国家科学数字图书馆”就建设生命科学化学数学物理、资源环境和图书情报五个学科信息门户。

④搜索软件。搜索软件,也称为桌面搜索引擎或软件式搜索引擎,是通过下载并安装在用户的计算机上,就可启动相应的搜索引擎进行搜索的软件。搜索软件可分为单一型和集合型两种。使用单一型的搜索软件的用户无须进入某一搜索引擎的主页,就可随时使用该搜索引擎,如Google的工具栏百度的超级搜霸等。集合型搜索软件的工作原理类似于集合型搜索引擎,可以同时调用多个搜索引擎进行搜索,从而能得到更多、更详细的信息,如中华搜索宝(http:∥www.chinassbc.com)。搜索软件的安装和使用都很容易,无须进行复杂的设置。除了提供搜索功能外,还可对搜索进行智能化处理,限定搜索范围,过滤重复的内容、域名和名称等。但是目前该类软件质量参差不齐,选择的时候要进行准确定位。

从目前的网络信息检索实践来看,WWW检索工具不仅可以搜索WWW上的信息,也可以搜索Internet上的其他非WWW类信息资源,如FTP、Gopher、新闻组等信息。随着WWW的迅速发展,WWW检索工具将逐渐发展成Internet上的标准检索工具,成为人们获取Internet信息资源的主要检索工具和手段。

(2)非WWW信息资源的检索工具。

非WWW信息资源检索工具主要是指以非WWW信息资源,如FTP、Telnet和用户服务组等信息资源为检索对象的检索工具。

①FTP信息资源的检索工具。借助于FTP(文件传输协议)可以实现两台计算机之间的文件复制传输,几乎可以传输任何类型的文件,包括文本文件、二进制文件、图像文件、声音文件、数据压缩文件等多种类型。进行传输的前提就是要了解所需文件所在的FTP地址,FTP检索工具就是通过对Internet上的FTP服务器进行连接,将这些服务器提供的可下载文件的文件名和路径收集在一起组成数据库,并通过检索程序为网络用户提供检索服务的一种实时联机检索工具。一般而言,FTP检索工具由于专门针对各种文件,因而相对于WWW搜索引擎,在寻找程序软件、图像、电影和音乐等多媒体文件方面,FTP检索工具更加直接方便,而且传输容量大和速度高。目前已经出现了大量的Web方式的FTP检索工具。

最早的FTP类检索工具的典型代表是基于文本显示的Archie。它由加拿大McGill大学在1991年开发,功能在于通过文件名搜索匿名FTP服务器中的文件,帮助用户了解所需文件的FTP地址和目录清单列表。与一般检索工具不同的是,它不能通过主题来实现相应的检索,而只能根据文件名和目录名进行检索。Archie的检索界面一般为命令式检索界面,检索时从文件名、文件目录名以及文件描述等方面进行查询。利用Archie检索FTP文件的特点是查全率和查准率高。

WWW的出现改变了Archie在文件搜索方面的统治地位,目前出现了许多Web界面的FTP检索工具,国内的诸如北大天网中英文FTP搜索引擎(http:∥bingle.pku.edu.cn)、西安交通大学的思源搜索(http:∥search.xitu.edu.cn/website/)等;国外的FTP检索工具有FileZ(http:∥www.filez.com)和Tile.net等。

②Telnet信息资源的检索工具。Telnet系统作为网络信息资源历史悠久的一个部分,虽然已经逐步为WWW系统所取代,但仍具有了解和使用的意义。特别是目前许多公共性质的信息检索系统,如图书馆目录、政府和企业部门的公共数据库等,仍然提供Telnet方式的检索途径。获取Telnet信息资源需要了解所要登录的远程计算机的域名或者IP地址等信息。Telnet信息资源最主要的检索工具是Hytelnet(http:∥www.galaxy.com/hytelnet),1990年开发,Hytelnet允许用户对基于Telnet的数据库进行检索,查询各类数据库资源的地址和远程登录的信息。目前,Hytelnet服务器已经收集了2 000多个以Telnet方式可访问的服务器的地址,主要检索对象包括图书馆数据库和联机书目信息系统、一般的电子公告版系统(bbs)、文件服务系统和其他多种信息资源系统。获取Hytelnet信息检索服务的途径有三个:使用Hytelnet客户软件;通过Telnet方式访问Hytelnet服务器;通过WWW界面的客户软件(http:∥galaxy.com/hytelnet)。用户通过Hytelnet进行检索时,可按类别进行浏览和选择,也可采用其高级检索界面进行检索,高级检索可选择词汇匹配关系、检索对象等。在检索网页时,可进一步选择主题领域、关键词出现的位置等。检索结果包括远程计算机信息系统的基本描述、终端类型、特殊键盘指令等。Hytelnet是检索Telnet资源的佼佼者,但是它只提供与远程计算机联机的有关线索和方法,用户若想与某服务器联机,必须退出Hytelnet,再用Telnet应用程序进行联机,然后浏览、查询和使用远程计算机上的信息资源。

③用户服务组信息资源的检索工具。如前所述,新闻组、电子邮件群、邮件列表、专题讨论组等这些用户服务组是一个巨大丰富的信息库,其内容几乎覆盖了社会的各个方面,因此出现了相应的检索工具。目前除了许多搜索引擎,如Altavista、LyCOS、Google、Yahoo!等都把用户服务组信息纳入检索范围外,也存在大量专门的检索工具。如DeiaNews(http:∥www.deianews.com)是于1995年开发的专门用于查询Usenet新闻组信息的搜索引擎,基本功能是新闻组文章的全文检索,以其方便快捷、数据库庞大以及特色的检索功能等优势吸引了大量用户,日益成为网上最大、最有效的Usenet检索工具。Tile.net是一个能检索多种类型的用户服务组信息的检索工具,可以检索的信息类型包括FTP、邮件列表、Usenet讨论组等,是一个强有力的、易于使用的列表服务软件。检索邮件列表信息的专类检索工具还有CataList(http:∥www.1sofi.com/lists/listref/html)和PAMailing Lists(http:∥paml.net)。

随着WWW信息技术的迅速发展,Telnet、FTP、Usenet等类信息资源都可通过WWW检索工具获取,使得Hytelnet、Archie等工具的作用极大削弱,存在的价值受到质疑。目前,即使存在此类检索系统和工具,用户仍然倾向于使用WWW类检索工具获取所需信息资源。在此论述,是为了用户全面系统地了解网络信息检索工具。

网络信息检索工具的出现,无疑为用户检索网络信息提供了便利,而网络信息检索工具数量的庞大,及其在查询范围、检索功能、检索结果等方面的多样化发展状态,使得用户在选择时感到无所适从。此外,了解网络信息检索工具的功能与特点还不够,重要的是如何利用这些检索工具广、快、精、准地查找到所需要的信息,这就需要掌握检索的策略与技巧。从总体上来讲,配合科学、合理的检索策略与技巧,各种检索工具强大的检索功能就会充分发挥出来,极大地提高检索效率,取得“事半功倍”的效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈