一、网络信息资源介绍
1.网络信息资源的概念
网络信息资源是指以电子资源数据的形式将文字、图像、声音、动画等多种形式的信息存放于光、磁等非印刷介质中,并通过网络通信、计算机或终端等方式再现出来的信息资源的总和。
随着互联网的发展,一方面,相对于传统的信息获取方式,我们可以方便而快捷地找到我们所需要的信息,另一方面,互联网的发展大大扩展了我们拥有的信息资源世界。面对纷繁复杂的信息海洋,找到需要的有价值的信息并非易事,那么对网络信息资源、网络信息资源分布与规律、网络信息的检索与利用等加以研究则显得尤为重要。
2.网络信息资源的种类
(1)按网络信息来源划分
①政府信息资源。各国政府纷纷在网上发布有关该国家与政府的各种公开信息,进行国家与政府的形象展示。政府信息包括各种新闻、统计信息、政策法规文件、政府档案、政府部门介绍、政府取得的成就等。
②公众信息资源。公众信息资源,就是为社会公共服务的机构所拥有的信息资源,包括公共图书资源、科技信息资源、新闻出版资源、广播电视信息资源等。
③商用信息资源。商用信息资源,是商情咨询机构或商业性公司为生产经营者或消费者提供的有偿或无偿的商用信息,包括产品、商情、咨询等类型的信息。
(2)按信息资源加工形式划分
①网络资源指南和搜索引擎。二者都提供对网络资源的利用指导与帮助,不同的是资源指南只提供资源的向导,不提供对资源的检索功能;而搜索引擎是互联网上的检索工具,具有多种检索功能。
②联机馆藏目录。包括图书馆及信息服务机构提供的公共联机检索(OPAC)馆藏目录、地区或行业的联合目录。
③网络数据库。由原来的联机数据库系统发展而来,如DIALOG、OCLC都开设了与Internet的接口,另一类由专业的信息服务商开发,如UMI的PQDD、万方公司的数据库资源系统等等。
④电子出版物。国内外的许多出版商或信息服务中间商已发展成为网络出版商和服务商,网上的电子出版物包括电子图书、电子期刊和电子报纸等。
⑤电子参考工具,多种参考工具书已成立专门的网站或制成参考工具网络数据库的形式发布到网上供使用。
⑥软件资源。指各种共享和不共享的软件,以及关于软件的信息与资源。
⑦动态信息。指在网上动态发布的新闻、广告、通知以及基于交流组的实时交流信息等。
(3)按网络传输协议划分
①WWW信息资源。WWW(World Wide Web,万维网,也称环球信息网)是20世纪90年代初期由位于瑞士的欧洲研究中心发明的,由于它能方便迅速地浏览和传递分布于网络各处的文字、图像、声音和多媒体超文本信息,并适用于互联网信息服务,因此在90年代中期得到迅速发展,互联网的WWW服务器以每年翻几番的速度增长,成为互联网信息资源的主流。
②FTP信息资源。FTP(File Transfer Protocol,文件传送协议)是互联网上历史最为悠久的网络工具。它允许人们通过协议连接到互联网的一个远程主机上读取所需文件并下载。它相当于在网络上的两个主机间拷贝文档。互联网刚开始流行时,网上文件大部分都是FTP站点上的,因而FTP在互联网的发展史中发挥着重要作用。至今FTP仍是发布、传递软件和长文件的主要方法,而且许多文件只在FTP服务器上,并没有做HTTP的链接,值得人们重视。
③Telnet信息资源。Telnet是互联网的远程登录协议,允许用户将自己的计算机作为某一个互联网主机的远程终端与该主机相连,从而使用该主机的硬件、软件和信息资源。
④用户通信或服务组信息资源。用户通信或服务组是互联网上颇受欢迎的信息交流形式。其中包括新闻组(Usenet Newsgroup)、电子邮件群(Listserv)、邮件列表(Mailing List),专题讨论组(Discussion Group)等。它们都是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,是互联网上进行交流和讨论的主要工具。它们的工作原理与使用方法也非常相似,均用于网络用户间的信息交流,但又各具特色和用途,锁定各自特定的用户。Usenet是互联网上的一种应用软件,用于提供新闻组服务,在这个服务体系中,有许多新闻服务器,用户可以在自己的主机上运行新闻组阅读器软件申请加入某个新闻组,并从服务器中读取新闻组消息或将自己的意见发送到新闻组中,可查阅别人的意见并予以回复,由此进行讨论。
⑤Gopher信息资源。Gopher是一种基于菜单的网络服务,类似万维网的分布式客户机/服务器形式的信息资源体系。它是互联网上一种分布式信息查询工具,各个Gopher服务器之间彼此连接,全部操作都在一级级菜单的指引下,用户只需在菜单中选择和浏览相关内容,就完成了对互联网上远程联机信息系统的访问。此外,Gopher还可提供与前文所提及的其他多种信息系统的连接,如WWW、FTP、Telnet等。
3.网络信息资源的特点
(1)信息量大,来源广
Internet已经成为继电视、广播和报纸之外的第四媒体,是信息资源存储和传播的主要媒介之一,是集各个部门、各个领域的各种信息资源为一体,供网上用户共享的信息资源网。任何人都可以十分容易地在网上发布信息、传播观点。因此信息资源数量十分巨大,有“海量”信息之称,并且信息来源十分广泛。信息发布者既有政府部门、大专院校、研究机构、学术团体、行业协会,更有大量的公司企业和个人。
(2)信息内容丰富,结构复杂
互联网已成为全球最大的信息资源基地,在互联网上几乎可以获得任何领域的信息。它的信息资源主要以数据库为主体,还包括采用多媒体技术形成的集声音、图像、文字等为一体的包罗万象的综合性信息系统。其存储形式为文本、超文本、多媒体、超媒体,使信息组织方式也发生了巨大的变化,不仅以知识和信息为存贮单元,而且同时展示这些单元之间的逻辑关系,为网络环境下不同形式的信息资源的管理和开发提供技术支持;由传统的顺序、线性排列,通过利用数字化存储技术,发展到超文本、超媒体技术,促使信息资源按照自身的逻辑关系组成相互联系的、非线性的网状结构。
(3)信息传播速度快,变化频繁
在非网络信息中,信息传播速度快且变化最大的莫过于报纸,但是报纸一经出版,其信息便无法更改。而在Internet上,信息的更新非常及时,不少新闻站点、商业站点的信息每日更新,信息传播速度非常快,信息交流能瞬间完成;并且在互联网上,信息地址、信息链接、信息内容经常处于变动之中,信息资源的更换、消亡更是无法预测,为用户选择、利用网络信息资源带来了不便,同时也为信息的组织带来不便。
(4)信息层次多,品种多样
Internet上的信息资源层次多,有文本信息、图像信息、图形信息、表格信息、超文本信息等,同时还包括各种电子书刊、联机数据库、软件资源等,是多媒体、多语种、多类型信息的混合体。
(5)信息分布缺乏组织,分散无序
Internet信息资源的分散表现在没有一个中心点,也没有全面性的权限,甚至连本身的意义也显得模糊和多样。通过一种文献可以连接到更多相关或相类似的文献;同样,一份文献也可能从另一份文献链接而来,这种前所未有的自由度使Internet信息资源的共建和共享变得潜力无穷,然而也使Internet信息资源处于无序状态,而且“海量”的信息和快捷的传播加剧了网络信息的无序状态。许多信息资源缺乏加工和组织,其往往只是时间序列的信息堆积,缺乏系统性和组织性,而且其更新和消失往往无法预测,这无疑增大了对Internet信息资源的选择、搜集、管理和维护的难度。
可见,随着数字化、网络化技术的飞速发展,网络信息资源呈现出动态性、分布性、多元性和无序性等特点,使信息的查找和检索变得越来越困难。对于21世纪的信息用户和信息管理者来说,困扰他们的不是信息太少,而是信息过多。因此,如何对网络信息资源进行合理的描述、组织、有序化和提高信息的利用率是当前研究的重要课题。
4.网络信息资源的组织
根据Internet的技术特点、网络信息资源的特点与构成,以及对网络信息资源开发与利用的需求,网络信息资源的组织主要有以下几种方式。
(1)文件方式
以文件系统来管理和组织网络信息资源简单方便,是存储图形、图像、图表、音频、视频等非结构化信息的天然单位。组织网络信息资源可以利用计算机技术里的一整套文件处理的理论和技术,而且Internet也提供了一些协议来帮助用户利用那些以文件形式保存和组织的信息资源。但是文件方式对于结构化信息则难以实现有效控制和管理;随着网络信息资源的飞速增长,以这种方式传输信息会使网络负载越来越大;当信息结构较为复杂时,文件系统难以实现有效的控制和管理。因此,文件方式只能是组织网络信息资源的辅助方式。
(2)超文本链接方式
这种方式是将网络上的相关文本的信息有机地组织在一起,以接点为基本单位,接点间以链路相连,将信息组织为网状结构。它的特点是非线性编排,符合人们思维联想和跳跃的习惯。节点中的内容可多可少,结构可以任意伸缩,具有良好的包容性和可扩充性。这种方式可组织各类媒体的信息,方便地描述和建立各媒体信息之间的语义联系。
(3)搜索引擎方式
搜索引擎是互联网上一种常用而重要的信息组织方式。其工作原理是利用Robot(机器人)、Spider(蜘蛛)或Worm(蠕虫)等自动代理软件,定期或不定期在互联网上漫游,每个搜索引擎都配备有自动检索程序,随时都会顺着超文本之间的链接跟踪网上新加入的主页、节点。当发现新的网址、网页信息后,即对其进行自动抽取、标引、归并、排序,创建可按关键词查询的Web网页索引数据库,使用户能轻易地查找到所需要的信息。当用户输入检索词后,搜索引擎会自动将其与存储在网上的一次信息特征进行比较匹配,将符合用户要求的一次信息以超文本方式显示出来,检索结果可按相关性的大小顺序排列。这种方式的主要特点是非人工构建,自动化程度高,并可提供位置检索、概念检索、截词检索、嵌套检索等。搜索引擎方式的优点是所收录的信息量巨大,耗费的人力资源较小,信息更新速度快,适合特性检索;缺点是检索结果较为庞大,检准率较低。
(4)目录指南方式
目录指南也是互联网上常用的信息组织方式。它是利用人工或机器搜寻,但用人工分类并制作索引数据库。目录指南方式组织信息资源是将信息资源按某种事先确定的主题分门别类地加以组织,用户通过层层浏览,直到找到所需的信息线索,再链接到相应的页面。目录指南方式的优点是:专题性强,信息质量高,且能很好地满足族性检索的要求。用户按规定的分类体系,逐级查看,目的性强,查准率高。目录指南方式屏蔽了网络信息资源系统相对于用户的复杂性,提供了一个基于浏览的简单易用的网络信息检索与利用界面,并且具有严格的系统性和良好的可扩充性。目录指南方式也存在一些不足。一方面,由于网络信息资源的海量,使得很难确定一个全面的范畴体系作为目录指南结构的基础,来涵盖所有的网络信息资源。另一方面,用户为了迅速地找到所需信息,还须对相应的体系有较为全面的了解,这就增加了用户的智力负担。再则,要保证目录结构的清晰性,每一类目下的条目不宜过多,这就大大限制了所能容纳信息资源的数量。因此,目录指南结构不适合建立大型的网络信息资源系统。但在建立专业性或示范性的网络信息资源体系时,就显示出其结构清晰、使用方便的优点。
(5)数据库方式
数据库是对大量的规范化数据进行管理的技术。利用数据库对网络信息资源进行管理可大大提高信息管理的效率。由于数据的最小存取单位是信息项(字段),因此可根据用户需求灵活地改变查询结果集的大小,从而大大降低了网络数据传输的负载。
(6)主页方式
所谓主页(Homepage),可以理解为某个单位、学校、企业,甚至政府、城市、国家在Internet上为自己建立起来的门面。人们从Internet访问这些网站,首先会接触到这个门面,并根据它的引导进一步查询网站上的有关内容,即用户首先输入一个IP地址,系统响应其访问请求,并通过网络将对方的主页信息传递到用户的计算机上,这时屏幕上就会出现经过精心设计的图形界面。按照微软公司的比喻,如果把WWW当做是Internet上的大型图书馆,则每个站点就是一本书,每个Web页面就是书的一页,主页则是书的封面和目录,用户可以从主页开始,通过Web链接访问其下的各类信息资源,在WWW世界中漫游。
二、网络信息检索工具
1.网络信息检索方法
(1)基于超文本的信息查询
通过超文本链接逐步遍历庞大的Internet,从一个WWW服务器到另一个WWW服务器,从一个目录到另一个目录,从一篇文章到另一篇文章,浏览查找所需信息的方法称为浏览,也称为基于超文本的信息查询方法。
基于超文本的浏览模式是一种有别于传统信息检索技术的新型检索方式。它已成为Internet最基本的查询模式。利用浏览模式进行检索时,用户只需以一个节点作为入口,根据节点中文本的内容了解嵌入其中的热链指向的主题,然后选择自己感兴趣的节点进一步搜索。在搜索过程中,用户会发现许多相关的节点内容根本没被自己所想到,却在浏览过程中不断蹦出来,提醒用户注意它。
随着WWW服务器的急剧增加,通过一步步浏览来查找所需信息已非常困难,为帮助用户快速方便地搜寻所需信息,各种WWW信息查询工具便应运而生,其中最有代表性的是基于目录和基于搜索引擎的信息查询工具,而利用这些工具来查找信息的方法就被称为基于目录和基于搜索引擎的信息查询方法。
(2)基于目录的信息查询
为了帮助Internet用户方便地查询到所需要的信息,人们按照图书馆管理书目的方法设置了目录。网上目录一般以主题方式来组织,大主题下又包括若干小主题,这样一层一层地查下去,直到比较具体的信息标题。目录存放在WWW服务器里,各个主题通过超文本的方式组织在一起,用户通过目录最终可得到所需信息的网址,然后即可到相应的地方查找信息。这种通过目录帮助的方法获得所需信息的网址继而查找信息的方法称为基于目录的信息查询方法。
有许多机构专门收集Internet的信息地址,并编制成目录提供给网上用户。如搜狗搜索(http://dir.sogou.com)就是一个非常著名的基于目录帮助的网址,其目录按照一般主题组织,分为娱乐休闲、电脑网络、卫生健康、工商经济、教育培训、生活服务、公司企业、艺术、社会文化、文学、新闻媒体、政法军事、科学技术、社会科学、国家地区等十六大类目录。每一大类又分成若干子类,层层细分。
(3)基于搜索引擎的信息查询
搜索引擎又称WWW检索工具,是WWW上的一种信息检索软件。WWW检索工具的工作原理与传统的信息检索系统类似,都是对信息集合和用户信息需求集合的匹配和选择。基于WWW搜索工具的检索方法接近于人们所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获得检索结果并输出给用户。(www.xing528.com)
搜索引擎实际上是Internet上的服务站点,有免费为公众提供服务的,也有进行收费服务的。不同的检索服务可能会有不同界面、不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。这个索引库是向用户提供检索结果的依据,其中收集了Internet上数百万甚至数千万主页信息,包括该主页的主题、地址、包含于其中的被链接文档主题,以及每个文档中出现的单词的频率、位置等。搜索引擎已成为互联网信息检索最常用的工具。
2.搜索引擎简介
搜索引擎是利用网络自动搜索技术对互联网上各种资源进行标引,并为检索者提供检索服务的系统。具体来说,搜索引擎是互联网上专门提供查询服务的网站。这些网站通过复杂的网络搜索系统,将互联网上大量的网站的页面收集到一起,经过分析处理保存起来,能够对用户的各种查询做出反应,提供用户所需的各种信息。
搜索引擎主要用于解决网络用户对有序信息的需求与网上大量信息的无序方式存在的矛盾。它完成的主要任务是:主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中,利用各种检索方式将网络用户导向相关的信息资源。
搜索引擎按信息组织方式划分可分为目录式搜索引擎和全文搜索引擎;按语种可分为单语种搜索引擎和多语种搜索引擎;按搜索范围可分为独立搜索引擎和多元搜索引擎。
3.常用中文搜索引擎介绍
(1)百度(http://www.baidu.com)
百度公司是1999年底,两位北大校友、超链分析专利发明人、前Infoseek资深工程师李彦宏及徐勇于美国硅谷创立,2000年回中国发展。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其他门户网站如搜狐、新浪等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索(如图10-6)。
图10-6 百度搜索引擎主页
百度是目前全球最优秀的中文信息检索与传递技术供应商之一,具有如下先进的技术特点:①采用全球独有的超链分析技术。这种技术将传统情报学中的引文索引技术同Web中最基本的东西——链接技术相结合,通过分析链接网站的多少来评价被链接的网站质量,这保证了利用百度搜索时,越受用户欢迎的内容排名越靠前。②百度对中文互联网拥有天然优势。百度是由中国人自主开发的一款搜索引擎,其服务器分布在全国各地,保证用户通过百度搜索引擎可以以最快的速度搜到世界上最新最全的中文信息。③为中文用户量身定做。作为中国人自己的搜索引擎,百度深刻理解中文用户的搜索习惯,开发出关键词自动提示功能:用户输入拼音,就能获得中文关键词正确提示;还开发出中文搜索自动纠错功能:用户误输入错别字,可以自动给出正确关键词提示。④百度提供了“相关检索”、“网页快照”和“类似网页”等功能。从检索内容看,百度可检索网页、新闻、图片等,还整合了MP3和Flash两个专项搜索。
百度提供关键词检索和高级检索。关键词检索即只要在百度主页搜索框中输入相关主题词,点击“百度搜索”,百度就会自动找出所有符合全部查询条件的网站或资料,并将最相关网站或资料排在前面。
百度有中文搜索自动纠错功能,当用户误输入错别字时,它将自动给出正确关键词提示;支持布尔逻辑检索技术,用“+”“-”“|”分别表示;支持限制技术,可在一个网址前加“site:”表示搜索某个具体网站、网站频道或网页,将一个或几个关键词加“”,表示只检索网页标题中含有这些关键词的网页;不区分英文字母大小写,所有的字母均作小写处理。
高级检索除支持以上检索技术,还可以对检索结果、时间、地区、语言、搜索结果显示条数、文档格式等关键词位置进行限制。搜索结果可以进行包含以下全部的关键词、包含以下的完整关键词、包含以下任意一个关键词、不包括以下关键词的限制。时间可进行一天、一周、一月、一年限制。关键词位置可在网页的任何地方、仅在网页的标题中和在网页的URL中进行限制。文档格式有pdf、doc、ppt等限制(如图10-7)。
图10-7 百度搜索引擎高级检索
(2)Google(http://www.google.com.hk)
搜索引擎Google为1999年成立的google Inc.所有,由美国Stanford大学的两位博士于1998年9月发明。面世至今,获得多项业界大奖。成功和不同之处在于它不以花哨取胜,数据库容量可达20亿张网页,查询速度极快,能找到其他引擎找不到的网页。以检索功能强大、搜索信息准确而备受赞誉,其数据平均1月更新一遍,对部分网页每日更新。提供Google工具条、网页快照、图像搜索、新闻组及网页目录搜索。现在其索引量已达60多亿条,成为互联网上最大的搜索引擎(如图10-8)。
Google采用了先进的网页级别(PageRank)技术。这种技术是指依据网络自身结构,根据互联网本身的链接结构对相关网站用自动方法进行分类,清理混沌信息,整合组织资源,使网络井然有序。Google提供了“手气不错”、“网页快照”和“类似网页”等全新的功能。Google和一家名为Realnames(RN)的网络关键词管理公司合作。当用户输入关键词与Google推荐的网站匹配时,试试“手气不错”就可以登录到最佳网站。“网页快照”是指Google为用户储存的大量应急网页。它的作用是:当用户所要检索的网页在实际上可能已经过时或者不存在,而由于搜索引擎数据库的更新需要一定的时间,无法跟得上那些更新速度快的网站(如新闻网站),或是碰到网页服务器的暂时中断而找不到服务器时,快照内容便可暂缓燃眉之急。
图10-8 中文Google引擎主页
Google提供简单查询和高级查询两种常用的搜索方式。简单查询只要在检索文本框中直接输入关键词,然后点击“Google搜索”按钮,就可得到与关键词匹配的检索结果,可以进行网页、图片、新闻、论坛等查询。Google还提供分类目录,以供按类查询。高级查询提供搜索结果、语言、文件格式、日期、字词位置、网域等字段限制。
2010年3月,Google公司将中文搜索业务转移至香港。
(3)搜狗搜索(http://www.sogou.com)
“搜狐”大型中文门户网站,于1998年正式问世。“搜狐”一经推出,即受到网上用户的广泛欢迎,“出门靠地图,上网找搜狐”成为1998年中国网络界的一句口头禅。搜狗搜索是搜狐2004年开发的优秀的中文信息查询工具(如图10-9)。
搜狗提供关键词检索和高级检索。关键词检索只要在搜索框中输入相关主题词,点击“搜狗搜索”,搜狗就会自动找出所有符合全部查询条件的网站或资料,并将最相关网站或资料排在前面。
高级检索可以对搜索结果排序方式、在指定站内搜索、文档格式、关键词位置等进行限制。搜索结果还可以进行不包括关键词的限制(如图10-10)。
(4)天网搜索(http://www.tianwang.com)
天网搜索的前身是北大天网(http://e.pku.edu.cn)。北大天网由北京大学网络实验室研究开发,是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在Cernet上向广大互联网用户提供Web信息搜索及导航服务,是国内第一个基于网页索引搜索的搜索引擎。北大天网见证了中国互联网和中文搜索引擎发展的历史并参与其中,是国内中文搜索领域的一面旗帜(如图10-11)。
图10-9 搜狗搜索引擎主页
图10-10 搜狗搜索引擎高级检索
在“天网”主页上,用户在文本框中输入想要查询的关键词,并回车(Enter)(或者点击“天网搜索”按钮)即可。在天网查询时无需使用“&”与操作,只需要输入空格,天网搜索会在关键词之间自动添加“&”并提供符合全部查询条件的网页。如果想进一步缩小搜索范围和结果,只需输入更多的关键词或者在查询结果中输入关键词进一步查询。例如,搜索所有包含关键词“北京大学”的网页,只需在搜索框中输入“北京大学”;搜索所有包含关键词“北大”和“校庆”的网页,只需在搜索框中输入“北大校庆”。
图10-11 天网搜索引擎主页
(5)其他中文搜索引擎
QQ搜搜(http://www.soso.com)
中搜(http://www.zhongsou.com)
中文雅虎(http://cn.yahoo.com)
4.搜索引擎的发展趋势
随着互联网技术的不断发展,搜索引擎以其强大的搜索功能(对上亿网页进行信息的检索,而且搜索时间通常不过几秒),深受人们的喜欢。人们对搜索引擎功能的要求越来越高,不同人群有不同的搜索需求,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。未来的搜索引擎将呈现四大发展趋势:多元化、智能化、专业化和多媒体化。
(1)多元化
搜索引擎的发展趋势之一是多元化,即元搜索引擎。元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。现有不少单搜索引擎只能在本身所建立的数据库中查询所需要的信息资料,不能利用其他的搜索引擎查询信息资料。为此有些发达国家已开发出了十多种元搜索引擎,服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分利用所利用的搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表有WebCrawler、InfoMarket、Digisearch、Metacrawler、Savvyearch、Cyber411、Profusion、IQ99等。这些元搜索引擎的功能优于单搜索引擎。能有选择地调用多个单搜索引擎搜集信息;能集中处理检索结果,按其相似性进行匹配排序,返回用户;能将查到的信息按单搜索引擎归类,以说明所搜索的信息是哪个单搜索引擎查到的。
(2)专业化
搜索引擎发展趋势之二是专业化,即专业搜索引擎。搜索引擎的专业化是为了专门收录某一行业、某一主题和某一地区的信息而建立,非常实用,如有商务查询、企业查询、人名查询、电子邮件地址查询和招聘信息查询等等。这种专业化的搜索引擎是将来的方向。目前多数搜索引擎是综合性的,如Alta Vista、Yahoo、搜狐、天网等。这类搜索引擎虽然在搜集信息的全面性上有些优点,但难以收全某专业的信息资料,对专业性信息资料缺乏深加工,查准率差,服务器的维护也困难。这就为专业化的搜索引擎的建立与发展开辟了广阔空间,于是国外有关农业、化工、医学、教育、园艺、摩托车、宠物、家庭、服装、投资等专业化的搜索引擎便应运而生。专业化的搜索引擎在搜索某专业领域信息的全面性与挖掘深度上都优于综合性搜索引擎。如搜索有关化工的Chemindustry,搜索有关农业的Agrisurf,有关医学的Medline等,国内有关专业搜索引擎甚少,代表为天网搜索、悠游、OpenFind等。
(3)智能化
搜索引擎的发展趋向之三是智能化,即机器人搜索引擎。搜索引擎的智能化体现在两方面:一是对搜索请求的理解,二是对网页内容的分析。其中通过对用户的查询计划、意图、兴趣方向进行推理、预测,并为用户提供有效的答案是这种系统的支柱技术。自然语言搜索能力也是智能化的一个体现,是目前相对易于开发的技术。智能化的搜索引擎的智能功能反映在两方面:首先是能进行自动词汇拆分。能对用户输入的中文或英文词组进行自动规范化处理,能进行自动词汇拆分,使用户对中、英文信息都能查找。其次是能进行自动搜索与标引。利用自动代理软件Robot、Spider、Worm等,在网上24小时不停地漫游、遍历,通过访问网络中每一个公开区域的站点,自动地搜集网上的信息资源,记录下新的网址。如通过Alta Vista的Spider可以访问一亿个网站。而后利用索引软件对所搜索的信息进行自动标引,以建立按关键词查询的Web页索引数据库,供用户查询。该类搜索引擎的优点是信息量大、更新及时、不需人工干预;缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:Alta Vista、Northern、Light、Excite、Infoseek、Inktomi、Lycos、Google等;国内代表为:“天网”、悠游、OpenFind等。
(4)多媒体化
多媒体搜索引擎是随着宽带技术而发展起来的。未来的互联网是多媒体数据的时代,开发出可查寻图像、声音、图片和电影的搜索引擎是未来一个新的方向。多媒体是综合性的信息资源,是文本、图形、声音、动画、视频等媒体元素的统称。多媒体搜索引擎是具有图像、音频、视频、动画等搜索功能的搜索引擎。这类搜索引擎的代表如:All The Web、Alta Vista、Ditto、Imagesgoole、Musi-finder等。
三、网络信息检索常用方法与技巧
1.利用搜索引擎检索
互联网上有许多检索工具,不同检索工具的索引规模、搜索范围及索引组织是不相同的。选择合适的检索工具是取得检索成功的关键一步。选择合适的网络检索工具主要从网络检索工具的类型、收录范围、检索问题的类型、检索具体要求等方面综合考虑。一般来说,如果希望浏览某方面的信息、专题或者某个具体的网站,分类目录会更合适;如果需要查找非常具体或者特殊的问题,用关键词搜索比较合适;当需要查找的是某些确定的信息,如MP3、图片等,最好使用专门的MP3、图片等专业搜索引擎等等。用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多不同,使用时要根据自己的需要选择合适的搜索引擎。
2.利用网上信息指南检索
通过学科资源导航系统来利用网上资源。这些系统是针对某一学科或与该学科有关的某一主题来对Internet上的相关学术资源进行搜集、评价、分类、组织和有序化整理,并对其进行简要的内容揭示,建立分类目录式资源组织体系、动态链接、学科资源数据库和检索平台,发布于网上,为用户提供网络学科信息资源导引和检索线索的导航。它将某一学科的网络学术资源由分散变为集中,由无序变为有序,其建立将方便各学科读者查询本学科网络信息资源。此类指南专业性强,是检索科技信息十分有效的方法。国家图书馆、上海图书馆等大型图书馆一般都建有文献资源导航系统。可进入这些站点,直接从主页找到自己关注的资源类目,进行选择。
3.检索网络文献数据库
就世界范围来说,数据库发展的特点为:发展速度快、数据库日趋专业化;数据库已由科技文献型产品扩展到多品种体系;数据库服务范围从科技到经济、管理、市场、娱乐等等。网络文献数据库包括综合性和专业性数据库、期刊数据库、专利数据库等信息资源。国内著名的数据库有中国期刊全文数据库、中国优秀博硕士论文全文数据库、中国重要报纸全文数据库、中国重要会议论文全文数据库、万方数据资源系统、维普中文科技期刊数据库、中国专利数据库等。这些数据库由专门的信息机构或公司专业制作和维护,信息质量高,是专业领域内常用数据库。网络文献数据库是网上信息资源的基础,对检索专业性文献信息的用户来说应首先选择这类。
4.查询网上图书馆
大多数图书馆都提供馆藏资源的网上检索,如中国国家图书馆、中国科学院文献信息中心、上海图书馆等国内图书馆都提供文献信息的查询。也可访问网上图书馆、网上书目查询或网上书店,如超星数字图书馆等。
5.选择合适的搜索工具
在动手检索之前,要根据检索内容和目的选择合适的搜索工具。要对检索的课题进行分析,确定其主题、类型,形成若干具有检索意义的概念,并考虑概念的专指度,分清主次,力求准确反映主题。同时确定检索目的,是泛泛浏览还是索取具体的文献;文献的类型是图书、期刊论文,还是影像资料;另外确定语种、年代等等。选择好的检索工具可以节省大量时间。
6.正确使用检索工具的检索功能
无论使用哪一种检索工具,只能使用选择的工具所提供的检索功能对网络信息资源进行检索。因为每一种检索工具所提供的检索技术功能不同,同一种检索技术在不同的检索工具中的使用方法也不尽相同,这一点是不可忽视的。不过,多数的检索工具所提供的检索技术是相通的,我们要善于比较与利用。要灵活运用各种检索技术,除了著者、刊名、机构等比较简单的检索条件外,尽量使用各检索工具提供的高级检索功能。
7.正确运用检索策略
合适的检索策略可以提高信息检索的查全率和查准率。传统检索理论非常重视检索策略的研究,强调检索策略的建立和修正,为提高网络检索效果有必要学习一些检索策略,掌握常用文献检索的途径、方法、技术和步骤。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。