1.万维网信息资源的检索工具——搜索引擎
搜索引擎实际上是因特网的服务站点,有免费为公众提供服务的,也有进行收费服务的。不同的检索服务可能会有不同的界面、不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。这个索引库是向用户提供检索结果的依据,其中收集了Internet 上数百万甚至数千万主页信息,包括该主页的主题、地址,包含于其中的被链接文档主题,以及每个文档中出现的单词的频率、位置等。
当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可称为Internet 上具有检索功能的网页。其工作原理是由网上机器人(Spider 或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。Spider 或Robot 是一种软件,它沿着WWW 文件的链接在网上漫游,记录URL(标识网页的地址)、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和URL、文件的大小、语种以及词出现的频率。
搜索引擎的主要任务包括以下几个部分。
(1)信息搜集
各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的“网页搜索软件”,在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新。
(2)信息处理
将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。
在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。故有的搜索引擎数据库很大,而有的则较小。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。
(3)信息查询
每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。
分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息。
关键词查询是利用建立的网络资源索引数据库向网上用户提供查询“引擎”。用户只要把想要查找的关键词或短语输入查询框中,并按“Search”按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。
2.搜索引擎的分类
国内一般把搜索引擎分为“分类搜索引擎”和“关键词搜索引擎”,国外则分别称其为“Directory”和“Search engine”。Directory 是指一种主题分类目录,由人工对网站进行标引和组织(handpicked web sites organized into categories),提供分类检索;Searchengine 是基于“蜘蛛”程序的搜索引擎(Spider Based Search Engine),由程序自动索引网页建立数据库,提供关键词搜索。搜索引擎是工具性实体,分类搜索和关键词搜索是搜索引擎的功能特征和网络信息的检索方法。
(1)分类搜索引擎
分类搜索引擎是指将信息系统分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息,是基于人工标引的检索方法。简言之,就是通过目录进行检索,因此分类搜索也可称为目录检索。
它以科学、实用的分类目录为工具,以规范化的自然语言为类名,在对网络信息归纳、概括的基础上,以网站为单元,提供经过专家评价和人工整序的网络信息。分类搜索是突出族性特征的检索方法。由于分类目录已按照学科或主题对网络信息进行了标引,所有网站在分类体系中同聚异分,各有所属,“纵向成枝,横向成网”,只需“按图索骥”,同一类属或相关主题的信息即可“循类以求”,适用于查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。
主要优点:所收录的资源经过人工组织,可以保证质量,减少了检索中的“噪声”,从而提高检索准确性。
局限性:花费大量的人力和时间,难以跟上网络信息的迅速发展,所涉及信息的范围有限,其数据库的规模也相对较小。
Yahoo 就是一个非常著名的基于目录帮助的网址,其目录按照一般主题组织,顶层按经济、计算机、教育、政治、新闻、科学等分成14 大类目录,每一大类又分成若干子类,层层递进,就好比在书库中一个一个书架地找书。
(2)关键词搜索引擎
它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web 形式让用户找到所需信息资源。比较著名的有:Alta Vista、Google、天网、百度、悠游等。用户可以在搜索引擎的界面上输入关键词来进行搜索,关键词一般是与要检索的内容相关的单词或者词组。检索得到的信息资源与用户所需检索的主题匹配程度取决于所输入的关键词,因此在选择关键词的时候要尽量选择与主题匹配精确的词,否则会因为关键词涉及的范围过大而返回大量的检索结果。
主要优点:收录信息范围广、速度快;可直接输入关键词或词组、短语,而无须判断类目、归属,使用方便。
局限性:人工干预过少而使其准确性较差,检索结果中可能会有很多冗余信息。
(3)分类搜索引擎与关键词搜索引擎的混合应用
现在,分类搜索引擎与关键词搜索引擎之间的界线越来越模糊,目前大部分的搜索引擎网站兼具分类搜索和关键词搜索两种功能,我们将这类搜索引擎称为综合型搜索引擎。比如,Yahoo、Google、新浪、搜狐、网易、中华等门户网站。HotBot(http://www.hotbot.com)是美国享有盛誉的综合型、混合型搜索引擎。
(4)多元搜索引擎
还有的搜索引擎将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索,这种引擎称为多元搜索引擎或集合型搜索引擎。著名的有Dogpile、Mamma 和万维搜索(Http://www.widewaysearch.com)、网络灯塔(http://www.haiyan.com/steelk/navigator/gbindex.htm)集成了50多个中文搜索引擎,分别提供简繁体中文网站、网页和新闻的多元信息搜索服务。
3.几种典型的搜索引擎介绍
(1)Google 搜索(www.google.com)(www.xing528.com)
Google 是目前世界上最大的搜索引擎,它提供70多种界面语言和35 种检索语言,有分类查询和关键词检索两种检索功能。在需要输入多个关键词进行检索时,词与词之间留一个空格,如图1-3-5所示。
图1-3-5 Google 搜索引擎
(2)百度搜索(www.baidu.com)
百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。
百度提供逻辑与、或、非检索,多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,其他同Google 的检索方法。百度的字段限定检索同Goog1e,如图1-3-6所示。
(3)Yahoo! (http://www.yahoo.com)
Yahoo! 是因特网上历史最悠久、用户数最多的综合型、混合型搜索引擎,是分类式搜索引擎的典范。它拥有10余种语言版本,且各版本的内容互不相同。
(4)专题型(专业学科)网络检索工具
专题型检索工具专门提供某一学科/主题范围的网络信息资源导航系统。如中国学术期刊网、中国知网(http://www.cnki.Net/ndex.htm)、万方系统电子期刊、超星数字图书馆等。
(5)美国教育资源信息中心
美国教育资源信息中心(Educational Resources Information Center,ERIC)成立于1966年,目前是世界上规模最大的网上教育资源数据库,其网址为http://www.eric.ed.gov/。
图1-3-6 百度搜索引擎
ERIC 的核心是ERIC 教育资源数据库,它包含了超过100万条的教育书籍、杂志、会议论文、研究报告、课程和教学指导的记录。图1-3-7 为ERIC 网站首页。
图1-3-7 ERIC 网站首页
ERIC 网站主页的上部为ERIC 的6 个主要栏目选项,它们分别如下。
①ERIC 数据库检索(SEARCH ERIC DATABASE)
读者可以由此方便地查阅ERIC 上的教育信息。读者可以通过网址http://www.eric.ed.gov/点击进入该网页。
②ERIC 资源(RESOURCES)
这是ERIC 的主体部分。读者也可以通过网址http://www.eric.ed.gov/resources/resources.html 直接进入该网页。
③ERIC 出版物(PUBLICATIONS)
读者也可以通过网址http://www.eric.ed.gov/pubs/pubs.html 直接进入该网页。
④ERIC 教育资源索引(Ask ERIC)
该栏目包括ERIC 教育资源的13 个分类,读者也可以通过网址http://www.askeric.org/直接进入这个网页。
⑤ERIC 摘要(ERIC DIGESTS)
可以查看ERIC 数据库中已更新的数据资源。读者也可以通过网址http://www.ed.gov/databases/ERIC-Digests/index/直接进入该网页。
⑥关于ERIC(ABOUT ERIC)
ERIC 网站主页的左边所列是ERIC 资源的信息交换站目录。在信息交换站中,所有的教育资源被分为成人、生计和职业教育(Adult,Career,and Vocational Education),测量和评估(Assessment and Evaluation)、社区学院(Community Colleges)、信息与技术(Information &Technology),教学和教师教育(Teaching and Teacher Education)等16 类。
在教学实践中,如果从ERIC“信息交换站”栏目的“信息与技术”类中查询同时包含Internet、network(网络)、education(教育)关键词的资料,输入内容的屏幕情况如图1-3-8所示。ERIC 返回的信息显示,已查询到的相关资料有1605 条,每条资料的反馈信息包括:该条资料的数据库代码(CLEARINGHOUSE-NO)、标题(TITLE)、作者(AUTHOR)、关键词(DESCRIPTORS)、摘要(ABSTRACT)、资料日期(PUBLICATION-DATE)等内容。在ERIC 中,数据库中的文档被保存为PDF 格式,读者可以通过Acrobat Reader 等工具软件进行阅读。
图1-3-8 ERIC 进行信息查询
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。