首页 理论教育 网络信息资源检索的特点与应用

网络信息资源检索的特点与应用

时间:2023-11-30 理论教育 版权反馈
【摘要】:了解网络信息资源的特点,是为了在检索与利用方面更好地发挥其作用。由于网络信息资源的发布限制少、程序简单,政府、机构、企业、个人都可以在网上发布信息。同时,网络信息绝大部分可免费使用,低费用的网络信息资源更有效地刺激了用户的信息需求。

网络信息资源检索的特点与应用

一、网络信息资源概述

网络是世界上最大的信息宝库,它已成为全球范围内传播和交流科研信息、教育

息、商业社会信息的最主要的渠道。而要想在这浩瀚无边、变化多端而又鱼龙混杂的

信息海洋中发现并查找出有利用价值的信息并不是一件易事。在以网络为核心的电子

环境下完成有效的信息检索对于每一个检索者都是一项挑战。而要进行有效的网络信

息检索,首先就必须对网络信息资源的概念、特点和类型等有较全面的认识和把握。

(一)网络信息资源的概念

作为知识经济时代的产物, 到目前为止, “网络信息资源”并没有一个确切的定义,

类似的名称也很多,如“电子信息资源” “因特网信息资源” “联机信息资源” “万维网

信息资源”等。关于“网络信息资源”的定义有很多种。

(1)网络信息资源是指以数字化形式记录的、以多媒体形式表达的存储在网络计

算机磁介质、光介质以及各类通信介质上的,并通过计算机网络通信方式进行传递的

信息内容的集合。

(2)网络信息资源是指在网络上蕴藏着的各种形式的、与教育相关的知识、资料、

情报、消息等的集合。

(3)网络信息资源是指通过计算机网络利用的各种信息资源的总和,包括馆藏电

文献数据库、数字化文献信息、数字化书目信息、电子报刊等。

(4)网络信息资源是指以电子数据的形式将文字、图像、声音、动画等多种形式

的信息存放在光盘等非印刷型的载体中,并通过网络通信、计算机或终端方式再现出

来的信息资源。

(5)网络信息资源是指为满足人类需求,借助计算机等设备共同开发、生产和传

递,人类可以通过网络获取的信息的集合。

上述有关网络信息资源的定义虽然存在一定的差异,但其实质是一样的,都分别

从网络信息资源的表现形式、传播方式、保存介质等方面进行了描述。 

综上所述,网络信息资源是指以数字化形式记录的,分布式存储在网络计算机的

存储介质以及各类通信介质上,并通过计算机网络通信方式进行传递,以多媒体形式

表达的信息资源的集合。它将原本相互独立、分布于世界各地的数据库、信息中心、

文献中心等联结在一起,形成一个内容与结构全新的信息整体。

网络信息资源极其丰富,以因特网上的信息资源为主,包括各种专题网络出版物、

网络新闻、 网络小说、 网络音乐、 网络游戏等信息资源, 其内容涉及农业、 生物、 化学、

数学、 天文学航天气象地理、 计算机、 医疗保险历史法律政治环境保护

文学、商贸、旅游、音乐和电影等几乎所有领域。它是信息资源的巨大集合,已经成

为人们获取信息的主要方式之一。

(二)网络信息资源的特点

网络信息资源是一种新型数字化资源,与传统形式的信息资源相比具有许多独特

之处。了解网络信息资源的特点,是为了在检索与利用方面更好地发挥其作用。

1.数量巨大,增长迅速

Internet 是一个基于 TCP/IP 协议联结各国、各机构计算机网络的通信网络,以磁

盘、光盘等磁、光介质为存储载体,与传统印刷型资源相比存储容量大、存取方便。

由于网络信息资源的发布限制少、程序简单,政府、机构、企业、个人都可以在网上

发布信息。因此,网络信息资源成为海量的、集各种信息资源为一体的、庞杂的信息

资源网。据相关统计,2010 年全球产生、获取和复制的数字信息总量为 9 880 亿 GB,

这大约是有史以来出版的图书信息总量的 1 500 万倍。

2.内容丰富,形式多样

网络信息资源内容丰富,涵盖了不同学科、不同领域、不同地区、不同语言

信息资源,内容包罗万象,如学术信息、商业信息、政府信息、个人信息等。从载

体形式看,它既可以是文字、图表等静态信息,也可以是集图、文、声、像于一体

动态多媒体信息。例如文本、图像、动画、软件、音频、视频、数据库等,堪称

多媒体、多语种、多类型的混合体。各种类型的数据又可借助计算机实现任意的组

合编辑,可把枯燥的文字信息转化为形式多样、活泼的数字信息,界面友好,易于

人机沟通。

3.动态性高,稳定性差

网络信息资源处于不断生产、更新、淘汰的变化之中,具有高度动态性、覆盖式

的更新,使得历史资源在修改后不易被保存下来。因此,网络信息资源具有很强的时

效性。同时,由于任何网站资源都有可能在短时间内建立、更新或更换地址,因而其

稳定性差。

4.新颖性强,质量不一

网络信息资源可以实现即生产、即传播,信息从空间位置的点向另一点的传递,

可以在瞬间完成,可充分消除信息流通的时滞。因此,内容更加新颖、及时,能够以

最快的速度传播。但是,由于任何人都可以在网上发布信息,信息发布具有很大的自

由度和随意性,缺乏必要的过虑、质量控制与管理机制,导致网络信息资源良莠不齐,

给用户利用信息带来不便。

5.信息分散,成本低廉

互联网是一个多网络、无中心、无主管的分散型互联网结构,缺乏统一的标准和

规范对网络信息资源进行组织管理,处于一种分散各处、混乱无序的状态。

网络信息资源可以使用自然语言检索,使用门槛低。超文本链接等技术将整个网

络上的相关知识链接起来,可供跳跃地阅读信息,便于快速系统地查找相关信息。同

时,网络信息绝大部分可免费使用,低费用的网络信息资源更有效地刺激了用户的信

息需求。

6.共享程度高,互动性强

由于信息存储形式及数据结构具有通用性、开放性和标准化的特点,网络信息资

源的复制、分发更加容易。因此,在不考虑版权的情况下,一份资源可以以无限多个

复本同时服务于无限多的用户。网络打破了传递的时空界限,用户可以在任何时间、

任何地点获取信息资源,使网络信息资源传播的时间和空间范围得到了最大程度的延

伸和扩展。数位用户可以同时共享同一份信息资源。

由于网络信息资源存储在计算机能够识别的介质上,伴随着计算机软件的更新与

性能的日益提高,网络信息资源用户逐渐具有更多的主动性,允许用户对资源发表评

论、做进一步完善,并就相关问题展开讨论。作者、出版者和读者可以通过网络直接

沟通。用户也可以就某一问题专门开设电子论坛,其他人可以围绕该专题展开讨论、

互相交流,具有很强的互动性。

(三)网络信息资源的类型

网络信息资源包罗万象,广泛分布在整个网络之中,没有统一的组织管理机构,

也没有统一的目录,可以从多种角度进行划分。

按信息的内容可分为学术研究类信息资源、教育类信息资源、政府信息资源、商

业经济类信息资源、生活娱乐类信息资源、广告类信息资源等。

按所对应的非网络消息资源可分为联机公共目录、电子书刊、参考工具书、数据

库和其他类型信息。

按网络传输协议可分为 Web 信息资源、FTP 信息资源、Telnet 信息资源、用户服

务组信息资源、Gopher 信息资源等。

按信息的表现形式可分为文本信息、超文本信息以及多媒体信息等。

但是,最通用的划分标准是按人类信息交流的方式划分。这一依据完整地揭示了

网络信息资源的特点,同时兼顾了不同信息交流方式汇集到网络的重要性,被认为是

较为全面和合理的一种划分方法。 

网络信息资源按照人类信息交流的方式可以分为非正式出版信息、半正式出版信

息和正式出版信息 3 种。

(1)非正式出版信息。它是指流动性、随意性较强,信息量大、信息质量难以保

证和控制的动态性网络信息。如通过电子邮件、网络论坛和电子会议、电子布告版新

闻等发布的信息,许多最新的、最前沿的信息都包含其中。

(2)半正式出版信息。它又称为“灰色”信息,是指受到一定产权保护但没有纳

入正式出版信息系统中的网络信息,如各种学术团体和教育研究机构、企业和商业、

政府机构和国际组织、行业协会等单位介绍宣传自己或产品的描述性信息。

(3)正式出版信息。它是指受到一定的产权保护、信息质量可靠、利用率较高的

知识性、分析性网络信息。如在网上正式发行的电子杂志、电子出版物、新闻网站发

布的新闻(包括文字、图像、音颇、视频新闻) 、各种数据类型等。按其信息加工的深

度又可以进一步细分为 : ①一次出版信息,包括网上电子图书、网上电子期刊和电子

报纸等 ; ②二次出版信息,包括网络数据库、搜索引擎、联机公共检索目录(OPAC)

以及网络导航等 ; ③三次出版信息,包括网站推荐和网络述评等。

二、网络信息资源检索的特点

网络信息检索一般指因特网检索,即用户通过网络接口软件,可以在一终端查询

各地上网的信息资源。这一类检索系统都是基于互联网的分布式特点开发和应用的,

即数据分布式存储,大量的数据可以分散存储在不同的服务器上 ; 用户分布式检索,

任何地方的终端用户都可以访问存储数据 ; 数据分布式处理,任何数据都可以在网上

的任何地方进行处理。 

用户可通过网上浏览、搜索引擎和网络资源指南等方法进行网络信息检索。网络

信息资源的检索不同于传统的信息检索,它具有以下几个特点。 

(一)信息检索空间的拓宽

网络信息检索的检索空间比传统信息检索的空间大大地拓宽了,它可以检索因特

网上的各类资源而检索者不必先知道某种资源的具体地址。其检索范围覆盖了整个因

特网,为访问和获取广泛分布在世界各地的、成千上万台服务器和主机上的大量信息

提供了可能。这一优势是任何其他信息检索方式所不具备的。

(二)交互式作业方式

所有的网络信息检索工具都具有交互式作业的特点, 能够从用户命令中获取指令,

即时响应用户的要求,执行相应操作,并具有良好的信息反馈功能。用户可以在检索

过程中及时地调整检索策略以获得良好的检索结果,并能就所遇到的问题获得联机帮

助和指导。

(三)用户界面友好且操作方便

网络信息检索对用户屏蔽了各局部网络间的物理差异(包括各主机的硬件平台、

操作系统等软件上的差异、客户程序和服务程序版本上的差异,信息的存储方式以及

各种不同的网络通信协议的差异等) ,使用户在使用这些服务时感到明显的系统透明

度。检索者使用自己所熟悉的检索界面和命令方式输入查询,就可实现对各种异构系

统数据库的访问、检索。网络信息检索所采用的交互式作业、系统透明、通用的界面

和符合大多数用户检索习惯的用户接口等都使检索变得简单、易行。网络用户一般不

需要经过太多的培训就能上机操作。而使用商用联机检索,则要学习和记忆一系列复

杂的检索指令和检索规则,一般用户只能借助专业人员的帮助才能使用。

三、网络信息资源检索工具——搜索引擎

(一)搜索引擎的概念

搜索引擎(Search Engine)是利用网络自动搜索技术,对互联网上的各种信息资源

进行采集、标引,并为用户提供检索服务的工具和系统。换句话说,搜索引擎是通过

Internet 接受用户的查询指令,并向用户提供符合其查询要求的所有信息资源网址,并

提供通向该网址的链接,它是互联网上专门提供查询服务的网站。

从使用者的角度看,这种系统提供一个网页界面,用户通过浏览器提交一个词语

或者短语进行查询,然后很快返回一个可能和用户输入内容相关的信息列表。这个列

表中的每一条目代表一篇网页,每一个网页包含的元素有: 标题、网址(URL) 、关键词、

摘要。有的搜索引擎提供的信息更为丰富, 如时间、 文件类型、 文件大小、 网页快照等。 [1]

(二)搜索引擎的类型

随着搜索引擎技术的发展,产生了多种类型、不同用途的搜索引擎。根据不同的

划分标准,可以把搜索引擎划分为不同的类型。如按照检索机制的不同,可划分为关

键词搜索引擎、目录搜索引擎和混合搜索引擎 ; 按数据收录范围的不同,可分为综合

搜索引擎和专题搜索引擎 ; 按开发运作背景的不同,可分为学术搜索引擎和商业搜索

引擎等。其中,按搜索引擎的工作方式划分的方法比较常见。

按搜索引擎工作方式的不同,搜索引擎可以划分为全文搜索引擎(Full Text Search

Engine) 、目录搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)

三种。

1.全文搜索引擎

全文搜索引擎,又叫关键词搜索引擎,指计算机索引程序通过扫描文章中的每一(www.xing528.com)

个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询

时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方

式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索引擎是目前搜索引擎

中最为普遍的形式,是名副其实的搜索引擎,用户得到了很大的自由度。全文搜索引擎

一般定期从互联网各网站上抓取以网页文字为主的信息,利用这些信息素材建立索引数

据,并检索与用户检索条件匹配的相关记录,然后按一定排列顺序将结果返回给用户。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索

程序(俗称“蜘蛛”程序或“机器人”程序) ,能自动搜寻信息,并自建索引数据库,

检索结果直接从自身数据库调用,如 Google、百度、 Alta Vista 等。其优点是信息量大、

更新速度快 ; 缺点是返回信息过多、冗余信息较多,用户必须从结果中进行筛选 ; 另

一种是租用其他搜索引擎的数据库,并按自定格式排列检索结果,如 Lycos 引擎。 

2.目录搜索引擎

目录搜索引擎,也被称为网络资源指南,是浏览式的搜索引擎。它是由专业人员

以人工或半自动的方式搜集网络信息资源,并将搜集、整理的信息资源按照一定的主

题分类体系编制的一种可供浏览、检索的等级结构式目录。用户可通过逐层浏览该目

录,在目录体系的从属、并列等关系引导下,逐步细化来查找所需的信息资源。目录

搜索引擎往往根据资源采集的范围来设计详细的目录体系,检索结果是网站的名称、

地址和内容简介,因此,目录搜索引擎是一种网站级搜索引擎。现在很多网站都提供

目录检索服务,如搜狐雅虎新浪等。

目录搜索引擎层次结构清晰、易于查找,而且所收录的网络信息资源经过了专业

信息人员的鉴别、选择和组织,从而确保了检索工具的质量和检索的准确性。但目录

搜索引擎的数据库规模相对较小,某些分类主题收录内容不够全面,系统更新慢,查

全率不高。目录搜索引擎一般比较适合于查找综合性、概括性的主题概念或类属明确

的课题,但对于检索专指性搞的课题可能效果不甚理想。

3.元搜索引擎

元搜索引擎,又称多元搜索引擎或集成式搜索引擎(Multiple Search Engine) ,是

多个独立搜索引擎的集合。元搜索引擎是将用户提交的检索请求转到多个独立的搜索

引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户的网络信息

资源检索工具。因此,元搜索引擎被称为“搜索引擎之母” 。例如,Excite 可实现对

Google,Yahoo!,Ask.com,About.com 等多个搜索引擎的检索,检索结果可按相关度

和不同的搜索引擎分别进行查看。元搜索引擎把主要的精力放在提高搜索速度、智能

化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率查准率

都比较高。具有代表性的元搜索引擎有英文的 InfoSpace,Dogpile 以及中文的搜星等。

(三)搜索引擎的工作原理

搜索引擎有 3 个功能模块,或称为 3 个子系统: 即网页搜集、预处理和检索服务。

实践中这 3 个部分是相对独立的,形成了搜索引擎工作的 3 个阶段。它们通常是由人

工分别启动。 

1.网页搜集

网站拥有者主动向搜索引擎提交网址。系统在一定时间内定向向那些网站派出 “蜘

蛛” (Spider)程序,扫描网站的所有网页,并沿着网页中的所有 URL 爬到其他网页,

重复这个动作,并把爬过的所有网页及相关信息存入数据库。

2.预处理

主要包括 4 个方面 : (1)分析网页词汇,提取关键词 ; (2)消除重复网页(或称

镜像网页,即内容相同未加任何修改的网页)或转载网页(near-replicas,又称为近似

复本网页,即主题内容基本相同但有一些额外的编辑信息的网页) ; (3)分析超链接 ;

(4)计算网页的重要程度以确定网页的排名。最后,通过预处理建立索引数据库,用

来储存搜集到的信息,并按一定的规则进行编排。

3.检索服务

搜索引擎接受用户提交的检索请求后,按照查询要求检索索引数据库,找到与用

户需求匹配的查询结果返回客户端,列表显示摘要结果。目前,搜索引擎主要以网页

链接的形式返回检索结果,通过这些链接指向用户所需网页。

(四)搜索引擎的使用技巧

不同的搜索引擎提供的查询方法不完全相同,但有一些通用的查询方法,各个搜

索引擎基本上都具有。 

(1)简单查询。在搜索引擎中输入关键词,然后点击“搜索” ,系统很快会返回查

询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着

许多无用的信息。

(2)使用双引号。给要查询的关键词加上双引号( “” ) ,可以实现精确的查询。这

种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入

“电传” , 它就会返回网页中有 “电传” 这个关键字的网址, 而不会返回诸如 “电话传真”

之类网页。

(3)使用加号。在关键词的前面使用加号(+) ,表示该单词必须出现在搜索结果

中的网页上。例如,在搜索引擎中输入“+ 电脑 + 电话 + 传真”就表示要查找的内容

必须要同时包含“电脑、电话、传真”这三个关键词。

(4)使用减号。在关键词的前面使用减号(-) ,也就意味着在查询结果中不能出

现该关键词。例如,在搜索引擎中输入“电视台 - 中央电视台” ,它就表示最后的查询

结果中一定不包含“中央电视台” 。

(5)使用通配符。通配符包括星号(*)和问号(?) ,前者表示匹配的数量

不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入

“computer*” , 就可以找到“computer, computers, computerised, computerized”等单词;

而输入“comp-ter” ,则只能找到“computer,computers,competer”等单词。

(6)使用布尔检索。所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词

与关键词之间逻辑关系的一种查询方法。这种查询方法允许输入多个关键词,各个关

键词之间的关系可以用逻辑关系词来表示。

逻辑“与” , 用 and 进行连接, 表示它所连接的两个词必须同时出现在查询结果中,

例如,输入“大型计算机 and 超级计算机” ,它要求查询结果中必须同时包含大型计算

机和超级计算机。

逻辑“或” ,用 or 进行连接,它表示所连接的两个关键词中任意一个出现在查询结

果中就可以,例如,输入“大型计算机 or 超级计算机” ,就要求查询结果中可以只有大

型计算机,或只有超级计算机,或同时包含大型计算机和超级计算机。

逻辑“非” ,用 not 进行连接,它表示所连接的两个关键词中应从第一个关键词

概念中排除第二个关键词,例如输入“automobile not car” ,就要求查询的结果中包含

automobile(汽车) ,但同时不能包含 car(小汽车) 。

(7)使用元词。大多数搜索引擎都支持“元词” (metawords)功能,也就是把元

词放在关键词的前面,表示要检索的内容具有哪些明确的特征。例如, “title : 广州中

医药大学” ,表示查询网页标题中含有“广州中医药大学”的网页 ; 在关键词后加上

“domain*org” ,表示查询所有以“org”为后缀的网站。

其他元词还包括 : “image : ”用于检索图片 ; “link : ”用于检索链接到某个选定

网站的页面 ; “url : ”用于检索地址中含有某个关键词的网页。

四、搜索引擎举要

(一)Google

Google 由斯坦福大学的两位博士研究生 Larry Page 和 Sergey Brin 于 1998 年年底

共同创立,并于 1999 年创立 Google Inc。据统计,Google 支持多达 132 种语言,包括

简体中文和繁体中文 ; 它的搜索资料库内包含超过 80 亿的网页 ; 收录世界上最大的新

闻组 Deja.com 的 7 亿份档案,包括 1 天前到 22 年前的 35 000 个主题 ; 具有独到的图

片搜索功能,能搜索包含了 3.3 亿个图形文件 ; Google 检索速度快,不超过 1 秒钟。

Google 采用全文标记方式,采用新一代的先进技术,根据互联网本身的链接结构对

相关网站用自动方法进行分类,依据网络自身结构,清理混沌信息,缜密组织资源。

Google 以其独树一帜的网页级别 PageRank TM 技术,打破了传统网络分类概念,该技术

是基于网页的自然结构,即任何网页均可迅速直接地链接到另一网页,而无须任何媒

介。另外,Google 搜索结果的排序方法除考虑键入关键词的频率、位置、顺序等因素

外,还将网页的被引次数作为重要的排序因素来考虑。Google 还有一些尚处于试验中

的先进技术(如 Google 语音搜索)以及将美国斯坦福、密歇根等多所大学的馆藏扫描

提供更具学术性的网络服务的设想。目前 Yahoo、网易等许多网站都采用了 Google 的

搜索引擎技术。网址 : http : //www.google.com/。 [1]

Google 支持多种检索运算符和运算规则。如进行布尔逻辑运算 : 在输入的多个关

键词之间以空格或“+”分隔,表示逻辑“与” (AND)运算 ; 用大写的“OR”连接多

个检索词表示逻辑“或”运算 ; “-”表示逻辑“非” 。用特定词加“ : ”的方式可以实

现 Google 中的限定检索。Google 对英文字母的大小写不敏感,大小写的搜索结果是

一样的。Google 还会对输入的关键字自动进行拼写检查,如果拼写错误将会给出正确

拼写方法的提示。此外,Google 检索时还会忽略掉出现频率较高的一些英文单词,如

“com” “www” , 以及一些标点符号如 “.” 等。如果想对忽略掉的关键字进行强制检索,

则需要在该关键字前加上“+” 。

Google 在其主页的左上角设有网页、图片、视频、地图、资讯、音乐等选项,便

于用户按照需要进行检索, 这几个选项也代表了Google最常用的网页检索、 图片检索、

视频检索、 地图检索、 资讯(新闻)检索、 音乐检索等几大检索服务, 默认为网页检索。

其中除地图、音乐检索外均设有简单与高级两种检索途径。

(二)百度

百度由李彦宏和徐勇在 2000 年 1 月创建于北京中关村,并掀开了中文搜索引擎

的新篇章。百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、

台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度拥有目前世界上最

大的中文搜索引擎,全面覆盖了中文网络世界所有的搜索需求,在中国的搜索份额接近

80%。百度搜索引擎推出的 IE 搜索伴侣将名为“百度搜吧”的工具条下载、安装,集成

到当前 IE 中,使 IE 地址栏增加百度搜索引擎功能。用户无须登录 Baidu 网站,就能在

IE 地址栏里实现网站直达和信息搜索两种功能。 [2] 百度网址为: http: //www.baidu.com/。

百度搜索引擎采用了基于内容和超链分析相结合的智能相关度算法进行相关度评

价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。用户可

在上次检索结果中继续检索,逐步缩小查找范围。百度还使用相关检索词智能推荐技

术,在第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果。百度还提

供快照功能,即每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,当

遇到网站服务器暂时故障或网络传输堵塞时, 可以通过 “快照” 快速浏览页面文本内容。

百度快照只临时缓存网页的文本内容,所以那些图片、音乐等非文本信息仍是存储于

原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动

修改、删除或者屏蔽相应的网页快照。百度支持多种高级检索语法,使用户查询效率

更高、结果更准。目前支持“+” (AND) , “-” (NOT) , “|” (OR) , “site: ” , “link: ”等方法。

(三)Yahoo! 

Yahoo! 并不是单纯地提供所有网站网页的全文检索服务,而是将其收集到的网站

及网页分门别类加以索引和文摘(由人工完成) ,以一个分层的线性目录来为用户提供

按图索骥式的服务,比较适合于一般的查询。Yahoo! 不仅能在所有的分类类目中进行

查询,也能根据需要在一个类目中进行查询,这样就保证了较高的查准率。

Yahoo! 由人工索引的分类数据库也保证了库内数据质量较高、冗余信息较少的优

点。如果用户的检索词在 Yahoo! 中查询不到结果,Yahoo! 还会自动地将查询转交给

AltaVista,由后者来为用户作进一步的检索。对于一个初涉因特网的用户来讲,Yahoo!

精致的分类目录也起到了极好的浏览导游作用。但是,由于 Yahoo! 的分类库是由人工

维护的,也不提供全文关键词检索服务,因此对于较为专业偏僻的查询很难提供满意

的结果。

“一搜”是雅虎公司基于全球领先的 YST(Yahoo Search Technology)技术,在中

国推出的独立搜索门户, 于2004年6月21日正式发布。 “一搜” 可以搜索全球50亿网页、

5.5 亿图片、1 000 万首音乐,网页搜索支持 36 种语言。

“一搜”先进的搜索分析与排序技术(而非人工干预)保证了结果的客观与精准。

搜索技术相关性分析是利用文本、来源、相关链接及其他特定文件的特征进行分析,

以决定文件与查询的相关性。YST 不仅对网页内容分析,而且分析链接结构及查询意

图(linkflux 技术) ,这种新的搜索方式更加适合越来越复杂、变化多样的网络。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈