5.1.1 信息检索与信息检索系统
“信息检索”一词来源于英语“Information Retrieval”,最早见于1950年国际数学家会议上美国数学家卡尔文·莫尔斯(Calvin Mooers)发表的论文中,从1960年左右开始被美国图书情报界作为专业术语广泛使用。信息检索技术是为了解决信息资源的海量无序激增与用户对特定信息的有效利用之间的矛盾而出现的。
信息检索的概念有广义和狭义之分。从广义上讲,信息检索应该包括存储和检索两个过程。存储是指将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过选择、分类、浓缩、标引等加工处理,使其系统化、有序化,并按一定要求建成具有检索功能的工具或检索系统,供人们检索和利用。而检索是指借助编制好的检索工具或检索系统,查找出满足用户要求的特定信息。从狭义上讲,信息检索只涉及后一阶段,即指依据一定的方法和策略,从已经组织好的大量信息集合中,迅速准确地查找获取所需信息的过程。这种狭义的概念是人们通常所理解的信息检索,也是本章讨论的重点。
5.1.1.1 信息检索的类型
由于用户的信息需求不同,因而产生了不同类型的信息检索。通常,人们按照以下几种标准来划分信息检索的类型。
(1)按照处理信息的手段,信息检索可以分为手工检索和计算机检索两大类型
●手工检索,简称手检,是传统的检索方式,主要应用传统的检索工具和手工检索方法进行。在检索过程中,靠人的眼看手动及大脑判断从手工检索源中查寻所需信息。手工检索源包括各种印刷型或缩微型的检索书刊及参考工具书等。
●计算机检索,简称机检,是指利用计算机及各种辅助设备从计算机检索源中查找所需信息。随着计算机技术、通信技术和高密度存储技术的迅猛发展,机检已成为目前最快速、最省力、最经济的信息检索方法,是人们获取信息资源的重要手段。机检萌芽于20世纪50年代中期,历经50年的发展,日益显示其强大的生命力,其检索方式也愈加丰富多样,主要有联机检索、光盘检索和网络检索几种。
(2)按照检索对象的不同,信息检索可分为文献检索、数值检索和事实检索三种类型
●文献检索:以文献或文献线索为查找对象。凡是查找某一主题、时代、地区、著者、文种的有关文献,以及查询这些文献的出处和收藏处所等,都属于文献检索的范畴。完成文献检索主要借助于索引文摘型数据库和全文数据库,也可查询各类检索工具书,如书目、题录、索引、文摘等。
●数据检索:以特定的数值或数据(包括各种数据、公式、图表,以及化学分子式等)为检索对象。例如查喜马拉雅山有多高,杭州六和塔建于何年,某一新型载货汽车的载重量多少,百公里油耗是多少等。数据检索主要借助于数值数据库或统计类数据库来完成。
●事实检索:以特定事实为检索对象。如查找有关名词术语的解释、某个人或某机构的简况、考证某一事件发生的前因后果等。事实检索主要借助于各种参考型数据库,也可查询辞典、百科全书、年鉴和名录等参考工具书。
目前,信息检索技术正向两个方向发展,一是探索自动抽词、自动索引、自动检索、自动文摘、自动分类、Web检索智能代理、数据挖掘、自动翻译等技术,在深度上提高管理和组织信息的能力;二是信息资源的网络化存储和分布式存储趋势,在广度上提高管理和组织信息的能力。
5.1.1.2 信息检索原理及系统
(1)信息检索原理
从广义上理解,信息检索包括存储和检索两个方面。信息的存储过程包括:①文献采集,即根据一定的原则收集文献。②文献标引、著录,即对文献的内容特征和形式特征进行揭示和描述。其中,对文献内容特征的揭示,是按照系统所采用的信息检索语言(分类表、主题词表等)对文献主题进行标引,为文献的内容特征加上标志。另外,根据需要,对文献形式特征中有检索意义的项目,如著者、文献题名等也做出标引,用做标志。③编制检索工具或建立检索系统。即按照标引用语(分类号或主题词、著者姓名和文献题名等)的顺序,将著录的大量文献款目有机地组织成一个排检系统,形成有序的、系统化的检索工具或数据库检索系统。检索的过程是存储的逆过程,即用户根据信息需求,选取合适的检索用语(文献题名或著者姓名、主题词或分类号等),利用检索工具或检索系统查找出相关信息。查找的过程实际上是一个匹配的过程,即确定检索用语并将检索用语与标引用语作相符性比较,检索用语与标引用语一致,就算找到了符合要求的文献信息。
早期的信息检索,人们主要根据文献的内容特征和形式特征,借助于印刷型的检索工具实现。从20世纪60年代开始,以计算机为核心的信息技术开辟了信息组织与信息检索的新时期。此后,网络技术、超媒体技术及智能技术等新技术的涌现,为信息检索技术的发展提供了更多的契机。在当今信息技术条件下,从本质上讲,信息检索是指人们利用一切信息检索系统迅速、准确地查获所需要的有用信息,而不管它以何种形式出现,或借助于什么样的载体。
(2)信息检索系统
为了实现信息的合理存储和检索,必须建立信息检索系统。信息检索系统是一定的目标、信息资源、技术装备及检索方法与策略的集合体,它面向特定的用户,具有信息采集、组织、存储、选择和传播等功能。
从广义上讲,信息检索系统是包含了从信息采集到信息检索全过程的服务体系。作为这样一个体系,第一,应该具备明确的目标,包括编制目的、适用对象、专业范围、收录年限及用途等;第二,必须采集、加工、组织、存储一定数量的信息资源;第三,必须拥有实现存储与检索的技术装备与技术手段,即存储记录文献信息的载体和用以进行文献标志同检索提问相匹配以及输出信息的软硬件设备;第四,还要提供一定的存储与检索方法,具备较完善的检索功能。
从狭义上讲,信息检索系统就是指用户查找信息所使用的检索工具或检索系统。检索工具一般指适用于手工检索的书本式检索类出版物,如检索刊物;检索系统则是指多个子系统构成的一整套检索设施,借助于计算机及相关设备来实现有效的信息检索,是当今人们查找信息资源的首选。
(3)信息检索系统的构成
●从物理构成的角度来看,信息检索系统主要由检索文档、检索设备、系统规则以及作用于系统的人组成。
检索文档:就是经过序列化处理并附有检索标志的信息集合。手工检索系统使用的检索文档是由卡片式目录、文摘、索引所构成的系统;计算机检索系统使用的是存储在磁性或光性介质上的目录、文摘、索引或全文以及多媒体信息所构成的数据库。
检索设备:是用以存储信息和检索标志,并实现信息检索标志与用户需求特征的比较、匹配和传递的技术手段,即检索所需要的硬、软件环境。在手工检索系统中指印刷型检索工具,在计算机检索系统中包括各种类型的主机、终端、计算机外围设备和网络通信传输设备以及相应的软件系统。
系统规则:是用以规范信息采集分析、标引著录、组织管理、检索与传输等过程的各项标准体系,例如检索语言、著录规则、检索系统构成与管理、信息传输与控制标准、输出标准等规则。
作用于系统的人:包括信息用户,信息采集分析、信息标引员,系统管理与维护员,检索服务人员等。
●从运作角度来看,信息检索系统由信息资源、设备、方法与策略、系统工作人员以及信息用户五个方面组成。
信息资源:即检索系统存储与检索的各类信息。信息资源种类繁多,既包括原始的一次文献信息,也包括经过加工、处理的二次文献信息;既可以是文字信息,也可以是数值数据、图形图像以及音频、视频等多媒体信息。
设备:即实现信息存储、检索活动的一切设备,如手工检索的卡片、纸本检索工具以及以计算机为核心的软硬件设备。
方法与策略:包括信息的组织管理方法、检索语言以及信息的检索技术与策略等。
系统工作人员:包括支持与维护检索系统正常运转的技术人员,以及为用户提供检索服务的工作人员。
信息用户:指有特定信息需求的用户,是检索系统服务的对象。(www.xing528.com)
(4)信息检索系统的类型
●按照信息存储载体与检索使用的设备可分为书本式检索系统、卡片式检索系统、缩微式检索系统以及计算机检索系统。
书本式检索系统是以印刷型检索工具为基础,通过信息用户手工翻阅书本式检索工具来查找信息的检索系统,其类型主要有各种书本式的目录、题录、文摘、索引及各种参考工具书。这种检索系统的优点是方便、灵活,检索者可以边查阅边思考,并可随时根据查询情况调整检索策略;缺点是由于全凭人的手工操作,检索入口少、检索速度慢且效率低,另外检索工具体积大、更新慢,不便实现多元概念的检索。
卡片式检索系统是利用探针及辅助设备,对代表检索标志(分类号、主题词)的穿孔卡片进行分拣选取的系统。它是信息检索机械化的早期产物,在一定程度上提高了检索效率,但局限性大,适用范围窄。
缩微式检索系统是以缩微平片或缩微胶片作存储载体,利用相应的光学或电子技术设备处理信息的系统。这种系统的使用必须借助于缩微阅读设备。
计算机检索系统是利用计算机信息存储和检索技术实现信息查找的系统。存储介质包括磁带、磁盘以及光盘等载体。计算机检索系统又可以分为脱机检索系统、联机检索系统、光盘检索系统和网络信息检索系统,这四种检索系统实际上代表着计算机检索系统发展史上的不同阶段。
a.脱机检索系统
在利用计算机进行信息检索的早期,人们只是用单台计算机的输入输出装置进行检索,用磁带做存储介质,一般为连续的顺序检索方式。检索机构把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。这种检索手段更适合大批量的定题信息检索,所以也叫脱机批处理检索。1954年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界上第一个计算机检索系统,此系统即为一脱机检索系统。20世纪50年代末,IBM公司利用一台IBM650计算机成功地编制出关键词索引,并建立了世界上第一个“定题情报检索”(Selective Dissemination of information,SDI)系统,为用户定期检索和提供一定主题的新到文献(脱机检索,批量处理),并很快得到了推广应用。
b.联机检索系统
20世纪60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带多个终端的联机信息检索系统。即主机系统、通信系统和终端设备构成一个联机检索系统。
主机系统是联机检索系统的核心,它具备处理速度快、多道程序和分时功能,内存容量大,以及多样化的输入输出特点。
通信系统是指终端设备与主机系统进行通信的设备。通信线路分为两种:专用的直达线路和通过拨号选择对方的交换线路。前者是特定通信线路,后者使用电话网和用户电报网。
终端系统是人与系统的接口设备。它能将字符、声音以及人类的信息表现形式转换成系统的机器代码。反之,将系统的处理结果还原成字符、声音等形式,传送给终端用户。
联机信息检索系统具有分时的操作能力,能够使许多相互独立的终端同时进行检索。这种系统采用实时操作技术,所以用户可以使用终端设备直接与计算机进行“人—机对话”,计算机对用户的提问能及时处理并显示出结果。20世纪80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信网络和计算机专用终端,在世界范围内提供联机信息检索服务,形成国际联机检索服务业。联机检索服务是计算机检索走向实用化、规模化、产业化的重要标志。世界上比较著名的联机检索系统有欧洲共同体9国所属的欧洲科技信息联机检索网络EURONET、欧洲空间组织的ESA/IRS系统、美国洛克希德公司的DIALOG系统、美国系统开发公司的ORBIT系统、美国医学图书馆的MedLine系统、日本科技信息中心的JICST系统等。
联机检索系统是由联机服务的中心计算机、检索终端、通信网络、联机数据库、检索软件等组成,其特点是检索范围广泛,检索速度快,检索功能强,及时性好,并可以联机订购原文,它拥有的数据库数量大且更新及时,但检索技术复杂,设备要求高、检索的费用昂贵。
c.光盘检索系统
光盘是一种用激光记录和读取信息的盘片,具有信息存取密度高、容量大、读取速度快、信息类型多、保存时间长、成本低等优点。它是20世纪80年代在计算机技术、激光技术和精密伺服电机技术等现代科学技术成果的基础上发展起来的新型电子出版物。一张CD-ROM光盘的存储容量为650MB,是磁盘容量的500倍。1978年,荷兰飞利浦公司正式推出视频光盘,两年后,飞利浦和索尼公司宣布高密度只读光盘研制成功。1984年,美、日、欧洲开始利用只读光盘存储专利文献、技术资料和工程图纸,1985年,世界第一个商品化的CD-ROM数据库——Bibiofile(美国国会图书馆机读目录)推出。此后,光盘数据库的数量逐年递增,类型也不断丰富,除了最初的书目数据库外,又增加了文摘数据库、数值事实参考数据库、全文数据库等,并且还出现了图像型、音频型、多媒体型等多种形式的CD-ROM产品。
光盘检索系统分为单机版和网络版。单机版光盘检索系统由计算机、光盘数据库、检索软件等组成,因使用范围受到较大的限制,目前已经逐步发展为网络版。网络版光盘检索系统由光盘服务器、计算机局域网、光盘库/磁盘阵列、检索软件等组成。其特点是设备简单,费用低,检索技术易掌握,但检索范围受光盘数据库的限制,更新不够及时。
d.网络检索系统
20世纪90年代起,因特网(Internet)的应用从单纯的科学计算与数据传输向社会应用的各个方面扩展,图书馆、信息服务机构和科研机构以及一些大的数据库生产商纷纷加入到因特网上,为信息需求者提供各种各样的信息服务,构成极其丰富的网络信息资源。其数据库内容包括生物、农业、化学、数学、天文学、气象、地理、计算机、工程技术、航空航天、交通运输、环境保护、医疗和保健、历史、法律、政治、旅游等,涉及几乎所有知识领域。因特网为人类获取文献信息提供了前所未有的方便,彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的文献信息,而且信息形式图文并茂,有声有景。因特网的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索拓展到一个更广阔的领域。
网络信息检索是通过标准通信方式将世界各地的计算机网络连接起来,形成一个基于客户机—服务器模式的网络分布数据库结构。它在全球范围内把科技信息、商贸信息、经济信息、时事新闻以及日常生活信息通过互联网连接起来,向亿万联网用户提供广泛的信息检索与服务。它是信息化社会应用最广泛、最活跃的领域。网络信息检索服务具有开放性、超文本的多链接性、简单易操作等特点。系统中包含信息资源、信息设备、信息通道、信息检索软件及信息终端等子系统,各个子系统都是开放的,面向所有用户;以超文本技术为基础的链结构将不同地方的相关信息有机联系起来,使用户可通过点击文本或图表中的超文本链接点访问另一个相关的文档;采用客户机—服务器结构,通过交互式的图形界面,方便用户提出信息查询要求,系统会根据这一要求自动向适当的服务器提出查询请求。正是以上这些特点,使Internet能广泛深入学校、家庭、办公室乃至每一个人。
网络检索系统是由计算机服务器、用户终端、通信网络、网络数据库等组成,其特点是检索方法较简单,检索较灵活、方便,及时性好,检索费用和速度均低于联机检索系统。目前网络检索包括网上免费检索系统,如搜索引擎,以及各种商业数据库。因特网的迅速发展和广泛应用,使得网络信息检索逐步向着智能化、可视化、简单化、多样化、个性化、商业化方向发展。
智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。目前已有一些搜索引擎支持智能检索,但其智能化程度不高。近年来Internet上不断涌现新的人工智能产品,如智能搜索引擎、智能浏览器、智能代理、知识共享智能体等,都将提高网络信息检索的智能化程度。
相对于纯文字表达方式的一维性,可视化的优点在于图像的表达方式生动、形象、准确,能从多角度揭示,效果更好。信息检索中的可视化是将数据库中不可见的语义关系用图像形式可视化显示并表达用户检索过程,在可视化空间展示的信息可以是二维的或三维的。
简单化是指未来个人用电脑将朝着智能化、网络化、人性化和绿色环保的方向发展;操作系统的用户友好性将不断增加,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任意应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”,使用户学习和进行网络信息检索更加容易;网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推送等技术逐步发展、完善,会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。
多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画等。多样化的第二个表现是检索工具向多国化、多语种化方向发展。AltaVista不仅提供了包括中文在内的25种语言检索系统,还提供5种拉丁语系的语言与英语互译的功能。Google,Yahoo!,HotBot,Lycos,Excite和WebCrawler都在世界各地设立了分支机构,使检索服务本地化,并增加服务器,分流用户,提高上网查询速度。多样化的第三个表现是网上检索工具服务的多元化,为用户提供全方位的服务,而不是单纯的检索工具。
个性化指各网站贯彻以用户为中心的理念,注重内容的特色化和服务的个性化。
商业化是指网络检索系统不再仅仅是一种检索工具,而是成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力。Infoseek是第一个对网络信息检索收费的检索工具,但由于它在收费的同时未能为用户提供特殊的高质量信息服务,不久便自生自灭了。网络信息检索的商业化还体现在联机和光盘检索系统也逐渐进入网络环境,并发展成为网络检索系统。
●按照检索的目的和对象不同,可分为书目检索系统、全文检索系统、数据/事实检索系统。
书目检索系统的作业对象是各种检索工具/书目数据库,检索结果是相关文献的线索。
数据/事实检索系统的作业对象是各种参考工具/源数据库,检索结果是有关的数据和事实。
全文检索系统的作业对象是图书、期刊等一次文献或其他各种全文数据库,检索结果是相关文献的原文,它能够在书目信息检索基础上完成更深层次的内容检索。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。