1.信息检索的基本原理
广义的信息检索包括两个最基本的过程,即文献信息的存储和检索过程。
存储过程,主要包括对信息源进行分析和标引,将文献信息的外表特征和内容特征按一定的规则有序地存储在一定的物质载体上,供检索者使用。
检索过程则是检索者根据文献信息需求,确定提问词(即主题词、关键词、自由词、分类号、著者姓名等)或提问式,并将提问词转换成检索特征标识,在检索系统中查找文献线索,最后对其进行筛选,以确定需要阅读的文献信息。检索者在检索时,务必使自己的检索特征标识与检索系统中的文献特征标识达到一致或基本一致,方能检出所需要的文献。具体如图2-1所示。
图2-1 信息检索原理
从图2-1可以得出信息检索的原理:
检索者的检索特征标识=检索系统中的信息特征标识
学习信息检索,实际上就是了解和掌握信息检索语言及检索系统存储(标引)信息的规则,按规索“骥”,查找所需要的信息。
2.计算机检索的原理
(1)计算机信息检索的发展
自从世界上第一台计算机问世以来,随着计算机技术、通信技术以及存储介质的发展,计算机信息检索经历了脱机批处理、联机检索、光盘检索与网络化检索四个阶段。
1)脱机批处理检索阶段
在利用计算机进行信息检索的早期,人们只是用单台计算机的输入和输出装置进行检索,用磁带作为存储介质,一般采用连续的顺序检索方式。检索部门把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。这种方法更适合大批量的定题信息检索,所以也叫脱机批处理检索或定题情报服务。
2)联机检索阶段
20世纪60年代末,由于计算机软件和硬件技术不断提高,因而出现了一台主机带多个终端的联机信息检索系统。这种系统具有分时的操作能力,能够使许多相互独立的终端同时进行检索。这种系统采用实时操作技术,所以用户可以使用终端设备直接与计算机进行“人-机对话”,计算机对用户的提问能及时处理并显示结果。20世纪80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信网络和计算机专用终端,在世界范围内提供联机信息检索服务,形成国际联机检索服务业。联机检索服务是计算机检索走向实用化、规模化、产业化的重要标志。
3)光盘检索阶段(www.xing528.com)
光盘是一种用激光记录和读取信息的盘片,具有信息存取密度高、容量大、读取速度快、信息类型多、保存时间长、成本低等优点。它是20世纪80年代在计算机技术、激光技术和精密伺服电机技术等现代科学技术成果的基础上发展起来的新型电子出版物。一张CDROM光盘的存储容量为650MB,是磁盘容量的500倍。1978年,荷兰飞利浦公司正式推出视频光盘;两年后,飞利浦和索尼公司宣布高密度只读光盘研制成功。1984年,美、日、欧洲开始利用只读光盘存储专利文献、技术资料和工程图纸;1985年,世界上第一个商品化的CD-ROM数据库——Bibiofile(美国国会图书馆机读目录)推出。据统计,至1988年6月,国外光盘数据库产品达200余种;1989年为496种;1990年有861种;而到了1991年已达到1 552种。同时,光盘数据库的类型也不断丰富,除了最初的书目数据库外,又增加了文摘数据库、数值事实参考数据库、全文数据库等,并且还出现了图像型、音频型、软件型和多媒体型等多种形式的CD-ROM产品。我国引进光盘数据库的起步时间并不算晚。早在1986年4月,国家海洋科技情报研究所就首先在我国引进了CD-ROM光盘数据库ASFA(水科学与渔业文摘)和LSC(生命科学文摘)。到1987年年底,国内共拥有11套8个品种的CD-ROM光盘数据库。1990年,全国拥有光盘系统的单位达到54个,共有93套30个品种的光盘数据库。到1991年,我国有126个单位引进了53种199套光盘数据库。不仅如此,我国也研制成功了中文CD-ROM数据库,例如,中国科学技术情报研究所重庆分所研制的《中文科技期刊篇名光盘数据库》以及中科院上海有机化学研究所的《中国化学文献数据库》等。
4)网络化检索阶段
进入20世纪90年代,互联网(Iinternet)的应用从单纯的科学计算与数据传输向社会应用的各个方面扩展,图书馆、信息服务机构和科研机构以及一些大的数据库生产商纷纷加入互联网上,为信息需求者提供各种各样的信息服务,构成极其丰富的网络信息资源。其数据库内容包括生物、农业、化学、数学、天文学、气象、地理、计算机、工程技术、航空航天、交通运输、环境保护、医疗和保健、历史、法律、政治、旅游等,涉及几乎所有知识领域。互联网为我们获取文献信息提供了前所未有的方便,彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的文献信息,而且信息形式图文并茂、有声有景。互联网的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索拓展到一个更广阔的领域。
(2)计算机检索的实现过程
计算机信息检索是指利用计算机存储和检索信息。具体地说,计算机信息检索就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。为实现计算机信息检索,必须事先将大量的原始信息加工、处理,以数据库的形式存储在计算机中,所以计算机信息检索从广义上讲包括信息的存储和检索两个方面。
计算机信息存储过程是:用手工或者自动方式将大量的原始信息进行加工,具体做法是将收集到的原始文献进行主题概念分析,根据一定的检索语言抽取出主题词、分类号以及文献的其他特征;然后进行标识或者写出文献的内容摘要;然后再把这些经过“前处理”的数据按一定格式输入计算机并存储起来,计算机在程序指令的控制下对数据进行处理,形成机读数据库,存储在存储介质(如磁带、磁盘或光盘)上,完成信息的加工、存储过程。
计算机信息检索过程是:用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入计算机进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序的控制下进行高速逻辑运算,选出符合要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中信息的特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。
(3)计算机信息检索的实现条件
利用计算机进行信息检索必须具备以下条件:计算机、通信网络、检索终端设备和数据库。
1)计算机
计算机是检索系统的核心部分,它包括硬件和软件。通过一定的检索软件,它们能够进行信息的存储、处理、检索以及整个系统的运行和管理。相对而言,硬件部分决定了系统的检索速度和存储容量;而软件部分则是充分发挥硬件的功能,确定检索方法。
2)通信网络
通信网络是联系计算机系统和检索终端设备的桥梁,起远距离、高速度、无差错传递信息的作用。整个通信网络分成资源子网和通信子网两部分:资源子网包含网络中所有的计算机、输入及输出设备、各种软件资源和数据资源,负责全网的数据处理业务,向网络用户提供各种网络资源和网络服务;通信子网是由用作信息交换的节点计算机和通信线路组成的独立数据通信系统,承担全网数据传输、转接、加工和交换等通信处理工作。检索网络所用的通信线路,一般是公用电话线或专用线,国际联机检索系统则是由通信卫星和海底电缆构成的通信网络。
3)检索终端设备
检索终端设备是用户与检索系统相互传递信息进行“人-机对话”的装置,有电传终端、数传终端和个人计算机(PC)机终端等。现在基本上都是PC机终端,通常由计算机、调制解调器和打印机组成。调制解调器主要是把传输的信息在传输前加载到一个载波信号上(称之为调制),接受时通过检测收到的信息偏离精确载波信号的程度,分离出原先发送的信息(称之为解调),从而起数据转换的作用,有内置式和外置式两种。
4)数据库
数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,是检索系统的信息源,也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息,以满足检索者的需求。检索系统中的数据库一般由各个数据库生产者提供,也有一些是系统本身建的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。