网络环境下的信息检索语言已发生了很大变化,并不是传统情报检索语言即人工语言的电子版、网络版,而是将传统情报检索语言充分与自然语言与计算机技术充分结合,做了许多调整,克服它们的一些弊端,从而使之成为适应网络环境的新型信息检索语言。网络环境下的信息检索语言是人工语言与自然语言的结合,实现了自然语言与人工语言的一体化。
1.自然语言成为网络信息检索语言的主流
自然语言是情报检索语言领域最重要的发展趋势之一。因为自然语言不依附于特定数据库,几乎可适川于联机网络中的所有数据库。自然语言的应川是以计算机检索为前提的,信息高速公路和校园网的迅速发展、计算机的普及,大大扩大了利用情报检索系统的读者范围,这些因素有力地促进了自然检索语言的发展。前美国俄亥俄州大学图书馆馆长李华伟博士曾预言:“未来的信息检索语言的发展方向是以自然语言为主。”
自然语言是反映网站、网络信息题名、地址、摘要和网页正文内容特征的原词。其优点显而易见,如可以取消标引工作或降低标引工作的难度和成本,大大缩短时间,标引的专指度和一致性较好,较易被读者接受等。自然语言检索方法就是对网络信息本身的用词进行直接处理的过程。
自然语言成为网络信息检索语言主流的原因如下。
在全文检索技术的支撑下,自然语言作为全面反映网络信息特征的原词,比人工语言更能有效地对网络信息进行揭示和标引。当前,网上信息资源的数量和增长速度是惊人的,这些资源对用户来说,是很有利用价值的。但它们大多未用情报检索语言作为标引,自然语言是其主要的检索语言。科学技术的迅猛发展,尤其是电子计算机技术、网络通信技术等的进一步发展,客观上为自然语言作为检索语言创造了极为有利的条件,并且自动标引技术研究和应用的深入和完善,也为自然语言作为检索语言提供了技术支撑。
此外,大量社会终端用户的介入,使具有受控语言背景知识的专业用户比例急剧减少。面对丰富的网络信息资源,终端用户的检索行为发生了很大改变,以查全、查准为标准的检索观念正在淡化,源于传统检索系统的“提问检索式”行为逐渐被“浏览检索式”行为所代替。浏览检索式成了用户首选的检索方式之一,用户熟悉的自然语言也就成了他们访问网络信息资源系统的入口。
2.传统情报检索语言大量应用于网络信息环境
1)传统情报检索语言在网络环境下的直接应用
传统情报检索语言是根据情报检索的需要而创制的人工语言,包括分类语言、主题语言、代码语言。它们作为多年的文献信息的组织和揭示工具,有着许多优点,在传统的信息环境中发挥着主导作用。目前一些网络信息检索工具,如网络资源指南、搜索引擎都提供了分类浏览功能,它们在使用分类法时有两种方式:一是自行设计分类法,二是套用成熟的权威图书资料分类法。国际上著名的几部分类法,如《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆图书分类法》(LCC)等已成功应川于网络信息资源分类目录。现在已有10多个搜索引擎的分类目录以DDC为分类体系。同时出现了借助词表功能来提高检索效率的检索工具,如SOSIG采用了《人文科学与社会科学电子词表》(HASSET),以及美国一体化医学语言系统(UMLS)和我国的《军用主题词表》在专业信息检索工具中的应用。由此可见,人工语言已涉足网络信息检索,用于提高检索效率。(www.xing528.com)
2)传统情报检索语言在网络环境下的间接应用
传统情报检索语言在网络环境下的间接应用是指网络检索工具只利用传统情报检索语言的原理、技术或方法,而不是直接套用传统情报检索语言来类分、组织、检索网络信息。
①分类法和主题法原理的应用。分类法按学科范畴聚类和主题法按事物概念聚类的原理已为绝大多数的网络信息检索工具所利用。搜索引擎是目前最主要的网络信息查找工具,它对所收录的信息或网站的内容进行逻辑划分和系统排列,进而形成等级分类体系。等级分类体系按划分的标准又可分为主题分类体系和学科分类体系,绝大多数中文搜索引擎采川主题分类体系。主题分类体系按主题划分类目,一个主题充当一个类目,把与此主题相关的内容全部集中在一起。学科分类体系以学科列类,从学科分类途径获取网站信息资源,如中文搜索引擎“百度”的一级类目设有41个学科。
②分类主题一体化思想的应用。分类法是一种按照事先规定好的学科或体系范畴,依照一定的属性将信息分门别类地组织起来以便查检的方法。主题法是一种以词语作为检索标识,采用语言揭示和描述主题内容,按照字顺组织与揭示信息的情报检索语言。主题法的产生是为了弥补分类法的不足,满足人们对特定事物、特定主题的检索需要而产生的检索工具。分类法的按学科聚类与主题法的按事物聚类在网络信息资源的组织与揭示中能很好地结合在一起,如美国的Pacific Bell公司建立的“蓝网主题范畴”(blue web's content categories),以主题范畴为中心建立等级体系,主题范畴后附有相应的DDC号码,保持了与分类表的联系。而美国计算机研究文献中心建立的“计算机研究资源”同时采用计算机学会的计算机分类表和一个概略的字顺主题系统组织网络资源,两者均可以作为网页的浏览依据。Yahoo、Google等搜索引擎也较好地将分类与主题检索系统综合在一起,采用了较为宽泛的主题领域建立分类索引,以增加网络分类体系的容纳性;同时具有一定的专指性,在一定程度上结合了传统的分类法和主题法的优点,以便不同的用户选择查询途径,检索所需信息。
③分面组配式分类法实现了体系分类法和组配分类法的结合。它的特点是在等级分类体系的基础上大量采用分面组配方法,以达到细分复杂主题的目的,以满足信息查询或检索的多重需要,它是等级分类体系和组配分类体系相互结合、相互融合的一种分类体系,因此兼有二者的优点。现在一些著名的中文搜索引擎如新浪、搜狐、网易、中国雅虎等均采用了这种分类体系。这种分类法先采用广泛的主题领域建立等级主题分类体系,再对某些类目采用不同划分标准进行分面归类,多方面地反映主题内容,从而避免等级分类体系的线性单向式结构。这样,能够为某一信息资源在其巨大的等级分类体系中提供不同的路径分支入口,不同的用户可以从不同的路径检索到相同的内容。著名的分类专家Aimee Glassel认为:“印度著名分类专家和图书馆专家阮岗纳赞的冒号分类法理论体系与Yahoo网络信息资源的主体目录之间存在着密切的联系。”从而揭示了Yahoo应用分面分析方法进行网络信息资源的分类。
3)自然语言需要人工语言的支持
自然语言检索已在网络信息检索中占据了主导地位,但可以说没有一种网络信息检索工具仅使用关键词即自然语言检索方法。自然语言检索有着不可克服的缺点:自然语言表达主题概念过分自由,虽然,检索命中率很高,但因为冗余信息太多,准确率并不高;自然语言的同义词、反义词、近义词得不到控制,词语之间的相互关系得不到揭示,这在一定程度上会造成漏检;自然语言检索依赖计算机技术,目前智能化检索的精确度并未达到较高的水平,计算机对自然语言的理解力影响检索效率;另外还存在自然语言能否最准确、充分地表达信息中有价值内容的词,以及这些词与检索课题能否有效匹配的问题。由此可见,不使用任何控制手段的自然语言检索是无法实现高效率检索的。信息检索的原理——对词汇的控制是不会取消的,变化的只是词汇的控制方法、手段。人们为提高自然语言检索效率,提出和采用了许多措施,如编制后控制词表或入口词表等对自然语言进行后控制或前控制。这些表的编制不得不吸取人工语言的某些控制手段和指导思想,以期在保持自然语言的基本特征及固有优点下,最大限度地提高自然语言的标引、检索效率。
在网络环境下,情报检索语言要面向网络信息资源,面向网络技术环境,面向网络用户,便于用户操作,有利于各种级别的用户进行交互,既能为检索专家利用,又便于普通用户使川。只有情报检索语言开放共享,被广大川户所接受,才能充分发挥其固有的功能,真正提高检索效率。因此,人工语言和自然语言都发挥着不可替代的作用。自然语言应引进人工语言的原理、方法,人工语言应吸取自然语言的优点,寻找改进方法,两者结合并向一体化方向发展才是网络信息检索语言的发展趋势。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。