首页 理论教育 主要方法:数字信息资源的组织

主要方法:数字信息资源的组织

时间:2023-07-23 理论教育 版权反馈
【摘要】:XML在网络资源的组织上,已成为元数据规范的语言基础,广泛应用于人工智能、知识表示和信息检索等领域,并且成为公认的国际标准格式,也是信息保存和信息交换的理想格式。无论是网络资源的管理者还是使用者都可通过元数据发现、组织和检索利用资源,是能够促进互联网信息资源的组织和发现的数据。

主要方法:数字信息资源的组织

我们沿用过去传统的信息资源组织方法,如分类法、主题法和书目控制等,对网络信息资源进行组织,虽然行之有效,但是它们毕竟不是随着网络与生俱来的工具,只不过是我们把它从纸本文献改造移植过来的。不能完全适应网络信息资源。针对互联网的信息组织工具如元数据、XML可扩展标识语言、概念体系(Ontology)等的引入,改变了网络信息资源的组织模式。应用这些方法和工具,不仅使网络信息资源组织从信息组织迈向知识组织,而且还能围绕用户体验、从用户角度出发,真正实现面向语义的网络信息资源组织。[1]

(1)传统的数字信息资源组织的主要方法

主要有分类组织法、主题组织法、分类主题合并法。

分类组织法沿用文献资源的分类方法,主要以学科分类限定检索范围,从而为用户提供一个学科分类的“知识地图”,如果用户对要检索的东西把握不准,使用该种方法就可能更为无效。但是网络信息资源庞杂,甚至有些内容不好界定其学科分类,再加上网络资源的表现方式更多的是非文本信息,这样单靠分类搜寻显得力不从心。

主题组织法依靠关键词语为检索线索,理论上可以根据词表组织网络信息资源,但实际上依靠叙词表、标题表组织网络信息资源,不仅工作量大,而且逻辑关系复杂,在互联网中几乎无人使用,更多的是采用关键词搜寻。以网站、网页的题名、地址、摘要及正文中的自然语词为关键词,来建立索引数据库,用户通过搜索引擎输入关键词,就可以检索获取到相关网络信息的超链接。目前绝大多数搜索引擎使用关键词法,不仅有效组织了网络信息资源,而且还为用户提供了高效简便灵活的检索方法,但主题组织方法往往准确率低,受关键词影响较大,还不是建立在语义关系上的检索,也就不可能非常准确地为用户找到想要的信息资源。

分类主题合并法是把分类和主题二者结合起来的方法。合并法强化了分类浏览与主题浏览之间的联系,各自弥补了二者一定的缺陷和不足,但从根本上改变不了他们对网络信息资源组织的不足,在网络环境下,信息资源组织在理论和实践上必须寻求新的突破。

由以上看出,传统的信息组织方法对组织数字和网络信息资源都有很大的局限性,因此有必要另辟蹊径,寻找新的现代组织方法。

(2)面向语义的组织方法和元数据组织方法

目前网络信息资源数量巨大,特别是大数据时代已经来临,2011年全球创建和复制的数据总量为1.8ZB(约1.8万亿GB),每两年翻一番,到2020年全球将达到35ZB的数据信息量。随着网络的普及,传播和接收信息变得易如反掌,人类真正进入了自媒体时代。信息资源类型多种多样,既包括静态文字、图像信息,又包括声音、动画、影像等多媒体信息。生长速度极快,呈现指数型增长。但传播源头分散,缺乏有效组织。

①面向语义的组织方法

信息内容庞杂、信息资源质量参差不齐,如果没有有效的信息组织方法就难以应付如此大的信息量。作为读者也要求用户界面的友好性、搜索系统易用性和功能的强大性。因此面向语义层次的信息组织方法应运而生。

一般来说,网络信息资源组织存在三个层次,即语法信息、语义信息和语用信息,它们分别对应着信息的形式、内容和效用三个层次,与此相关,语法信息组织、语义信息组织和语用信息组织也就形成了传统信息组织与网络信息组织方法的三个层次,如表6-4:(www.xing528.com)

表6-4 信息组织方法的三个层次

从以上表格可以看出,语法信息是信息组织的基础,依靠语法信息这些基础材料盖成大厦;语义信息是填充大厦的内容——信息知识标引;用户通过查询,语用信息得以发挥,这三种方法都不可偏废,是相互联系的整体。但在实际操作过程中,不可能只用其中的某一层次的组织方法,只有将不同层次的不同信息组织法综合运用,才能把互联网信息资源组织好,才更加贴近并符合人类的认知规律。

为了实现基于语义网络信息资源的查询,必须改变目前HTML标记语言不能智能判断的缺陷。确实HTML标记语言简单易用,对快速促进互联网的发展功不可没,但是HTML标记语言的标签集只是标记了内容的显示格式,对数据的内容没有做到标记,使用HTML标记语言的网络信息资源就难以精确地为用户提供需要的资源。例如搜索orange一词,究竟是指水果,还是指橘色,HTML标记语言无从判断。搜索引擎因而无法对知识进行理解和处理,只做简单的匹配,最终导致提供的信息资源呈现一词多义或一词同义,较高的查准率查全率难以达到。采用XML标记语言就可以很好地解决此问题。XML(Extensible Markup Language)可扩展标记语言是由W3C(World Wide Web Consortium)的XML工作组针对HTML的不足开发出的,XML不仅可以描述显示格式,更重要的是它能够描述Web页面的内容。XML是一种基于SGML的语言,简单灵活,保留了SGML的可扩展功能,允许嵌套的信息结构;允许定义数量不限的标记描述资料,直接处理Web数据。XML在网络资源的组织上,已成为元数据规范的语言基础,广泛应用于人工智能、知识表示和信息检索领域,并且成为公认的国际标准格式,也是信息保存和信息交换的理想格式。

尽管XML标记语言相比HTML标记语言已经有了很大的进步,但是二者提供的信息如果不及时著录,就会杂乱无章,无头无脑,不方便用户检索。因此,元数据应运而生。

②元数据组织法

元数据组织法是网络信息组织的重要工具,通过选用一定数量的通用数据单元来描述互联网上的数据和资源属性,被称为数据的数据。无论是网络资源的管理者还是使用者都可通过元数据发现、组织和检索利用资源,是能够促进互联网信息资源的组织和发现的数据。通过元数据的聚合著录功能,可以把分散在网络上凌乱的、碎片化的信息资源汇总、序化、优化,形成统一的定位、选择和检索系统。用户可以快速准确地查到分布在各地的信息资源,提高检索的准确率。

元数据经过多年开发,有描述性元数据、管理型元数据、结构性元数据、保存性元数据,等等。为了方便使用,1995年3月,在美国俄亥俄州都柏林(Dublin)召开的第一届元数据大会上,确立了一个包含13个元素的元素集,即都柏林核心元素集(DublinCore,简称DC)。后又新增了2个元素:Description(描述)和Rights(权限),使得DC由原来的13个元素增加到15个元素。都柏林核心元素集经过不断的修正和完善,已经得到了国际普遍的承认,被翻译成20多种语言在全世界应用。

表6-5 都柏林核心元数据集元素

伴随互联网智能化程度的提升,依靠主题词表、叙词表寻找信息、标引信息,也有待于进一步提升。词表逐渐演变成语义更为丰富的词库,包含更复杂的语义关系,在网络环境下,其未来的发展方向就是构建概念体系——Ontology(本体)。Ontology是一种建模工具,用来描述信息系统的概念模型,支持复杂的概念层次结构和逻辑推理,通过使用概念体系(Ontology)这一工具,构建面向特定用户群体的个性词库,提供给特定用户群的个性化信息服务体验。利用XML、RDF、Ontology这些网络信息资源组织的技术工具,能够完全解决语义层次上的网络信息共享和交换。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈