6.5.1 引言
随着Internet的普及与推广,人们越来越倾向于利用万维网从事各种科研及商务活动,因而利用网络信息检索信息成了人们最关心的话题之一。但是,人们在使用这些网络检索工具时会发现,对某一信息进行查询,得到的结果却是一堆信息垃圾,很少有他们想要的具有参考和利用价值的信息,原因在于目前的信息检索工具主要是基于关键词或内容分类目录进行查找的,很少做进一步的智能化处理。因此,反馈给查询用户的是简单相关的信息,根本无法满足用户的检索要求。
传统的数字图书馆的信息检索机制在网络环境下存在着一定的局限性。传统检索技术实现的方法多采取词切分、单汉字以及词切分与单汉字相结合的方式;检索主要借助于目录、索引和关键词等方法来实现。这种检索模式带来了三个深层次的问题:第一,忠实表达。很多情况下,用户很难简单的用关键词,或关键词串忠实的表达他所真正要检索的内容,表达困难导致检索困难。第二,表达差异。人类的自然语言中,随着时间、地点或领域的改变,同一概念可以用不同的语言表达形式表达。因此,对同一概念的检索,不同的用户可能使用不同的关键词来检索。第三,词汇孤岛。人的大脑中,概念并不是孤立存在的,它总是与其他概念之间存在各种各样的联系。在信息检索中,用户在检索一个词时,除了希望得到含该概念的文档之外,总是还想得到与此概念相关的其他信息,虽然这种愿望在很多情况下并没有显示地被用户表达出来。而传统检索模式下返回的结果都是含用户检索词的文档,而不会涉及其他相关信息,因此用户的检索词得不到概念扩展,被系统作为一个孤立的的词来处理,形成了所谓的“词汇孤岛”。传统检索模型如布尔模型、概率模型和向量模型都不能很好地解决上述问题,其根本原因在于传统的信息组织机制与信息检索模型缺乏知识理解能力与知识处理能力。
传统信息检索效率评价也存在着局限性。传统检索效率的理想要求是快、准、全。在保证查全率(Recall)与查准率(Precision)前提下的三项指标作为检索效率效果进行量化的评价标准。但是在海量的Internet上的数字图书馆信息检索,用查全率与查准率来衡量检索效率是否合适是值得进一步探讨的问题。(www.xing528.com)
本体(Ontology)是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义Web等领域之中。20世纪90年代以来,研究人员从各自的专业角度出发对本体的理论和应用进行了深入研究,取得了丰富的研究成果,本体理论与技术也随之日趋成熟。
在信息检索领域,本体能够准确地描述概念含义以及概念之间的内在关联,并能通过逻辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和推理的能力,更适用于数字化时代的信息组织和检索。在信息标引方面,由于本体可以更好地表达词语之间的概念关系,可以应用本体辅助主题分析。在主题识别方面,可将文本中的概念提取出来,应用领域本体中概念之间的语义关系和层次关系进行综合匹配,进而确定主题概念。这样可以大大提高主题分析的准确性和科学性,同时也可以避免使用句子分析、语段分析等目前尚不完善的分析技术。在信息检索方面,可以利用本体对概念以及概念之间的关系进行精确的描述,也可以利用本体对用户需求进行语义扩展。传统的基于关键词或分类目录的检索方法,由于难以表达概念的深层次语义及内在关系,导致了大量没有意义的检索结果出现。而本体则全面、细致地描述了概念之间的语义关系,并可实现一定程度的推理,建立本体与主题词或分类类目的映射,利用本体所反映的领域知识可以实现初步分类,同时也能更准确地分析出主题。另一方面,在某些情况下,用户难以简单地用关键词来表达其检索需求,或产生表达差异等问题,也可以应用本体对用户给出的词语进行语义扩展,实现基于语义的检索。
利用本体的思想和方法来解决数字图书馆中的信息检索的问题,我们提出了基于本体的数字图书馆检索模型,并针对人文历史领域做了检索模型设计与实现。这个检索模型就是以第二次国共合作历史为背景,构造的“基于本体的数字图书馆检索模型”(简称GGHZ—DL)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。