数字图书馆的核心问题是有序的信息组织、分布式的跨库检索,面临的最大挑战是大并发量访问、海量信息检索查询和信息资源共享,要实现信息或知识检索查询的快、准、全,就要提供多种检索方法。
一方面,数字图书馆可以采用常用的网络信息检索方法,如布尔检索、邻近检索、截词检索等。为了提高检索的效率,往往将以上多种检索技术混合使用。另一方面,数字图书馆的发展也推动了信息检索方式、方法的研究和应用,除上述的常用检索方法外,还有一些伴随着资源的丰富与各种检索技术、网络技术的发展而成长起来的其他检索方法,如多字段组合检索、全文检索方法、二次检索、跨库检索或所有的数据库中同时检索。下面着重介绍几种在数字图书馆的检索系统中颇具潜力的检索技术。
1.语义检索
语义检索指使用某一检索提问词进行检索时,能同时对该词的同义词、近义词、广义词、狭义词进行检索,以达到扩大检索,避免漏检的目的。未来的信息系统应当具有概念匹配的功能,即自动抽文档的概念,加以标引,用户在系统的辅助下选用合适的关键词表达自己的要求,然后在两者之间执行概念匹配——匹配在语义上相同、相近、相包含的词语,因此,语义检索也叫概念检索。概念检索还可以解决跨学科的自动词汇转换。完全的语义检索有待人工智能技术和自然语言理解技术的成熟。语义检索只有在相应的信息基础结构上才能实现,特别是在一个由分布异构的信息仓库构成的多媒体网络信息环境中实现语义互操作,将是数字图书馆面临的最大挑战。
2.多语种/跨语言信息检索
在多语种检索系统中,用户可以选择检索的语种,系统可按描写的语种进行检索,并输出相应的检索结果。用户可以在检索结果中限制检索结果的语言。跨语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。
跨语言信息检索主要包括两种方法:受控词表跨语言信息检索和自由文本跨语言信息检索。前者需要使用预先确定的词表对文献进行人工标引,用户使用该词表中的词来表达他们的检索提问。与受控词表检索不同,自由文本检索方法使用出现在文献中的词,因此成为常用的跨语言检索方法。按照使用的翻译资源不同,自由文本检索方法能进一步划分为:基于机读词典、基于机器翻译系统、基于本体或基于语料库的方法。无论是哪种跨语言信息检索方法,其跨越语言障碍的方式不会脱离以下4种:同源匹配、提问式翻译、文献翻译或者提问式和文献都翻译为统一、独立于语言表示的语间转换技术。
3.智能检索
智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。它采用诸如语义网络等智能技术,通过汉语分词、句法分析以及统计学习理论有效地理解用户的请求;根据用户对检索结果的评价调整自己的行为,对搜索结果进行命题的解释。
未来智能化检索应该更加注重文本挖掘技术的运用,使其具备如下一些功能:(1)具有大规模实例描述的汉语分词排歧知识库;(2)具有主题词典、广义同义词检索、拼音检索、同音词检索等功能;(3)具有基于内容的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能;(4)具有文本挖掘功能,比如对数字的理解,新词学习等;(5)智能代理,自动和自助式检索。
4.基于内容的多媒体信息检索
数字图书馆的信息资源可分为结构化数据和非结构化数据。结构化数据能用数据或统一的结构加以表示,如数字、符号等。非结构化数据则不能,如图像、声音、视频等。这类数据的特征,如图像中的颜色、纹理,视频中的镜头、场景,声音中的音调、音色等虽可赋予名字、文件格式、采样率等属性,但其中没有可确认的词或可比较的实体,不能像文本那样搜索其内容,因此要求在资源检索方面,用基于内容的检索取代传统基于关键字的检索。基于内容的检索( Content-Based Retrieval,CBR)是根据媒体和媒体对象的内容语义及上下文联系进行检索。它具有如下特点:第一,直接对图像、视频、音频等媒体内容进行分析,抽取特征和语义建立索引,进行检索;第二,放弃常规数据库检索中的精确匹配方法,而采用相似性匹配的方法逐步精益求精获得检索结果:第三,能对大型多媒体数据库进行快速检索;第四,采用多种检索手段,除提取多媒体内容特征进行检索外,还提供了其他检索手段,如通过提供样本图像进行相似性检索,或通过人机交互进行浏览检索。当前,基于内容的多媒体信息检索研究热点主要集中在以下4个方面:
(1)基于内容的文本检索
基于内容的文本信息检索是涉及文档内容查寻的检索技术。其检索模型的构造是基于内容文本信息检索的核心技术,包含3个方面的内容:文档与用户查寻的表示、查询匹配策略和匹配结果的相关度表示。常用的检索模型有布尔模型、向量空间模型和概率模型。文本检索中能标识出相关文本的方法大致有:通过全文扫描寻找关键索引词,使用索引文件和文献簇等。
(2)基于内容的图像检索
基于内容的图像检索将图像可视性特征,如颜色、纹理结构、形状以及位置关系等信息作为图像的内容进行匹配,建立图像的特征矢量作为其索引。常用的检索方法有如下几种:
第一,基于颜色特征的检索。颜色特征(包括颜色的分布、相互关系、组成等)非常稳定,对于旋转、尺度变化,甚至各种形变都不敏感,且易于计算。基于颜色特征的图像检索主要解决三个问题:颜色的表示、颜色特征的提取和基于颜色的相似度量。颜色特征的提取和检索主要利用颜色空间直方图进行匹配。颜色直方图即是通过度量图像间颜色直方图的距离来衡量图像的相似性。常用的基于颜色特征的检索方法有:互补颜色空间直方图、直方图交叉法、直方图距离比较法、二次型距离算法等。
第二,基于纹理特征的检索。图像可以看成是不同纹理区域的组合,纹理通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量。纹理特征可用来对图像中的空间信息进行一定程度的定量描述。纹理特征主要包括粗糙度、方向度、对比度、规则性、线像相似度、规整度等,其中前三者是最重要的特征。由于难以描述,对纹理的检索一般采用示例查询方法QBE(Query by Example),也就是从样本集(即一套预先存储的纹理图像)中选择所要查询的纹理。(www.xing528.com)
第三,基于轮廓特征的检索。形状是图像的一个显著特征,对形状的描述涉及对轮廓边界的描述及对这个边界所包围区域的描述。常用的形状检索方法主要是针对图像边缘轮廓特征和检索的图形矢量特征(如形状的无关矩、区域的面积、形状的纵横比等)建立图像索引。对形状轮廓特征的描述主要有:直线段描述、样条拟合曲线、傅立叶描述以及高斯参数曲线等。
(3)基于内容的视频检索
视频检索相当于动态图像检索,因为视频除了具有一般静态图像的特征外,还具有动态性,如镜头运动的变化、运动目标的大小变化,视频目标的运动轨迹等。视频数据可用幕、场景、镜头、帧等进行描述。视频序列主要是由镜头组成;镜头由一系列连续的帧组成,帧是一幅静态的图像,是组成视频的最小单位;场景含有多个镜头;幕是由一系列相关的场景组成,并表达一个完整的事件。一个基于内容的视频检索流程为:首先构造视频结构,将视频序列分割为镜头,并在镜头内选择关键帧;然后提取镜头的特征以及关键帧的视觉特征,作为一种检索机制存入视频数据库;最后,根据用户提交的查询按照一定的特征进行视频检索,将检索结果按相似度提交给用户。
(4)基于内容的音频检索
音频是对声音进行数字化处理得到的结果。音频数据一般用音量、音强、带宽、音长和音色等属性来描述,其中音量、音强、带宽和音长属性易于通过技术手段进行信息化建模,而对音色的处理较为复杂。在检索前,首先对音频数据建立索引,索引可以基于韵律、和音、旋律以及其他的感知或声学特征。
音频检索的基础是建立数据库。对音频数据进行特征提取,将音频数据装入数据库的原始音频库部分,通过特征对音频数据聚类,将聚类信息装入聚类参数数据库部分。数据库建立后就可以进行音频信息检索。常用的音频检索方法有:①基本属性检索。这种检索方式通过查找文件名、文件大小、生成时间等一般属性以及取样率等音频属性来检索音频信息。②赋值查询。通过用户指定某些声学特征的值或范围如声强、能量、带宽等特征值进行音频信息检索。③示例检索。用户提交一个示例声音,针对一个或多个特征,查出所有与示例相似的声音。目前,有代表性的音频检索系统有美国Muscle Fish公司开发的基于内容的音频检索系统。
作为一个新兴的研究领域,基于内容的检索仍然存在许多问题,主要包括多媒体内容的描述、特征的自动提取、多媒体的同步技术、匹配和结构的选择,以及以相似性特征为基础的索引、查询和检索等。
思考题:
1.数据库有哪些常用的检索字段?
2.联机检索与网络检索有何区别?
3.WWW与Internet是一样的吗?
4.利用CNKI等联机检索数据库测定某一主题领域的核心期刊或核心作者。
5.使用CNKI等联机检索数据库分析某一学科或主题领域论文作者的合著。
6.以某一主题(如信息检索、广告)为分析对象,调查该主题的文献研究状况。
7.网络信息资源都有哪些类型?如何对这些资源进行评价?
8.练习搜索引擎的常用检索命令。
9.比较数字图书馆与传统图书馆在检索方面的异同。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。