首页 理论教育 现代信息检索技术的优化方法

现代信息检索技术的优化方法

时间:2023-07-07 理论教育 版权反馈
【摘要】:20世纪80年代,光存储技术的应用促进了传统信息检索系统模式的改变。全文检索系统的出现为人们获取文献原文而非文献线索信息提供了一条有效途径。全文检索是当前计算机信息检索的发展方向之一。多媒体技术的应用使信息检索系统进一步满足了社会对多元化信息的需求。基于内容的图像检索技术是一种综合集成技术。

现代信息检索技术的优化方法

20世纪80年代,光存储技术的应用促进了传统信息检索系统模式的改变。20世纪90年代,因特网的普及应用使传统信息检索的中介代理服务功能逐步减弱,成千上万的各行各业的人都成为网络系统的最终用户。网络系统中存储的内容除原来的二次信息外,已出现越来越多的全文本数据、事实数据、数值、图像和其他多媒体信息资源。全文检索、多媒体检索、超媒体超文本检索、光盘技术、联机检索、网络检索等先进的信息检索技术日新月异地发展起来。

1.全文检索

最早的全文检索系统是1959年美国匹兹堡大学卫生法律中心研制的。全文检索系统的出现为人们获取文献原文而非文献线索信息提供了一条有效途径。全文检索是以文献所含的全部信息作为检索内容的,即检索系统存储的是整篇文章或整部图书的全部内容。检索时可以查找到原文以及有关的句、段、节、章等文字,并可进行各种频率统计和内容分析。全文检索主要是用自然语言表达检索课题,适用于某些参考价值大的经典性文献,如各种典籍、名著等。

近年来,全文检索的应用范围不断扩展,它与出版技术的结合,使各种科技期刊、专利文献、新闻报纸等全文数据库应运而生。国外许多著名的报纸,如美国《纽约时报》《新闻周刊》《美国新闻与世界报道》,加拿大《多伦多环球邮报》等的通讯稿都出版了机读全文数据库且每天更新。全文数据库涉及的专业领域越来越广,除了法律文本、报纸期刊外,一些年鉴、手册、百科全书、参考书等也成为全文系统处理的对象。

全文检索是当前计算机信息检索的发展方向之一。

2.多媒体检索

多媒体检索技术是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术。多媒体技术的应用使信息检索系统进一步满足了社会对多元化信息的需求。

(1)视频检索。其用途比较广泛,如关于卫星云图变化、人体内器官运作等。这种检索就是要在大量的视频数据中查找所需要的视频片段。用户需求往往具有层次化特征,比如要检索关于某一个镜头中的某个主题的视频段或某些图像帧等。(www.xing528.com)

(2)声音检索。它包括用序号查找一段声音;以匹配方式检索给定样值的声音,对声音文本的检索等。常用的方法有:①特征描述法,包括自然语言描述法和声音解释;②内容检索法,包括赋值检索,即按用户指定某些声学特征的值或范围的说明进行检索;③示例匹配检索,即由用户根据选择示例的声音或在对声音的某些特征进行描述的基础上的检索;④浏览检索,即将某种或某些声音的内容分割为若干节点,用链路连接,用户可按任意顺序通过链路进行检索;⑤语言识别与合成方式的检索,该方法是由语言识别装置将原始语言转化为计算机可以理解的数据存入语言数据库,由数据库管理系统统一描述、编辑、存储与检索。

(3)图像检索。基于内容的图像检索技术是一种综合集成技术。它通过分析图像的内容,如颜色、纹理等建立特征索引,并存储在特征库中。用户查询时,只要把自己对图像的模糊印象描述出来即可在大容量图像信息库中找到所要的图像。用户一般对颜色、纹理、形状以及目标的空间关系特征比较敏感,因此常用基于内容的检索方法。具体包括基于颜色特征的检索,基于纹理特征的检索,基于形状特征的检索。

3.超媒体及超文本检索

传统文本都是线性的,用户必须依照一定的顺序阅读。超媒体与此不同,它是一种非线性的网状结构。用户要沿着交叉链选择阅读自己感兴趣的部分。早期的超文本以文字为主,随着多媒体技术的发展,超文本开始容纳包括图像(形)、视频、声频等各种动、静态信息,这些统称为超媒体系统或超级文本系统。它可以提供用户自由浏览信息。从信息组织角度看,超媒体系统是一个由节点和表达节点之间关系的链构成的网状数据库。采用控制按钮的方式组织接口,按钮即为连接节点之间的链。节点是存储信息的基本单位,可以存储各种形式的数据内容,甚至一段程序。对节点的显示一般采用多窗口浏览方法,每个窗口分别表示一个节点。节点间的链接有两种方法,即索引链和结构链。索引链实施节点中“点”“域”之间的链接,链的起始端为链源,往往以斜体、粗体、彩体,或加下划线、边框等形式表示,也可以是一个图符或按钮;结构链是对层次信息进行操作的,即它连接的是父子节点。超媒体系统是一个由节点和链构成的有向网络。超媒体系统主要提供基于浏览的检索方式和基于提问的检索方式。

(1)基于浏览的检索方式。超媒体系统的数据库是一个多维空间结构的文献链路网。链路网将同一篇文献或不同文献(或文献代表)的相关部分结构化地连接起来,这是传统的检索系统所无法实现的。这种组织结构决定了它主要通过非线性浏览获取信息,即通过跟踪信息节点间的链路在网络中移动的过程,并非直接检索。通过浏览不但可以了解数据库的组织,从中查询与课题相关的信息,而且可以不断得到新节点的启发,重新调整检索的目标使获取的信息更切题,或者通过浏览信息片段动态地建立新的查询路径。

(2)基于提问的检索方式。基于浏览的查询是从“哪里”到“什么”,而采用提问的方式则是从“什么”到“哪里”,与浏览方式相比,提问方式查找目标明确、准确度高,适用于大型系统。但该方式对用户要求高,用户必须熟悉专门化检索语言和检索策略。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈