匹配与选择是一种机制,负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息。这种机制至少包括两个因素:执行匹配的动因和选择的标准(或称匹配标准)。前者可以是人或机器或二者同时作用;后者则根据需求的性质和系统的智能水平来确定。匹配原来是电工学中的术语,对检索提问与检索标识成功匹配的描述,则称之为“命中”(Locate/Hit)。
目前,匹配运算主要采用布尔模型、向量模型、概率模型、神经网络模型、聚类模型、基于命题逻辑模型、基于规则模型、模糊模型和语义模型等方式,各种模型在表达用户信息需求的形式和深度、提供的检索手段、界面的友好性、用户对检索结果的控制、文献的表现形式和聚类方式上都各有特点。
在匹配运算中,相关性是一个重要的概念。相关性通常被用来表示用户和文档之间存在或不存在的一种关系,即文档d和用户需求q的关系。在概率模型中一般使用概率P(R/q,d)估计相关性的大小。
需要说明的是,需求集合和信息集合是任何一个信息系统的两个基本环节和核心要素,是一对矛盾的两个方面。在特定的时间和范围内信息资源是有限的,用户信息需求则是无限的,正是这一对矛盾的运动,成为信息工作发展的动力,成为信息检索研究的基点。目前,信息集合所具有的量大、面广、分散、零乱、冗余等特点与需求集合所具有的集中、专指、系统、优质之间的矛盾越来越突出,这就使得选择与匹配工作越来越困难。
由此看来,信息检索的基本原理就可以简化为提问与有序化的、特征化表示的信息集合之间的匹配,即两组有限的语词符号化特征之间的比较。在计算机检索中,基本原理不变,只不过是信息的表示方式、存储结构和匹配方法发生了变化:在信息表示方法上,采用计算机可识别的代码;在存储结构上,信息采用了便于计算机快速存取的方式。例如,文献的著录项变成了字段(Field),文献的条目变成记录(Record),传统的文献正文和索引变成了计算机检索文档(File)和倒排文档(Inverted File)。在匹配方法上,采用机械匹配,匹配标准由隐式变为显式。在这种机械匹配中,原先表达概念的语词符号变为没有内涵的字符串,检索过程就是表示用户需求的字符串与计算机存储的信息字符串的比较和运算过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为“命中”。一般来说,匹配是信息系统的信息存储和检索子系统的任务。之后,计算机根据人们的需要再将“命中”的信息输出给用户。检索原理如图1.10所示。
图1.10 计算机信息检索原理
思考题:(www.xing528.com)
1.什么是信息素质?查询国内外相关的信息素质网站。
2.人们对信息概念的探索经历了怎样的发展过程?
3.怎样理解信息检索的概念和发展历程?
5.谈谈自己对信息检索原理的认识。
6.如何激发自己的信息需求?
7.结合实际,谈谈信息检索学习的重要性和必要性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。