传统的文本信息检索主要有三种经典模型,即:布尔模型、向量模型、概率模型。这些模型对后来的多媒体检索技术产生了重要影响,并且,也被改进和应用到一些多媒体检索系统中。下面分别对这三种模型进行介绍。
1.布尔模型
布尔模型是基于集合论和布尔代数的一种较为简单的检索模型,将数据库中的文本表示成关键字的集合,且要求用户以布尔表达式的形式,将提交的查询关键字用“与”“或”“非”组合起来,例如:q=w1∨(w2∧w3),如果数据库中的文本满足表达式q时,就作为与查询相关的结果被检索出来。
可见,布尔模型的优点在于清楚、简单,且使用率较高。同时,其缺点在于:布尔模型在检索时实现的是二元判定,即:相似或不相似,对于用户提交的查询条件,数据库中的文本被简单地分为“相似”和“不相似”两个类别,而无法计算相似度的大小,因此,不利于检索结果的排序,限制了检索功能。此外,在查询条件的表达方面,很多用户难以将检索需求精确地转换成布尔表达式。
2.向量模型
在该模型中,文本数据以向量的形式进行表达。例如:数据库中的一篇文档表示成一个m维的向量D=(d1,d2,…,dm),其中向量的每一维di分别代表这篇文档在特征i上的权重值。对于文本检索而言,特征可以是字、词、词组,或其他文本信息,一般而言,以词作为特征的检索效果最好。因此,通常采用对文本切词,形成文本词集,并将常用的词集合并成为词典,词典中的每个词即作为特征向量的一个维度,从而,可以将数据库中的每个文档都表示成向量模型,即:
式中,Wi(i∈[1,m])表示词典中的关键词;Wi·ti是这个词的权重,m表示词典中词的数目。目前流行的权重计算方法是基于词频的TF*IDF(Term Frequency*Inverse Document Frequency)方法,TF和IDF的值可以分别采用下列公式进行计算:
式中,IDFi表示文档D中关键词Wi的倒文本频率;N表示数据库中文档的总数;df(i)表示在所有被检索的文档中,包含了关键词Wi的文档数目。可见:(www.xing528.com)
(1)TF反映了某个关键词在某一篇文档中的重要性,TF越大,则一篇文档中某个词出现的频率越大,表示这个关键词越能反映文档的内容,与文档主题的关联度也就越大;
(2)IDF反映了某个关键词在整个数据库中的重要性,IDF越大,则出现这个关键词的文章数目越少,表示该词越特殊;
在基于向量模型的文本检索系统中,查询请求和数据库文档都表示成多维向量,相似度计算则可以通过向量间的距离公式来度量,如:欧氏距离、内积距离、余弦距离,等等,然后根据相似度大小实现检索结果的自动排序。因此,向量模型是一种代数模型,而布尔模型则是将文档和查询条件用关键词集合来表示,也称为集合论模型。
3.概率模型
所谓概率模型是指:用户提交的查询条件和数据库中的文档之间采用概率方法计算相似度的值,即:文档与查询条件在多大的概率意义上是相似的,概率越大就越相似,查询结果相应地按照概率值递减的次序返回给用户。为了实现概率计算,数据库文档和查询请求都是采用矢量的形式表示,其中的每个分量代表一种特征的取值。查询条件r和数据库中某一篇文章d之间的相似性概率P(r,d)可以依据贝叶斯定理、文档中不同关键词之间的相关性和依赖性,以及特征分布的独立性假设进行计算。
这种方法的优点是以严格的数学理论为依据,并且简单、直观,在检索过程中充分利用了文档特征之间的依赖性和相互关系,缺点在于相应的存储和计算开销较大。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。