案例检索的实质就是基于相似性的比较,相似性一般包括三个方面的内容:结构相似性、语义相似性和目标相似性。相似性比较的模型和算法也多种多样,下面介绍几种常用的模型方法:
1.最近邻居法
最近邻居法(K-NN算法,又译K-近邻算法)是一种用于分类和回归的非参数统计方法。在K-NN分类中,输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的,K个最近邻居(K为正整数,通常较小)中最常见的分类决定了赋予该对象的类别。若K=1,则该对象的类别直接由最近的一个节点赋予。在K-NN回归中,输出是该对象的属性值,该值是其K个最近邻居值的平均值。
最近邻居法采用向量空间模型来分类,概念为相同类别的案例,因彼此的相似度高,故而可以借由计算与已知类别案例之相似度来评估未知类别案例可能的分类。K-NN是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。K-近邻算法是所有的机器学习算法中最简单的算法之一。
2.TC相似法(Tversky′s ContraMatching)
Tversky相似度是一种映射:
Sim TC:{0,1}n×{0,1}n→R
其定义为:(www.xing528.com)
Sim TC(u,v)=af(u∩v)-βf(u-v)-γf(v-u)
其中u∩v满足{i|ui=vi=1};
u-v满足{i|ui=1,vi=0};
v-u满足{i|ui=0,vi=1};
不同于前面的加和分类模型,TC算法在考察1相似性时既考虑了相同部,分也考虑了不同部分。
需要指出的是,上面的几种模型都是有缺陷的。它们共同的缺陷是所有的模型都是在两个案例之间求得相似,这样对于输入的新案例需要和案例库中的每一个案例求相似度,对于大型的库来说需要大量的时间。即使为库建立了索引,这些模型一词匹配都需要多次读取案例库,这样就势必会因为数据量的扩大而影响响应速度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。