设Ω表示训练样本数为n的图像数据库,A表示训练样本数也为n音频数据库,定义“修正因子”γ(i,j)=Pos(ai,bj)(ai∈Ω,bj∈A,i,j∈[1,n]),图像和音频对象在子空间CMFSS中的距离按下式进行修正:
由此,设R表示提交的图像查询例子,则根据上述距离公式,图像和音频之间的跨媒体检索,可以用图8-1所示的伪码实现:
图8-1 CMFSS子空间中跨媒体检索的伪码
由于修正因子γ(i,j)代表CMFSS子空间中图像和音频对象之间的距离修正值,当γ(i,j)=0的时候,就无法修正两者之间的相关性。因此,下文将介绍在相关反馈中根据用户标注的反馈正例和反馈负例,学习了跨媒体的语义信息,用于更新修正因子γ(i,j)的值,进而更新图像和音频在CMFSS子空间中的距离Crodis(i,j)值。
从本书第一部分中的相关介绍可知,传统的相关反馈算法为了结合用户的感知先验知识,通常利用反馈信息修改查询向量的坐标,使之向正确的检索对象的分布中心移动,或是调整距离度量公式中各分量的权值,等等。这些方法适用于单一类型的多媒体检索,却不适用于跨媒体检索。主要是因为CMFSS子空间中分布着图像和音频两种类型的多媒体对象,相关反馈过程中同时也提供了不同类型的反馈正例和反馈负例,需要区别对待不同类型的多媒体数据,以合理地修正子空间中的数据集拓扑结构。(www.xing528.com)
此外,CMFSS子空间是基于相关性保持映射而得到的,这种相关性保持特性使得图像和音频数据在子空间中形成一定的聚类效果(第七章的实验部分对此做了一定的检测和验证)。因此,在设计相关反馈算法之前有如下假设:
假设 在CMFSS子空间中,相似语义和相同类型的多媒体对象分布在比较集中的区域。
基于上述假设,可以采用增量学习的方式,通过修正γ(i,j)的值对跨媒体检索结果进行动态相关性排序,以传播相关反馈中的语义信息,修正图像和音频对象在子空间中的分布。具体做法如下:
设查询例子为一幅图像R,采用图8-1的CMFSS子空间中跨媒体检索算法,返回了相似的音频和图像数据作为检索结果,用户标注音频正例集合P和音频负例集合N,则相关反馈算法如图8-2所示。
图8-2 基于动态排序的相关反馈算法
可以看到,相关反馈过程中,正例周围和负例周围的多媒体对象,它们的修正因子γ取值呈等差数列,即:越靠近正例和负例,修正因子的改变幅度就越大。考虑到用户在每轮相关反馈过程中标注的信息可能会不同,参数τ的取值不为常量,而是根据每次反馈的不同结果而变化。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。