首页 理论教育 多模态检索:实现图文音视频联合搜索的方法

多模态检索:实现图文音视频联合搜索的方法

更新时间:2025-01-11 工作计划 版权反馈
【摘要】:在检索过程中,提交一种类型的多媒体数据作为查询例子,系统从流形子空间中找到相似的图像、音频和文本,作为检索结果返回,本书中将这种检索方式称为多模态检索。图11-4不同方法得到的多模态检索结果图11-4中,黑色线条是采用PCA方法得到的平均检索性能。由于PCA方法分次学习了图像、音频和文本数据集对应的三种不同类型的特征矩阵,降维过程分别保持了图像、音频和文本数据集本身的组成结构,但是,没有挖掘不同类型之间的潜在关联。

在检索过程中,提交一种类型的多媒体数据作为查询例子,系统从流形子空间中找到相似的图像、音频和文本,作为检索结果返回,本书中将这种检索方式称为多模态检索。

查准率(Precision)和查全率(Recall)通常用于衡量图像检索系统的性能,而多模态检索不同于传统的图像检索、音频检索等单一类型的多媒体检索,系统返回的查询结果包括文本、图像和音频这三种多媒体数据。因此,定义准确度(Accuracy)来衡量多模态检索的性能,如下所示:

实验过程中,对于数据库中的每个语义类别,分别随机选取5个文本、5个图像和5个音频,作为多模态检索的查询例子,系统对每次查询返回最相似的前80个文本、80个图像和80个音频例子。(www.xing528.com)

图11-4显示了使用本章介绍的方法和PCA(Principal Component Analysis)方法,进行多模态检索所得到的实验结果。从图像、音频和文本数据集中分别提取底层特征矩阵,然后使用PCA方法分别对这三个特征矩阵进行线性分解和降维,得到维数相同的三个子矩阵,即:将图像、音频和文本数据从初始的高维观测空间投影到一个低维的子空间中,用相同维数的向量表达不同类型的多媒体数据。

图11-4 不同方法得到的多模态检索结果

图11-4中,黑色线条是采用PCA方法得到的平均检索性能。由于PCA方法分次学习了图像、音频和文本数据集对应的三种不同类型的特征矩阵,降维过程分别保持了图像、音频和文本数据集本身的组成结构,但是,没有挖掘不同类型之间的潜在关联。因此,这种方法难以准确度量不同类型多媒体数据之间的相关性,得到的准确度低于本章中介绍的非线性流形方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈