首页 理论教育 视听特征共生估计

视听特征共生估计

时间:2023-07-02 理论教育 版权反馈
【摘要】:可以采用跨语言检索中的隐性语义索引的方法,分析视觉和听觉特征矩阵。训练过程中,矩阵E每行的前z列视觉特征向量和后z列听觉特征向量代表相同语义类别的图像和音频数据。采用11.1.1小节中的奇异值分解方法,对共生矩阵E进行奇异值分解,取前r个非零的最大特征根所对应的矩阵U,V,Σ,得到,如下所示相应地,得到r维的子空间称为跨媒体隐性关系索引子空间。

视听特征共生估计

已有文献证明,不同类型的数据集之间存在着一种共生关系,挖掘这种数据关系可以帮助发现潜在的语义结构。可以采用跨语言检索中的隐性语义索引的方法,分析视觉和听觉特征矩阵

训练过程中,矩阵E每行的前z列视觉特征向量和后z列听觉特征向量代表相同语义类别的图像和音频数据。可见,跨媒体的特征共生矩阵E融合了不同量纲的特征值,在分析E的隐性语义结构之前要进行归一化处理,方法如下:

式中,等式左边表示矩阵E的第i行;等式右边的分母表示第i行中各元素绝对值的最大值。采用11.1.1小节中的奇异值分解方法,对共生矩阵E进行奇异值分解,取前r个非零的最大特征根所对应的矩阵U,V,Σ,得到,如下所示

相应地,得到r维的子空间称为跨媒体隐性关系索引子空间。

此外,对于训练集之外的图像(或音频数据)W,可以采用下面的方法得到r维坐标:①构造特征向量h=(x1,x2,…,xz,0,…,0)(音频例子对应的特征向量是(0,…,0,y1,y2,…,yz));②通过线性变换h1×2zV2z×r得到W在跨媒体隐性关系索引子空间中的r维坐标。这并不是唯一的坐标计算方法,还可以对图像W相似图像的r维坐标进行加权平均,结果作为W的坐标。(www.xing528.com)

上述方法是以跨语言检索中用到的主要技术(即:隐性语义索引)为基础的,虽然与跨语言检索比较相似,但是之间也存在着一些差异,主要包括:

(1)语言文字本身就是一种语义,而图像和音频这种多媒体数据是半结构化或非结构化的,不包含直接的语义,因此,跨语言检索和跨媒体检索分别针对不同的数据对象;

(2)共生矩阵的结构不同:跨语言检索是对文档-词汇矩阵(Term-Document Matrix)进行奇异值分解,而图像与音频数据之间不存在这种文档与词汇之间的包含关系,因此,视觉和听觉特征共生矩阵的构建方法也不同。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈