首页 理论教育 深度挖掘视频特征的融合分析

深度挖掘视频特征的融合分析

时间:2023-07-02 理论教育 版权反馈
【摘要】:视频数据的融合分析是实现上述目标的重要途径。具体地说,机器学习中的最大信息熵方法、隐马尔可夫链方法、支持向量机和核函数方法等,都是视频多通道特征融合分析的常用方法。总的来看,在视频内容分析和检索方面,采用多通道特征的融合分析技术,可以更加准确地理解视频所蕴含的语义信息,提高了系统的性能和效率。近年来,深度学习方法在计算机视觉领域显现出卓越的性能,成功地应用到视频内容的分析和语义理解。

深度挖掘视频特征的融合分析

视频流是非结构化的数据,缺乏有效的内容索引和结构摘要。因此,如果从头到尾浏览和查询原始的视频数据,将会有非常大的时间开销,并且效率很低。如何有效地获取视频流中蕴含的语义信息,以提高浏览和检索视频内容时的效率,一直是项研究热点和难点。

视频数据的融合分析是实现上述目标的重要途径。视频区分于图像、音频等多媒体数据的独特之处在于:它具有丰富的底层内容特征,如:视觉特征、听觉特征、字幕特征等,如果将视觉、听觉等不同通道的特征融合起来分析,可以提高视频语义理解和检索的效率。

例如:提交查询条件“运动员在观众的呐喊声中冲过了终点”来检索视频数据,其中,包括的查询条件有“运动员”和“观众”两个视觉信息,以及“呐喊声”的听觉信息,系统在进行查询的时候,如果只根据视觉特征,则很可能会由于镜头切换和画面的变化,使得检索效果不理想,而“呐喊”的听觉特征在运动员最后冲刺和冲过终点的视频画面中,将持续一定时间保持稳定。因此,在这个例子里面,听觉信息是一种更容易实现的查询约束条件,同时,视觉信息又是对查询条件进行了场景画面上的进一步约束,如果将听觉信息和视觉信息融合起来分析,则可以更加精确地找到符合用户查询条件的视频片段。

具体地说,机器学习中的最大信息熵方法、隐马尔可夫链方法、支持向量机和核函数方法等,都是视频多通道特征融合分析的常用方法。有研究发现,采用这些机器学习方法对多媒体数据进行融合分析,所取得的语义理解准确率,与传统的非融合分析的语义理解相比,提高了将近20%。(www.xing528.com)

根据融合分析方法中融合算法使用的先后顺序,大致可以分为早期融合和后期融合两种类型。早期融合方法首先从视频流中提取视觉、听觉或者是转录文本的特征向量,然后,把这些特征集成到一个单独的表达框架中,进行特征综合分析和语义理解;后期融合方法则是直接从不同属性的特征中学习语义概念,如:计算视觉和文本信息各自的生成概率模型,并将得到的两个概率值合成到一个表达框架中,从而得出最终的概率值,并根据概率值检测某个语义概念是否出现过。

总的来看,在视频内容分析和检索方面,采用多通道特征的融合分析技术,可以更加准确地理解视频所蕴含的语义信息,提高了系统的性能和效率。在本质上,这些方法大多是利用不同特征之间的相辅相成和互补关系,从多方面理解综合理解视频所表达的语义信息。

近年来,深度学习方法在计算机视觉领域显现出卓越的性能,成功地应用到视频内容的分析和语义理解。例如:相关研究针对视频流中的视觉特征、听觉特征和转录文本特征,提出了一种混合的SCAE(Stacked Contractive Autoencoder)模型,对视频中不同特征进行融合训练;采用基于深度神经网络正则化的视频多特征学习算法,并应用于视频语义分类。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈