首页 理论教育 视频中人脸检测技术的优化实践

视频中人脸检测技术的优化实践

时间:2023-07-02 理论教育 版权反馈
【摘要】:说话人脸检测技术主要是对视频数据中底层的视觉和听觉特征进行统计分析,从而根据说话人的音频信息,自动找到视频镜头中说话的人脸。跨语言检索中的LSI方法也可以应用到说话人脸检测研究中,用于计算视频流中包含的人脸画面与说话者音频特征之间的相关性,相关性最大的就是说话者。这种方法实现了视频流中从音频到图像的检索,与跨媒体检索有些类似。

视频中人脸检测技术的优化实践

说话人脸检测(Talking Face Dection)技术主要是对视频数据中底层的视觉和听觉特征进行统计分析,从而根据说话人的音频信息,自动找到视频镜头中说话的人脸。该技术主要可以分为人脸检测和说话者识别两个部分。其中,人脸检测技术主要是依赖于视觉特征来确定人脸在视频帧中位置,而说话者识别则借助于视频流中的视觉、听觉、转录文本等特征判断镜头中哪个人脸是说话者。

语言检索中的LSI方法也可以应用到说话人脸检测研究中,用于计算视频流中包含的人脸画面与说话者音频特征之间的相关性,相关性最大的就是说话者。这种方法的主要步骤包括:

(1)假设视频镜头中检测出了m个人脸,每个人脸画面中提取了i维的特征人脸向量(f1,f2,…,fi);

(2)从说话音频中提取k维的音频特征向量(a1,a2,…,ak);(www.xing528.com)

(3)将所有的视觉和听觉特征连接起来,构成组合向量,以代表整个镜头的底层特征,那么,包含n个镜头的视频片断就对应一个(i·m+k)·n维的视听觉特征矩阵

(4)对视听觉特征矩阵进行LSI变换,并选择距离函数计算每个人脸与说话者音频特征的相关性。

这种方法实现了视频流中从音频(说话者的声音)到图像(人脸图像)的检索,与跨媒体检索有些类似。然而,局限性在于对噪音比较敏感,并且要求说话者的头部基本上保持静止,以计算音频特征与人脸口型变换之间的统计关系。因此,对于一般意义上的跨媒体检索,该方法还难以直接移植和应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈