首页 理论教育 人脸动画驱动技术优化指南

人脸动画驱动技术优化指南

时间:2023-06-19 理论教育 版权反馈
【摘要】:当用离散的语音基元或图像基元表示音视频的基本单元时,将会丢失很多重要的信息。语音基元表示对于识别而言非常有效,但对于合成来说却不是最好的,这主要由于它们很难预测声音韵律和人脸表情之间、声音能量与姿势放大之间,以及声音段落与唇动同步之间的关系。第二种方法是绕过语音基元这种形式,找到语音信号与控制参数之间的映射关系,然后直接驱动嘴唇运动。

人脸动画驱动技术优化指南

人脸合成系统都必须模拟人脸表情中很多细节和复杂运动。对每一个运动,虽然可以进行手工标注,但是一般需要很长的时间,而且只有熟练的动画师才能很好地完成该项工作。为了解决这个问题,人们研究了一些可以自动生成人脸动画的方法,主要有视频驱动、语音驱动、跟踪设备驱动和文本驱动等方法。

1.视频驱动法

基于视频的方法跟踪人脸的运动,并将人脸的运动信息转化为控制人脸模型的运动参数。这种方法目前的难点在于提取并跟踪人脸特征点的运动。为此,常在被跟踪人脸上加入特征标注点(如反光点)。如果每时每刻所有人脸特征或反光点都可以被检测出来,那么提取出来的数据可直接与人脸模型参数建立一种映射关系。此时,这种方法可以得到很好的结果。基于视频驱动的合成适合重现个人化的表情,当需要精确的唇动控制时,这项技术很难自适应完成和语音同步的唇形计算。

2.语音驱动法

目前的语音驱动法可分为两类:通过语音识别法和不通过语音识别法。第一种方法是通过将语音分割成语言单元,如音素(Phoneme)、视觉基元(Viseme)以及更进一步的音节(Syllable),随后将这些语言单元直接映射到嘴唇姿势后用拼接法合成。这种方法非常易于直接实现,但缺点是忽视了动态因素和同步问题,潜在的语音段落与肌肉模型运动的相互作用及影响很难处理。到现在为止,几乎所有在同步问题上的努力集中在启发式规则以及Ad Hoc平滑方法上。当用离散的语音基元或图像基元表示音视频的基本单元时,将会丢失很多重要的信息。事实上,语音基元的设计仅满足区别发音高低以及可以传递语言内容的需要。语音基元表示对于识别而言非常有效,但对于合成来说却不是最好的,这主要由于它们很难预测声音韵律和人脸表情之间、声音能量与姿势放大之间,以及声音段落与唇动同步之间的关系。第二种方法是绕过语音基元这种形式,找到语音信号与控制参数之间的映射关系,然后直接驱动嘴唇运动。神经网络、相关控制及线性预测函数被广泛用于生成唇形和人脸表情中。(www.xing528.com)

3.运动跟踪设备驱动法

运动跟踪设备通常需要模特穿上特制的衣帽,上面有一些标记,或者直接在人体表面贴上特制的标记(通常呈小球状)。仪器的多个摄像机能够自动跟踪这些标记,并自动计算出标记的运动轨迹。目前的运动跟踪设备很多,如Vicon、Motion Analysis、Qualisys、Vz3000等,它们都可以实现通过在脸上粘贴标记点实现获取三维人脸运动数据的工作。

4.文本驱动法

文本驱动有两种方式。第一种方式是输入文本首先被分析转为音素表示,音素的一些信息以及它们的时长可以从文本中自动生成出来。对共振峰以及其他一些语音参数(频率、基音、基音范围等)也可以由计算得到。文本驱动人脸语音合成适合参数化的人脸模型。定义人脸模型的参数也可以被加入到用于语音合成的参数中,如嘴唇形状、人脸表情、下颌旋转等。作为一种新的方法,语音合成系统可以扩展到将人脸参数包含在语音输出参数中。第二种方式是直接在文本与动画参数之间建立映射关系。文本驱动人脸语音系统可以通过对文本插入一些标记(如语音韵律、语气、重音)优化输出的结果。这样合成语音会更自然,同时这些参数可以用于复杂的人脸动画。例如,重音可以与眉毛上挑以及点头等动作同步合成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈