计算机人脸表情研究开始于20世纪70年代,Suwa和Sugie等人于1978年对表情识别做了一个最初的尝试,他们跟踪一段脸部视频动画,得到每帧图片上20个关键点的运动规律,将此运动规律与预先建立的不同表情的关键点运动模型相比较,进行表情分析。当然这还只是初步的尝试,表情分析、编码与识别作为多模式人机交互的重要组成部分而受到关注,而真正发展是在20世纪90年代。日本的东京大学、京都大学、ATR研究所(Advanced Telecommunications Research Institute International,国际电气通信基础技术研究所);美国的麻省理工学院(MIT)媒体实验室、卡内基梅隆大学(CMU)机器人研究所、马里兰(Maryland)大学、佐治亚工学院;欧洲的剑桥大学、曼彻斯特大学等都投入很多人力物力来进行这方面的研究。
在日本,20世纪90年代初,东京大学的Hiroshi Kobayashi和Fumio Hara利用神经网络方法对基本表情和混合表情进行机器识别,最终将表情分解为惊奇、恐惧、厌恶、愤怒、高兴和悲伤,并将这6个基本表情中的2或3个表情进行合成。他们借助来自眉毛、眼睛、嘴三个区域的60个面部特征点(Facial Characteristic Point,FCP)的坐标来获取面部表情信息,并将其作为神经网络的输入进行训练,训练图像来自用录像带记录的30个对象的172幅具有混合表情的面部图像。最后,将识别结果与人类对表情的识别结果进行了比较,已经得到70%相对较好的识别率。日本ATR媒体整合与通信研究实验室的Kenji Mase提出利用光流来跟踪运动单元,从而进行表情识别。Mase的表情分析思想分从上至下和从下至上两个方向。①从上至下:假设脸部图像被分解成肌肉单元[对应于动作单元(Action Unit,AU)],把肌肉单元集合成矩形,在矩形中计算光流。这种方法严重依赖于矩形的定位。②从下至上:在矩形区域中计算光流,量化成4个方向,每个窗口提取了一个主要的肌肉收缩的方向。定义并提取一个15维的特征向量用来表征表情序列中光流变化最活跃的点。实验中对高兴、愤怒、厌恶、惊奇四种表情进行了分类,用基于K最近邻的方法,识别率达到了80%。数据来源是作者本人的若干组各种表情图像序列:20种作为样本数据(每种表情5组数据),30组作为测试数据,图像大小为256×240像素。
在美国,同样是20世纪90年代,佐治亚工学院的Irfan A.Essa教授和MIT媒体实验室的Alex Pentland教授[15],用图像序列作为输入的计算机视觉系统来观察面部的运动单元。视觉观察与感知是通过优化估计光流方法与描绘面部结构的几何、物理肌肉模型相结合得到的。这种建模方法产生了一个随时间变化的面部形状的空间模板和一个独立的肌肉运动群的参数化表征。这些肌肉运动模板可以被用于分析、解释与合成表情。数据库中图像的大小为450×380像素,来源于7个对象的52幅表情序列,产生所“需要”的表情,与真正意义下的情绪并无关系。识别的表情或表情动作是:高兴、惊奇、愤怒、厌恶和抬眉毛,识别率达到了98%。马里兰大学的Yaser Yacoob和Larry Davis,Black和Yacoob的表情识别方法都是基于面部动作编码系统(Facial Action Coding System,FACS)编码的。Yacoob和Davis集中于分析与嘴、眼睛和眉毛边缘的相关运动,把光流的方向场量化成8个方向。同时建立了一个Beginning-Apex-Ending时间模型,规定每种表情的整个过程以中性表情作为开始和结束,并定义了变化中每个阶段的开始与结束的规则。识别方法使用简化的FACS规则来识别六种表情。他们的数据库来自32人的105种各种表情,图像大小为120×160。对各种表情的识别率分别是:高兴为86%,惊奇为94%,厌恶为92%,愤怒为92%,恐惧为86%,悲伤为80%。Mark Rosenblum和Yaser Yacoob等人用径向基函数网络(Racial Basis Function Net-work,RBFN)结构,学习脸部特征与人类情绪之间的相关性,在最高一级识别情绪,在中间一级决定脸部特征运动,在最低一级恢复运动方向。特征提取中不关注脸部的肌肉运动模型,而是关注特征部件边缘的运动。此系统的识别率达到了88%。
在欧洲,剑桥大学计算机实验室的Rana El Kaliouby和Peter Robinson的研究主要针对:自动识别用户实时的精神状态(包括认知状态)的接口,以及发展表情在人机交互中的潜在用途。首先截取视频流中的头肩序列,接着对图像进行运动单元分析,最后利用HMM分类器分析头部运动和表情。实验测试在207个图像序列中进行,其中包括90个基本表情和107个混合表情,系统对于6种基本表情的识别率达到了86%,而混合表情的识别率为79%。(www.xing528.com)
曼彻斯特大学的图像科学与生物工程系的David Cristinacce和Tim Cootes采用AdaBoost算法和哈尔小波(Haar Wavelet)变换来提取面部特征,该算法无论对于高分辨率还是低分辨率的图像,都有稳定的人脸定位性能。
在国内,北京科技大学王志良教授首次提出了人工心理的概念,对人的心理活动(包括情感、意志、性格、创造等)进行人工模拟,确立了人工心理理论结构体系(目的、法则、研究内容、研究方法、应用范围),并把这一理论应用于情感机器人、商品选购系统等实际生活中,取得了较好的效果,目前该课题组正在情感建模与计算、表情的分析与合成等方面进行深入探讨。此外,哈尔滨工业大学、中国科学院计算技术研究所、中国科学院自动化研究所也开展了相关的研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。