在和现实世界进行交流的时候,除了眼神、表情和动作之外,最常用的交互技术就是语音交互。一个完整的语音交互系统包括对语音的识别和对语义的理解两大部分,不过人们通常用“语音识别”这一个词来概括。语音识别包含了特征提取、模式匹配和模型训练3方面的技术,涉及的领域很多,包括信号处理、模式识别、声学、听觉心理学、人工智能等。
1932年,贝尔实验室的研究院Harvey Fletcher启动了语音识别的研究工作。到1952年,贝尔实验室已经拥有了第一套语音识别系统。当然这套系统还很原始,只能识别一个人,而且词汇量在10个单词左右。遗憾的是贝尔实验室的语音识别研究很快被“断奶了”。1969年,John Pierce写了一封公开信,对语音识别技术的研究大骂一通,他认为这项研究的难度无异于“把水转化成油,从大海中分离黄金,治愈癌症,或是登上月球”。很快,贝尔实验室的专项研究资金就被停掉了。当然,颇具讽刺意味的是,就在1969年,人类成功实现了“阿波罗”登月计划。
好在美国军方一直对前沿科学研究提供着不遗余力的支持。1971年,著名的美国国防部先进研究项目局(DARPA)提供了为期5年的研究资金,用于研究词汇量不少于1 000个单词的语音理解研究项目。BBN、IBM、CarnegieMellon和斯坦福研究院都参与了这一项目。
进入20世纪80年代,IBM在语音识别技术上取得突破性的进展,并出现了N-Gram这种大词汇连续语音识别的语言模型。当然,语音识别技术的突飞猛进发展很大程度要归功于计算机性能的提升。如今,一部iPhone4手机的性能就已经达到了1985年超级计算机的运算性能。(www.xing528.com)
进入21世纪以后,DARPA再次宣布支持两项语音识别项目,其中GALE团队专注于普通话的新闻语音识别。Google在从知名语音识别技术公司Nuance招聘了几名关键员工后,也从2007年开始进入这一领域。
2011年10月,在苹果创始人乔布斯逝世的前夜,苹果公司发布了新款iPhone 4S手机,并搭配名为“Siri”的人工智能助手,而Siri应用所采用的语音识别技术就来自Nuance。虽然苹果对Siri寄予厚望,但是从这几年的实际用户体验和反馈来说,Siri的语音识别能力还远远没有达到人们预期的程度,更多成了人们无聊时候的调侃对象。
2015年,微软推出了自家最新版的人工智能助手“小冰”。但和Siri一样,人们对“小冰”的语音识别能力并没有留下太深刻的印象。在国内,以科大讯飞为代表的中文语音识别技术,号称语音识别的准确性可以从以前的60%~70%提升到95%以上。但科大讯飞的技术更多属于对语音的识别,在语义理解方面并没有取得实质性的进展。相比其他几种交互技术,语音交互技术更多的属于算法和软件的范畴,但其开发的难度及其可提升的空间却丝毫不逊于任何一种交互技术。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。