首页 理论教育 语音识别技术的发展历程和突破

语音识别技术的发展历程和突破

时间:2023-06-23 理论教育 版权反馈
【摘要】:相对于机器翻译,语音识别是更加困难的问题。此时,语音识别的重点是探索和研究声音与语音学的基本概念及原理。图2-57语音识别发展历程到了21世纪,语音识别技术研究重点转变为即兴口语和自然对话及多种语种的同声翻译。2011年,深度神经网络在大词汇量连续语音识别方面获得成功,取得了近10年来最大的突破。从此,基于深度神经网络的建模方式取代隐马尔可夫模型,成为主流的语音识别模型。

语音识别技术的发展历程和突破

1.语音识别概念

语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入,如按键、二进制编码或者字符序列,其最终目的是让机器能够听懂人的语言,如图2-55所示。

相对于机器翻译,语音识别是更加困难的问题。机器翻译系统的输入通常是印刷文本,计算机能清楚地区分词和词串。而语音识别系统的输入是语音,其复杂度要大得多,特别是口语有很多的不确定性。人与人交流时,往往是根据上下文提供的信息来猜测对方所说的是哪一个单词,还可以根据对方的音调、面部表情和手势等得到更多信息。特别是说话者会经常更正说过的话,而且会使用不同的词来重复某些信息。显然,要使计算机像人一样识别语音是很困难的。

图2-55 语音识别

语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而根据判定准则找出最佳匹配结果,如图2-56所示。(www.xing528.com)

图2-56 语音识别原理

2.发展历程

语音识别技术自20世纪50年代开始步入萌芽阶段,如图2-57所示。1952年,贝尔实验室研发出了世界上第一个能识别10个英文、数字发音的实验系统。此时,语音识别的重点是探索和研究声音与语音学的基本概念及原理。

图2-57 语音识别发展历程

到了21世纪,语音识别技术研究重点转变为即兴口语和自然对话及多种语种的同声翻译。2006年,杰弗里·辛顿提出了深度置信网络,它解决了深度神经网络训练过程中容易陷入局部最优解的问题,自此深度学习的大潮正式拉开。2011年,深度神经网络在大词汇量连续语音识别方面获得成功,取得了近10年来最大的突破。从此,基于深度神经网络的建模方式取代隐马尔可夫模型,成为主流的语音识别模型。伴随着人工智能的快速发展,中国在智能语音领域的发展也是十分迅速,2020年,中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2026年中国智能语音市场规模将进一步增长,达到326.88亿元。考虑到人工智能发展对国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自2017年以来,人工智能行业已经连续三年被写入《全国政府工作报告》内。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈