【摘要】:20世纪60年代,计算机的应用推动了语音识别的发展。其中,动态规划和线性预测分析技术等技术的提出和运用,对语音识别的发展产生了深远影响。图15.2应用于语音识别过程的隐马尔科夫模型20世纪90年代之后,语音识别与自然语言处理相结合,发展到基于自然口语识别和理解的人机对话系统。
语音识别的研究工作开始于20世纪50年代,当时AT& T Bell实验室实现了第一个可识别10个英文数字的语音识别系统——Audry系统。
20世纪60年代,计算机的应用推动了语音识别的发展。其中,动态规划(DP)和线性预测分析技术(LP)等技术的提出和运用,对语音识别的发展产生了深远影响。
20世纪70年代,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟。特别是矢量量化(VQ)和隐马尔可夫模型(HMM)理论在实践上的运用,初步实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
20世纪80年代,随着HMM模型和人工神经元网络(ANN)等技术在语音识别中的成功应用,人们终于在实验室突破了大词汇量、连续语音和非特定人这3大语音识别障碍。卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx,它是第一个高性能的非特定人、大词汇量连续语音识别系统。在声学识别层面,以多个说话人发音的大规模语音数据为基础,通过对连续语音中上下文发音变体的HMM建模(图15.2),语音音素识别率有了长足的进步;在语言学层次,以大规模语料库为基础,通过统计2个邻词或3个邻词之间的相关性,可以有效地区分同音词和由于识别带来的近音词的模糊性。另外再结合高效、快捷的搜索算法,就可以实现实时的连续语音识别系统。(www.xing528.com)
图15.2 应用于语音识别过程的隐马尔科夫模型
20世纪90年代之后,语音识别与自然语言处理相结合,发展到基于自然口语识别和理解的人机对话系统。与机器翻译技术相结合,逐步发展出面向不同语种人类之间交流的直接语音翻译技术。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。