首页 理论教育 语音识别技术在多媒体技术与虚拟现实中的应用

语音识别技术在多媒体技术与虚拟现实中的应用

时间:2023-10-30 理论教育 版权反馈
【摘要】:语音识别技术,也称为自动语音识别,主要包括语音听写和语法识别功能。图2-2语音识别系统的结构不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似。语音识别系统对使用环境的强依赖性也是目前需要解决的问题。近年来,语音识别在移动终端上的应用最为火爆。

语音识别技术在多媒体技术与虚拟现实中的应用

语音识别技术,也称为自动语音识别,主要包括语音听写和语法识别功能。其目的是使计算机具有听懂人说话的能力。

1939年,首个能够处理合成语音的机器在贝尔实验室诞生。1952年,贝尔实验室发明了一款能够听懂从0到9的语音数字的机器。1954年,一台与乔治城语言学家合作的IBM机器能够把60句俄语翻译成英语。1962年,IBM开发的Shoebox设备能够听懂16个单词。到1976年,卡内基梅隆大学将机器能够听懂的单词数量增加到了1000个以上。20世纪80年代中期,机器已经能够听懂数万个单词。语音识别技术被认为是2000—2010年间信息技术领域十大重要的科技发展技术之一。经过多年的技术研究和技术积淀,语音识别技术取得了显著进步,从实验室走向了市场,有了实质性的进展。目前,这些产品有能够听懂人讲话的Siri、亚马逊Alexa、谷歌助理以及微软的“小娜”等。

1.语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为以下三类:

(1)特定人语音识别系统:仅考虑对于专人的话音进行识别。

(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习

(3)多人的识别系统:通常能识别一组人的语音,或者称为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

2.语音识别的基本方法

语音识别分为训练和识别两个阶段。训练阶段是在机器中建立被识别语音的样板或模型库,或者对已存在机器中的样板或模型做特定发音人的适用性修整。在识别阶段,将被识别的语音特征参量提取出来进行模式匹配,相似度最大者即为被识别语音。

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法及利用人工神经网络的方法。

3.语音识别系统的结构

语音识别是研究如何利用计算机从人的语音信号中提取有用的信息,并确定其语言含义。其基本原理是将输入的语音经过处理后,将其与语音模型库进行比较,从而得到识别结果,如图2-2所示。其中,语音采集设备是指话筒、电话等将语音输入的设备。数字化预处理则包括A/D变换、过滤和预处理等过程。参数分析是提取语音特征参数,利用这些参数与模型库中的参数进行匹配,从而产生识别结果的过程。语音识别是最终将识别结果输出到应用程序中的过程。模型库是提高语音识别率的关键。(www.xing528.com)

图2-2 语音识别系统的结构

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似。完整的语音识别系统大致分为三部分:语音信号预处理与特征提取、声学模型与模式匹配、语言模型与语言处理。

4.语音识别的难点

(1)噪声处理。现在的语音识别系统大多在较为安静的条件下才能够保证较高的准确率,而在语音识别时,使用的麦克风不可避免会接收到除目标人声以外的其他噪声,如环境中的噪声或其他不是目标人物的人声。所以,对噪声进行处理,是提高语音识别系统准确率的关键。

(2)鲁棒性。现有的语音识别系统大多在测试环境下可以有较高的准确性,而进入实际使用的环境时,往往会因为其他因素影响而导致系统的性能与测试时的结果相差较大。语音识别系统对使用环境的强依赖性也是目前需要解决的问题。

(3)语音模型。语言是区别人类和其他动物的关键,所以它的复杂性毋庸置疑。而目前很多的语音识别系统只能对一些简单场景下的语音进行识别,而在一些稍微复杂的场景下使用时,就会出现性能大大降低的情况。说话者的语意和情绪都会影响到语音识别的真实意义和结果,所以需要优化语音模型,这需要大量的训练数据。

5.语音识别的应用

语音识别技术有了很大的发展,已经被广泛地运用到多个领域。语音听写器已经得到了广泛的应用,如会议记录听写、语音病历等。在进行会议时,可以实时地进行语音识别,将识别文本保留下来作为会议记录。目前,有很多输入法支持用户进行语音输入,并将识别的文本发送出去。未来,语音技术将会不断完善,发展空间十分广阔。

近年来,语音识别在移动终端上的应用最为火爆。语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司利用语音交互的新颖和便利模式来迅速占领客户群。

Nuance、Google、Apple、MSRA、科大讯飞等公司进行了语音技术的研究和产品开发工作。如苹果的Siri实现了语音识别功能,可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。科大讯飞开发平台提供了语音听写、语音识别、语音合成、语义理解、语音评测等多种功能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈