首页 理论教育 语音合成模块的设计方案的介绍

语音合成模块的设计方案的介绍

时间:2023-06-24 理论教育 版权反馈
【摘要】:现在语音合成已经广泛地应用于人机对话中,它也是第五代智能计算机的重要功能之一。当前,语音合成的研究已经进入文字—语音转换阶段,其功能模块可分为文本分析、韵律建模和语音合成三大模块。语音合成系统的流程如图7-14所示。以上所说的语音合成的方法都是以软件的形式,据我们所了解,TTS产品的硬件形式也很多,最常见的就是科大讯飞的语音合成芯片XF-S4240,这款芯片语音合成功能稳定,接口简单,而且与计算机相接方便。

语音合成模块的设计方案的介绍

语音合成技术又称文语转换技术,即TTS技术,是指使用计算机把文本信息转换为相应文本发音的音频数据,然后播放出来——使机器人能够像人一样说话,这在情感机器人的交互功能中也是必需的。文本分析和语音合成是TTS系统的两个基本步骤:前者从文本中提取各种韵律控制信息来控制后者的合成,这些韵律信息对提高合成语音的自然度至关重要;后者是用各种合成信号来模拟人类的语音。语音合成研究的目的是制造一种会说话的机器,使其存储的信息能转换为语音,让人们能通过听觉方便地获得。现在语音合成已经广泛地应用于人机对话中,它也是第五代智能计算机的重要功能之一。当前,语音合成的研究已经进入文字—语音转换阶段,其功能模块可分为文本分析、韵律建模和语音合成三大模块。语音合成系统的流程如图7-14所示。

978-7-111-39577-5-Chapter07-15.jpg

图7-14 语音合成系统流程图

目前,中文语音合成的研制和开发的厂商有捷通华声、炎黄新星、Infotalk、科大讯飞、IBM.Microsoft等。评价一个TTS引擎的优劣,主要有以下几个方面:合成语音的自然度、合成语音的表现力、合成性能、多种文语合成等。(www.xing528.com)

Interphoinc语音合成系统是科大讯飞面向中、高端应用的语音合成系统,以先进的大语料语音合成技术和语音韵律描述体系为基础,提供面向任意文本、任意篇章的连续语音合成功能,合成音质可媲美真人发音。目前,Interphoinc系列产品已经成为市场上的主流语音合成系统,在各个行业及各个研究领域都有广泛的应用。讯飞语音合成开发包(iFly TTS SDK)是在讯飞语音合成系统基础上,为语音合成开发者提供的一个能够使用讯飞语音合成技术进行应用开发的用户编程接口,可以实现实时的语音合成。其还具有高质量的文本语音转换效果,采用了大语料库合成技术、超大规模的自然语流数据库制作技术,并以此作为数据统计和机器学习的训练数据;依据语言学、语音学、人工智能知识基础,利用机器学习中的决策树神经网络系统分别建立了较为完善的基频、时长、能量、停顿模型并且在中文合成的自然度、可懂度、音质等主要指标上均名列前茅,是国内电信级应用最多的一个TTS产品。

以上所说的语音合成的方法都是以软件的形式,据我们所了解,TTS产品的硬件形式也很多,最常见的就是科大讯飞的语音合成芯片XF-S4240,这款芯片语音合成功能稳定,接口简单,而且与计算机相接方便。我们将XF-S4240与软件形式的开发包(iFly TTS SDK)进行了下对比,发现使用硬件合成时候语音识别的准确率要远远高于使用软件包合成。因此,本软件平台采用的是硬件合成语音方式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈