除了语音识别之外,深度学习的影响已经延伸到语音合成领域,目的在于克服统计参数合成(statistical parametric synthesis)中基于高斯-隐马尔可夫模型和基于决策树(decision tree)的模型聚类等传统方法上的缺点。语音合成的目的是直接从文本(或其他信息)生成语音。2013年5月,ICASSP会议上第一次出现了相关的论文。为了改善基于隐马尔可夫模型并建立在“浅层”声学模型上的统计参数语音合成系统,这次会议汇报了四种不同的基于深度学习的语音合成方法。我们首先介绍相关的背景知识,再对这些方法进行简要回顾。
统计参数语音合成出现在20世纪90年代中期,是现在语音合成领域的主导技术。文献[364]是近年来工作的一个概述。这种方法使用一组随机生成式的声学模型来对文本和对应的声学实现之间的关系进行建模。最受欢迎的生成式声学模型是基于决策树聚类与上下文相关的隐马尔可夫模型,并假设HMM每一状态的输出满足高斯分布。在基于HMM的语音合成系统中,使用一个统一的上下文相关的HMM框架来对频谱、激励以及时长等声学特征同时进行建模。在合成阶段,给定一个待合成文本,文本分析模块先从中提取上下文相关的要素序列,包括语音学、韵律音韵学、语言和语法上的描述信息。给定上下文相关的要素序列后,就会生成一个与输入文本对应的句子级上下文相关的隐马尔可夫模型,模型参数是由遍历决策树确定的。声学特征的预测,需要在静态特征和动态特征的约束下从句子级的HMM中最大化它们的输出概率。最后,将预测出的声学模型送入到一个波形合成模块来重构出语音波形。多年来,这种标准方法生成的语音与自然语音相比往往是沉闷且模糊不清的,这可能是由于基于浅层结构的HMM对声学模型建模不充分导致的,近来的一些研究尝试通过深度学习方法来克服这些不足。深度学习技术的一个重要优势在于,它们通过使用一个生成式(如3.2节中讨论的RBM和DBN)或区分性(如3.3节中讨论的DNN)模型框架,使其对高维随机向量单元之间的内在联系或者映射关系产生强大的表征能力。因此,人们希望使用深度学习技术来克服语音合成使用传统浅层模型在声学建模方面的限制。
最近,研究者们进行了一系列探究,使用深度学习方法来克服上述方法的限制,这一思路来自于人类语言产生的内在分层过程以及本章前面介绍的深度学习方法在语音识别上的成功应用。在凌震华等人[227,229]的研究中,RBM和DBN作为生成式模型替代了传统高斯模型,在合成语音的主观和客观评测中都取得了显著的提升。在文献[190]中,DBN作为生成式模型来表征语言特征与声学特征的联合分布,决策树和高斯模型被DBN所替代。这种方法与使用DBN生成数字图像(digit images)的方法很相似。语音合成中通过使用较大的音节规模单元来解决语音中特有的时间序列建模问题(图像中不存在这样的问题)。另一方面,与前面使用的生成式深度模型(RBM和DBN)相比,文献[435]中的研究利用深度神经网络(DNN)的区分性模型来表征给定语言特征时声学特征的条件概率分布。在文献[115]中,DNN的区分性模型作为一种特征提取器从原始声学模型中提取高层结构的信息。在完整的语音合成系统中,这样的DNN特征用作第二阶段中从上下文特征中预测韵律轮廓目标的输入。(www.xing528.com)
深度学习在语音合成的应用才刚刚开始,在不久的将来会有更多关于该领域的研究工作。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。