与语音识别类似,最近在音频和音乐处理领域,深度学习也成为一个很重要的研究内容。2009年见证了深度学习在语音识别上的第一次重大事件,接下来也有一系列相关活动,包括2012年ICASSP会议上对深度学习进行的全面概述,以及同年在IEEE音频、语音与语言处理会刊(语音识别最重要的刊物)上的专刊。而深度学习在音频和音乐上的第一个重大事件是在2014年IC-ASSP会议上的特别专题,题目为“用于音乐的深度学习(Deep Learning for Music)”[14]。
在音频和语音处理领域,受深度学习影响的研究主要包括音乐信号处理和音乐信息检索[15,22,141,177,178,179,319]。在这两个方面,深度学习面临着一些独特的挑战。音乐音频信号不是按照真实时间(real time)组织的,而是以音乐时间(musical time)组织的时间序列,它随着韵律和情感的变化而变化。测量的信号通常是多个声音的混合,这些声音在时间上是同步的,在频率上是交叠的,是短时和长时相关的混合。影响因素包括音乐的传统、风格、作曲以及演绎。音乐音频信号的高复杂度和多样性使得其信号表征问题能够很好地使用深度学习这一感知和生理驱动的技术所提供的高度抽象(high levels of abstraction)。
Lee等人[215]在早期的音频信号工作中,用RBM组成卷积结构来构建DBN。在时间上通过隐节点共享权重形成卷积层,来检测时间不变性(invari-ant)特征。然后进行最大池化(max-pooling)处理,获得短时隐节点领域内的最大激励,产生一些短时不变特征。这种卷积DBN应用在音频和语音的很多任务上,包括音乐艺术家和流派的分类、说话人识别、说话人性别分类以及音素分类,都取得了不错的效果。
最近RNN也被用于音乐处理上,使用ReLU隐藏节点代替传统的非线性逻辑回归和双曲正切函数[22,40,41]。在7.2节中,ReLU节点通过计算y=max(x,0)产生更稀疏的梯度,这样在训练中不易发散(RNN训练的常见问题)而且速度很快。RNN主要应用于音乐中和弦的自动识别任务上,这类研究在音乐信息检索领域里很受欢迎。使用RNN结构的目的是利用它强大的动态系统建模能力。RNN通过隐层中自连接的神经元来形成内部记忆,这个性质使得RNN可以很好地模拟时间序列,比如说频谱的帧序列或者和弦进行中的和弦标注(chord labels in a harmonic progression)。充分训练之后,RNN就可以在给定前面时刻结束的条件下来预测下一时刻的输出。实验结果表明,基于RNN的自动和弦识别系统和现有的最好方法水平相当[275]。RNN可以学习基本的音乐属性,包括瞬时连续性、谐波成分和瞬时动态性等。无论音频信号是含糊不清的、带噪的还是很难区分的,RNN都可以有效地检测出大多数音乐的和弦序列。(www.xing528.com)
Humphrey等人[179]在最近的一篇综述论文中,对基于内容的音乐信息学(music informatics)做了详细地分析,特别研究了该领域进展缓慢的原因。得出的结论是:手工特征设计是一种次优解并且无法持久,浅层结构的能力本质上是有限的,而且,短时分析并不能对音乐中有意义的结构特征进行编码。这些结论推动了深度学习方法在自动特征学习中的应用。采用特征学习方法,使得最优化音乐检索系统的内部特征表示成为可能,甚至可以自动发现特征,这是因为深层结构具有很适用于音乐层级特性的特点。最后,我们回顾一下van den Oord等人[371]的最新工作:用深度学习方法实现基于内容的音乐推荐。自动音乐推荐技术在实际应用中变得日渐重要和实用。大多数推荐系统依赖于协同过滤,这种算法受限于冷启动问题,在没有数据可用时就会失败。这样,协同过滤就不能有效地推荐最新的或一些冷门歌曲。而深度学习使用潜在因素模型进行推荐,如无法从可用数据中获得潜在因素时,就从音乐音频中对其预测。一种传统的用词袋(bag-of-words)表征音频信号的方法与深度CNN进行了严格对比,实验结果表明,使用深层CNN的潜在因素模型产生的推荐内容更为合理。这个研究证明了卷积神经网络和丰富的音频特征相结合的方法可以在基于内容的音乐推荐中获得更好的结果。
与语音识别和语音合成一样,不久以后,深度学习在音乐和音频信号处理领域将产生更多的成果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。