首页 理论教育 深度堆叠网络的基本结构分析

深度堆叠网络的基本结构分析

时间:2023-06-22 理论教育 版权反馈
【摘要】:如图6.1所示的一个DSN,包含了数目可变的分层模块,每个模块都是由单隐层和两个可训练的权值集合组成的特殊神经网络。如果使用DSN进行语音识别,输出单元可以表示音素、音素的HMM状态或者音素的上下文相关的HMM状态。将DSN的输出和HMM或者任何动态规划模型连接,即可以实现连续语音识别以及其他类型的序列模式识别。图6.1图6.1为使用输入-输出堆叠的DSN结构。

深度堆叠网络的基本结构分析

如图6.1所示的一个DSN,包含了数目可变的分层模块,每个模块都是由单隐层和两个可训练的权值集合组成的特殊神经网络。在图6.1中,只用4个模块举例说明,每一个模块都用一种不同的颜色表示。实际上,在图像和语音分类中通常需要训练几百个模块。

DSN的最底层模块由三层组成:包含线性输入单元的线性层、包含非线性单元的非线性层和包含线性输出单元的线性层。隐层中经常使用sigmoid非线性函数,当然也可以使用其他非线性函数。如果将DSN用于图像识别,输入单元对应相应图像的像素(或提取的特征),可以是密度值、RGB值或者和像素相关的其他值。如果DSN用于进行语音识别,输入单元可以是语音波形数据的采样点或者从语音数据中提取的特征,比如功率谱(power spectra)或倒谱系数(cepstral coefficients)。线性输出层的输出单元的输出表示分类的目标。例如,如果使用DSN进行数字识别,输出单元代表0,1,2,3,…,9,并且使用0-1编码方式表示。如果使用DSN进行语音识别,输出单元可以表示音素、音素的HMM状态或者音素的上下文相关的HMM状态。

我们用W表示底层连接线性输入层和非线性隐层的权值矩阵,用U表示上层连接非线性隐层和线性输出层之间的权值矩阵。当使用均方误差(mean square error)训练准则时,给定W之后,权值矩阵U可以通过闭式(closed-form)解确定。

如上所述,DSN包含一系列的串联、重叠和分层的模块,其中每个模块都有相同的结构——一个线性输入层,之后连接一个非线性隐层,然后是一个线性输出层。底层模块的输出是与它相邻接的较高层的输入单元的子集。第二个模块,即与最底层的模块直接相连的模块,其输入除了包含最底层模块的输出之外还可以选择性地包含原始的输入特征。

将底层模块的输出作为与之邻接的较高层模块的输入,然后使用凸优化学习输入层和隐层、隐层和输出层之间的连接权值矩阵,使用这种方法,可以对大多数模块进行训练。使用这种方法训练的DSN可以用来做自动分类任务,例如帧一级的语音音素分类或音素状态分类。将DSN的输出和HMM或者任何动态规划模型连接,即可以实现连续语音识别以及其他类型的序列模式识别。(www.xing528.com)

978-7-111-52906-4-Chapter06-1.jpg

6.1

图6.1为使用输入-输出堆叠的DSN结构。图中使用4个模块进行了举例说明,每个模块使用了不同的颜色。虚线表示复制当前层。(参考文献[366]@IEEE)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈