在自编码器的早期研究中,编码层的维度要低于输入层。然而,在一些应用中,研究人员希望编码层的维度大于输入层。这些应用中需要利用一些技巧来防止神经网络学习到无关紧要的匹配函数。如果隐层或者编码层比输入层的维度更高,那么自动编码器就能够捕获更为丰富的输入分布。
通过稀疏性约束或者随机强制使某些值变为0的“dropout”方法来解决上面提到的学到无关紧要的匹配函数的问题。这种“dropout”方法带来的失真将会在输入数据[376,375]或者隐层[166]中引入。例如,在文献[376]中详细描述的堆叠式去噪自编码器中,随机噪声被添加到输入数据中。这样处理有几种目的。首先,将输出结果与原始不失真的输入数据进行强制匹配,可以避免学习到无关紧要的方案。其次,由于噪声是随机添加的,学习到的模型对于测试数据中同种类的失真会变得鲁棒。此外,每个失真的输入样本是不同的,极大地增加了训练集的大小,因此可以缓和过拟合的问题。(www.xing528.com)
有趣的是,当编码和解码权值矩阵被强制设为互为转置(transpose)的情况时,这种含单个S型隐层的去噪自编码器严格等价于一个特别的高斯受限玻尔兹曼机(Gaussian RBM),但是需要利用一种分数匹配规则的方法训练,其中分数被定义为有关输入数据对数域密度的导数,代替利用对比散度(Cont-rastive Divergence,CD)或持续对比散度(persistent CD)训练[375]。此外,Alain和Bengio[5]利用二次方重构误差和高斯干扰噪声将这个结果泛化到了任意参数化的编、解码过程。他们表示当噪声总量接近0时,这样的模型可以正确估计生成数据的分布。最终,Bengio等人在文献[30]中证明,在一些分布簇中,任意的去噪自编码器是一个稳定一致的估计器,可用于估计生成数据的分布。上面的结论对于任何参数化的自编码器、任何破坏信息加噪过程(这个过程除了限定噪声为正以外没有其他限定)的自编码器、任何以条件对数似然函数为重构损失的自编码器都是成立的。估计器的稳定一致性是通过将去噪自编码器和一个马尔可夫链连接来实现的,该马尔可夫链的平稳分布是通过模型估计而来的分布,并且这个马尔可夫链可以用于从去噪自编码器中采样。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。