【摘要】:一个完整的转换自编码器如同一个“胶囊”,它是一个独立的子网络。一个转换自编码器同时接收一个输入向量和一个目标输出向量,这个输出向量是由输入向量通过一个简单的全局转换机制转换而来的。假设明确的全局转换表示是已知的,转换自编码器的编码层由几个“胶囊”的输出组成。在训练阶段,为了最小化最终输出和目标,不同的“胶囊”用于学习提取不同的实体。
上面描述的深度自编码器,由于利用了许多非线性层的处理,所以可对特征向量提取可靠的编码。然而,用这种方式提取的编码是转换可变的(trans-formation-variant)。换句话说,当输入特征向量发生变换时,提取的编码就会按照学习器(learner)的选择而改变。有时,人们期望有一种可预见的编码转换来反映感知到的内容的转换不变性(transformation-invariant)。这就是文献[162]中提出用于图像识别的转换自编码器的目的。
一个完整的转换自编码器如同一个“胶囊(capsule)”,它是一个独立的子网络。这个子网络提取一个单一的参数化特征来表示一个单一的实体,如视频或音频。一个转换自编码器同时接收一个输入向量和一个目标输出向量,这个输出向量是由输入向量通过一个简单的全局转换机制转换而来的。例如,图像平移和语音的频率偏移(后者取决于声道长度的不同)。假设明确的全局转换表示是已知的,转换自编码器的编码层由几个“胶囊”的输出组成。
在训练阶段,为了最小化最终输出和目标,不同的“胶囊”用于学习提取不同的实体。(www.xing528.com)
除了这里描述的深度自编码器结构,文献中还有许多不同类型的生成式结构,所有的这些结构都只利用数据本身(摆脱分类标签)自动地获得高级的特征。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。