我们在这里讨论的“语义哈希”方法应用在文档索引和检索的论文发表在文献[159]和[314]中。采用基于前向传播的近似算法,深度置信网络的最后一层的隐变量不但易于推断,而且比起广泛使用在信息检索中的潜在语义分析和传统TF-IDF方法,它能根据字频特征(word-count features)给每个文档一种更好的表示。通过深度自编码器生成的紧致码,可以使原本语义相近的文档在物理位置上靠近。当文档被映射到内存地址上时,文档检索的速度也随之加快。这种通过神经网络将字频向量映射成紧致码的方法是十分高效的,因为在网络的编码器部分每一个隐层中,仅做一次矩阵乘法,然后做Sigmoid函数估计。
在文献[165]中讨论了用于上述目的的一个深层置信网络生成式模型。简单地说,深层置信网络最底层代表了一个文档的字频向量,顶层代表了这个文档学习得到的二进制码(即紧致码)。深层置信网络的顶部两层是无向连接的,其余几层建立了一个自顶至下的有向贝叶斯(或称置信)网络。这个深层置信网络由第5章中介绍的堆叠式受限玻尔兹曼机所组成,产生了一个前向编码网络,将字频向量转化成紧致码。以相反的顺序组成这些玻尔兹曼机,得到解码网络,将紧致码映射重组为字频向量。将编码器和解码器组合就得到了为文档编码和序列检索服务的深度自编码器。(www.xing528.com)
深度模型训练完后,检索程序将每个查询目标在带有阈值的模型上进行前向传递,从而使其映射成为一个128位的二进制码,继而非常高效地计算出查询目标和所有文档(尤其是在语义空间上相似的“临近”文档)的128位二进制码的汉明距离。高效是因为在哈希表中只需查找相邻的位向量。与这里所讨论的编码文本文档用于信息检索的同一思想,也用在了音频文档的检索和语音特征的编码问题上。这些问题最初是在文献[100]中提到的,在第4章中已经详细讨论过。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。