最早提出的局部敏感哈希,直接采用随机投影生成的超平面作为哈希函数,根据数据点落在超平面的哪一侧分别生成0或1,是典型的数据独立哈希方法。后续的研究从采用不同的距离度量、提高搜索精度、降低存储空间方面对局部敏感哈希提出一些改进方法,如随机投影哈希(random projection based hash,RPH)、MinHash(min-wise independent permutation hashing)等。局部敏感哈希及其改进算法已被应用于信息检索、快速目标检测、图像匹配等领域。
局部敏感哈希的优点是逼近原则从理论上保证了搜索精度。然而,由于哈希函数的生成不依赖数据分布,生成的二值码随机性较大,为了达到满意的精度,往往需要较长编码位数和较多哈希表,导致局部敏感哈希及其改进算法应用于大规模图像数据时,检索性能受限。此外,理论上的精度保证只适用于某个度量空间,难以克服由适用的度量空间和实际的语义相似性产生的语义鸿沟。因而后来的大量研究集中转向数据依赖的哈希方法,即使用数据点的内在分布信息及特定任务指导哈希函数的设计,一些复杂的机器学习算法被引入哈希函数的设计,比如boosting算法、度量学习、核方法等。这种数据依赖的哈希方法又称为哈希学习方法(learning to hash),目前基于哈希的研究大多侧重于哈希学习。数据依赖的哈希学习根据是否使用数据的标签信息,可以进一步分为无监督哈希方法、半监督方法和监督方法。
无监督哈希在学习哈希函数时,仅根据图像数据间的分布或流形结构学习哈希函数,而未使用图像的标签数据。代表性的研究工作包括:谱哈希(spectral hashing,SH)、迭代量化(iterative quantization,ITQ)、离散图哈希等。(www.xing528.com)
半监督哈希学习使用了图像的部分标签信息学习哈希函数,与无监督哈希方法相比提高了检索精度。代表性方法包为半监督哈希(semi-supervised hashing,SSH)。此外,基于度量学习的半监督哈希将度量学习引入局部敏感哈希以提高搜索效率,由于度量距离函数学习用到了标签数据,而局部敏感哈希是无监督过程,被认为属于半监督哈希。
监督哈希学习则使用了图像的全部标签信息来学习有效的编码,检索精度通常比无监督方法和半监督方法要高。代表性的监督哈希学习方法包括:监督离散哈希(supervised discrete hashing,SDH)、监督核哈希(kernel supervised hashing,KSH)、快速监督哈希(fast supervised hashing,FastH)等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。