Roy等人(2020)提出一种基于度量学习的语义保持深度哈希网络——MiLaN,并将其用于大规模遥感图像检索。MiLaN的基本思想是:(1)使用预先训练好的深度神经网络作为遥感图像的中间特征表示,而无需重新训练或精调,避免了少量带标签的遥感图像数据集样本在大型深度神经网络的训练中产生过拟合的问题;(2)学习基于语义的度量空间,使学习到的特征对于最终的目标检索任务而言是最优的;(3)计算紧凑的二进制哈希码以进行快速搜索。
设训练图像为:I={X1,X2,…,XP},其中每幅图像Xi与相对应的类标签Yi∈Y={Y1,Y2,…,YP}。通过设计哈希函数将图像编码成二进制码,即h:I→{0,1}K,其中,K是哈希码中的位数,h应能在度量空间中保留图像对之间的语义相似性。基于MiLaN的图像检索总体框架图如图7-10所示。
图7-10 基于语义保持深度哈希网络(MiLaN)的遥感图像检索框架图[66]
基于MiLaN的遥感图像检索的流程可以描述为:
(1)特征提取。为了解决遥感图像带标签样本数据不足的问题,采用预训练网络提取遥感图像的高级语义特征。在实际训练中,首先通过小批次的方法随机挑选有效的三元组作为Inception Net网络输入,然后提取Inception Net网络softmax分类层的前一层的特征作为遥感图像的中间特征表示,该层由2048个神经元组成。训练集中的每幅图像经特征提取层之后都用一个2048维度的特征向量作为遥感图像的中间特征表示;
(2)训练哈希网络。哈希网络f的主要目标是训练一个语义保留的度量空间,最大程度上保留输入图像组之间的语义相似性,其映射关系为R2048→RK。哈希网络主要由三个全连接层组成,三个全连接层分别有1024、512和K个神经元,K是所需哈希码的位数,训练时对全连接层的权重进行随机初始化,其中前两层使用Leaky ReLU非线性激活函数,允许负梯度在反向传递过程中流动,并在最后一层中使用sigmoid函数激活,以限制网络输出范围为[0,1]。将Inception Net提取的2048维遥感图像维特征向量:G={g1,g2,…,gP},gi∈R2048作为哈希网络的输入,然后从度量空间语义保留和哈希码独立有效性两方面来设计损失函数,最后通过随机梯度下降优化算法训练网络,从而得到一个较好的哈希映射网络。
图7-11 三元损失函数的直观效果图
为了将最终的实际激活值推向sigmoid的两端0或1,MiLaN采用了第二个损失函数Lpush,将其定义为一个批次尺寸内哈希网络输出的激活值和0.5的平方差之和,通过最大化Lpush保证哈希码的二值有效性。
此外,MiLaN采用第三个损失函数LBalancing保证哈希编码的平衡性,具体做法是鼓励每个输出神经元以50%的概率生成0或1,从而使得编码以后的所有哈希位中为0和为1的数量比较均衡,以保证熵最大,哈希编码性能最好。LBalancing的定义如下式所示:
将以上三个损失函数的加权和定义为哈希网络f最终的目标函数L:(www.xing528.com)
式中,a1、a2表示对应的损失函数的权重。
(3)哈希模型训练好之后,对于输入图像,将哈希网络f的最后一层输出进行简单的阈值化处理得到二进码,记作b=h(f(g)),如下式所示:
检索时,计算查询图像Xq和候选图像之间的汉明距离,并将结果按距离值排序,返回排名前k的图像集作为检索结果。
图7-12给出3组基于MiLaN方法的遥感图像的检索结果。以UCMD、AID和NWPURESISC45作为数据集,分别选择密集住宅(dense residential)、沙滩(beach)和梯田(terrace)作为查询类别。检索结果充分验证了MiLaN用于遥感图像检索的优越性,这是因为学习到的哈希码不仅保证了度量空间的语义性,还考虑到哈希码的有效性和均衡性。
图7-12 基于MiLaN的遥感图像检索结果(1)
图7-12 基于MiLaN的遥感图像检索结果(2)
表7-4对典型的深度哈希学习用于遥感图像检索时的遥感性能进行了对比分析。其中,LSH、KSH、KULSH属于无监督哈希方法,其余的则属于监督哈希方法,MiLaN(E)表示未对MiLaN最终的实值特征进行如式(7.22)所示的阈值化处理。实验环境配置为:Python 2.7,Tensorflow 1.2.0,Scipy 1.1.0,Pillow 5.1.0;实验参数设置为:a=0.2;a1=0.001;a2=1;M=30。采用mAP作为评价指标。可以看出,总体而言,监督哈希方法检索性能优于无监督哈希方法,深层哈希方法优于浅层哈希方法。MiLaN与其它深度哈希方法(如DHN、DPSH和DHNN)相比性能更好。MiLaN与MiLaN(E)相比,由于减少了量化处理带来的信息丢失,MiLaN(E)的检索精度比MiLaN略有提升,但是显然MiLaN在检索效率方面具有明显优势。总之,结果充分证明了MiLaN哈希网络的设计保证了深度语义哈希网络学习的特征可以很容易地被二值化,同时更好地保留了原始图像空间中的语义相似性。图7-13所示的性能对比曲线图反映了当K分别为32位、64位和96位时,返回不同数量图像时的检索精确率,同样充分体现了MiLaN在遥感图像检索中的优越性能。
表7-4 典型的深度哈希学习方法用于遥感图像检索的性能对比分析(mAP@20:%)
图7-13 典型的深度哈希学习方法用于遥感图像检索的性能对比曲线图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。