在对抗深度学习模型的过程中,按照攻击者对目标模型的内部细节了解程度,可以分为白盒攻击、黑盒攻击和灰盒攻击,其中主要分为白盒攻击和黑盒攻击。这两者的区别在于白盒攻击者能够获得深度学习模型的参数架构和训练集等信息;黑盒攻击者则受到更多约束,往往只能通过查询来访问模型,并且只能获得模型的分类结果而无法获取其他任何信息,相对应的攻击难度也大幅提升。目前白盒对抗样本的生成方法已经发展得比较成熟,即攻击者在对想要攻击的目标模型有充分了解的前提下,通过获取目标模型的参数、结构和训练数据等信息来实现攻击,这种攻击可以达到很高的成功率。但由于深度学习的应用往往是远程部署,只能有访问权限而得不到详细的内部信息,所以在实际情况下白盒攻击的实用性并不高。因此,对于攻击深度学习模型而言,黑盒攻击更加符合现实情况。尽管如此,在对抗过程中,针对白盒的攻击方法仍然是很多黑盒攻击的技术基础。白盒攻击,是指攻击方知道被攻击方模型包括模型架构、模型权重、模型梯度和激活函数等在内的所有内部信息,以及被攻击方模型的训练集,攻击方在生成对抗样本时,需要使用这些已知的模型内部信息去计算相应的数值。
相对白盒攻击而言,黑盒攻击在生成对抗样本时所能利用的信息量少之又少。在黑盒攻击中,攻击方获取不到被攻击方模型的内部信息,也获取不到被攻击方模型的训练集,只能获取被攻击方模型的输出,并且攻击方只能通过利用被攻击方模型输出的信息来生成对抗样本。黑盒攻击的具体特性可以归纳为以下五点:
(1)无法获取模型的网络架构,也不知道模型的层数、激活函数、模型的权重和偏置等信息。
(2)无法获取模型的梯度和logits 层数据。
(3)无法获取模型的训练集以及相关的训练信息。
(4)有限的查询次数。在生成对抗样本的过程中,不能使用类似的图像对模型进行无限次数的查询,否则会引起被攻击方的警惕,从而提升后续攻击的难度。
(5)对于黑盒分类模型,假定只能获取黑盒分类模型返回的top − 1 分类标签及置信度;对于黑盒目标检测模型,假定只能获取黑盒目标检测模型返回的对所能检测出来的所有物体的定位信息以及这些物体对应的top − 1 分类标签和置信度。
灰盒攻击,是指攻击方在生成对抗样本时所需的信息量介于白盒攻击和黑盒攻击之间的一种攻击方式。在此情况下,攻击方只有知道被攻击方模型的训练集或者被攻击方模型的部分内部信息,才能生成对抗样本。
相对白盒攻击和灰盒攻击而言,黑盒攻击在生成对抗样本时所需的信息量是最少的,因此黑盒攻击的困难度在这三种攻击中是最高的。黑盒攻击是最贴近于真实场景的一种攻击方式。在真实环境下,被攻击方模型的内部信息只有内部人员了解,外围人员很难窃取,攻击方一般只能获取被攻击方模型针对不同输入的输出信息。因此白盒攻击和灰盒攻击在真实环境下是不可取的,只能采取黑盒攻击的方法进行攻击。
另外,依据攻击的目的/效果不同,可以将对抗深度学习模型分为目标攻击或者靶向攻击,以及非目标攻击或者非靶向攻击。靶向攻击也就是对于被攻击样本的错误分类方向有限制,需要在使其错误分类的基础上能够被错误分类为攻击方所指定的分类标签。目标对抗样本是通过目标攻击所形成的样本,将精心构造的样本输入分类模型后,分类模型能够以较高的置信度将输入样本分类为指定类别。非目标攻击或者非靶向攻击,就是对于被攻击样本的错误分类方向没有限制,只需要达到错误分类的目标。非目标对抗样本是通过非目标攻击形成的样本,将精心构造的样本输入分类模型后,输入样本只要不被分类模型分类为真实类别即可,输入样本可以被分类模型分类为其他任意类别。(www.xing528.com)
在攻击难度比较上,由于目标对抗样本在生成的过程中要一直保持住目标类这一个标签,而非目标对抗样本在生成的过程中只要不被分类模型分类为真实类别即可,无须固定为一个指定的标签,因此在攻击分类模型时,目标攻击相比非目标攻击要难一些。
目前,对于白盒攻击的方法相对较多、较成熟。
Szegedy 等人最先提出了简单界约束 L − BFGS(Large BFGS,BFGS为主要研究人员的名字首字母)攻击;而后,Goodfellow 等人[29]提出了基于梯度的快速梯度下降法(Fast Gradient Sign Method,FGSM);接着,Kurakin 等人[33]在FGSM 的基础上提出了基于迭代的Iterative Fast Gradient Sign Method(I − FGSM)攻击方法,此方法提高了攻击成功率;后续,Dong等人[34]基于I − FGSM 提出了基于动量的迭代攻击方法Momentum Iterative Fast Gradient Sign Method(MI − FGSM),从而使对抗样本更加稳定和快速地生成;Papernot 等人[35]提出了基于雅可比的显著性特征图攻击方法(Jacobian- based Saliency Map Attack,JSMA);随后,Carlini 和 Wagner 等人[36]提出了能生成高置信度对抗样本的攻击方法Carlini and Wagner attack(C&W)。
对于黑盒攻击的方法相对较难,有基于转移性的攻击、基于决策边界的攻击等方法。
(1)替代模型攻击方法[31,37,38],也就是基于转移性的攻击。早期,Papernot 等人提出了通过构建替代模型的方法,然后在替代模型上使用白盒攻击的方法生成对抗样本,进而对黑盒模型进行攻击。替代模型的训练过程:将替代模型的训练集图像信息输入黑盒模型后,记录其对应的输出标签,然后对替代模型进行训练。其缺点有:一方面,攻击方在不知道对方模型使用何种架构、网络模型有多少层以及具体有多少网络参数的情况下,较难对目标模型进行准确模拟;另一方面,当对方模型有所改变后,基于替代模型生成的对抗样本会在成功率上大打折扣,如果对方模型的改动较大,则严重时会导致替代模型完全失灵。
(2)单像素攻击。Su 等人[39]提出了一种名为One Pixel Attack(单像素攻击)的攻击方法,从名称上可以看出,这种攻击方法的特点是只修改干净样本中的几个甚至一个像素点即可完成攻击。Su 等人声称这种攻击方法能够使 73.8%的测试图像在只修改一个像素点的情况下以平均 98.7%的置信度成功生成对抗样本。他们每次通过随机修改像素点来生成新的图像,经过多次迭代后,将最后存活的最优图像作为最后的对抗样本。图3 − 2 − 1展示了通过仅修改一个像素即可完成的目标攻击,括号内为目标类别,括号外为原始类别。但是,单像素攻击基本只对包含较少像素信息的图像可行,如CIFAR − 10 数据集和MNIST 数据集中的图像,而对于ImageNet 数据集中信息量比较大的图像则显得力不从心。
(3)决策边界攻击(Boundary attack)。Wieland Brendel 等人[40]提出了基于决策边界的Boundary attack 攻击方法,这是一种完全依赖于模型最终决策(如黑盒模型返回的top − 1 分类标签)的直接攻击。对于目标攻击而言,虽然此论文并没有给出每生成一张对抗样本所需的平均查询次数,但从论文中给出的具体案例以及随着查询次数的增加当前样本与原始图像(即干净样本)的 L2 距离(正则范数)逐渐减小的曲线来看,平均每成功生成一幅对抗样本的查询次数在10 万次左右。对于非目标攻击而言,此论文也并未给出具体的数值,只给出了一个具体案例,但并未对此案例的难易生成程度作声明,因此无法仅根据这一案例对所有案例做出综合评估。但此方法在生成对抗样本时所需的黑盒模型查询次数比较多。将相似图像在黑盒模型上查询的次数越多,也就意味着被发现的概率越大。此外,查询次数越多,对抗样本的生成时间就越长。
图3−2−1 基于 One Pixel Attack 的目标攻击
(4) NES + PGD。NES 是一种进化计算方法,即自然进化策略[41]。Ilyas等人[42]提出了使用Projected Gradient Descent(PGD)和Natural Evolutionary Strategies(NES)梯度估计的方法实施黑盒攻击,此方法不需要使用替代模型,且比基于有限差分的方法速度快2~3 倍。在真实场景中,攻击者不可能获取黑盒模型返回的全部信息,基于此情况,他们表示仅通过黑盒模型返回的部分信息(黑盒模型返回的top − k 分类标签及其置信度)就可以生成目标对抗样本,并且能够有较高成功率。使用此方法既可以进行目标攻击,又可以进行非目标攻击,并且在 CIFAR − 10 和 ImageNet 数据集上都适用。该方法在进行目标攻击时,通过使用黑盒模型返回的top − 10 分类标签以及置信度,能够做到在平均每幅图像查询黑盒模型 104 342 次的情况下,有95.5%的对抗样本成功生成,且平均置信度为89%。虽然该方法在生成对抗样本的过程中仅使用了top − k 分类标签及置信度,但是所使用的信息量还有下降的空间。总体来看,该方法在成功生成对抗样本时所需查询黑盒模型的次数较多,成功率有一定的提升空间,成功生成的对抗样本的置信度也有上升空间。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。