深度合成检测分析关键在于发现利用各种能够揭示特定痕迹的特征,而且深度合成的检测方法也是随着深度学习的技术发展而不断演化。在深度合成最初引起公众关注时,基于人脸生物特征的检测方法发挥了重要作用,该方法是根据图像或视频中人像的人脸生物特征与正常人类的差异来进行判断。如部分深度合成的人脸很少出现眨眼这一生物特征,而且眼球运动不够自然,问题的原因并非来自算法本身,更多的是它使用的数据集大多只有睁眼的图像而很少有闭眼的图像,因此,深度学习算法学会“眨眼”的概率就几乎为零。健康成年人的眨眼频率是每隔2~10秒一次,一次眨眼约耗费0.1~0.4秒。针对深度合成的这一弱点,通过检测视频中人员是否眨眼或者眨眼的频率成为一种有效的检测方法。除了检测眨眼这一生物特征以外,还可以将头部姿势是否连续自然,双眼颜色是否一致,牙齿缝隙是否可见等作为检测特征。基于生物特征的检测方法在早期取得了较好的检测效果,也推动了深度合成技术的发展。
另一类针对深度合成的检测方法关注于人脸区域与其他区域的图像统计特性差异。如2017年,Koopman等学者借鉴传统的图像合成检测分析方法,提出了一种基于光响应不一致性(PRNU)的检测方法。PRNU是一种源于数码相机的感光传感器的出厂缺陷的噪声模式。各个数字相机的PRNU之间存在差异性,因此PRNU通常被视为数字图像的指纹。由于深度合成会改变视频帧中人脸区域的局部PRNU,所以可以作为检测的特征。该方法首先将视频拆分为帧,并裁剪合成的人脸区域。然后将裁剪的帧按照顺序分为八个组并为每个组计算平均PRNU。分析结果表明原始视频和合成视频可以根据其各分组间标准化互相关系数的差异进行区分。2018年,Zhang等人使用Bag-of-words法提取人像面部64维SURF(Speeded Up Robust Features)特征,并将其输入支持向量机、随机森林和多层感知器等分类器进行测试,以区分交换的面部图像和原始图像。该类方法的特征设计和提取主要依赖人工经验手工设计,因特征提取和分类器训练单独进行,无法保证二者同步优化。
深度合成是深度学习技术的产物,利用深度学习技术来发现深度合成的痕迹无疑也是一种以子之矛、攻子之盾的有效方法。现有的深度合成检测方法越来越依赖于深度学习技术,利用深度合成视频、图像等数据集训练各种新型的深度神经网络模型,实现特征提取并构建分类器。
2018年,MoHuaxiao等人借鉴在图像隐写分析中使用的三个高通滤波器(图8-8)对图像进行预处理,通过包含三个卷积层和两个全连接层的CNN实现对一种基于GAN的合成人脸图像集进行测试,对256×256分辨率人脸图像的检测准确率超过99%。
图8-8 三个高通滤波器
2018年,Afchar等人认为对于深度合成人脸视频,图像底层的信息会因为视频的压缩而弱化,而图像高层的语义信息则过于相似,均不适合深度合成视频的检测,进而设计了四层的CNN网络,提出了关注于眼睛和嘴巴部位等肉眼可见特征的检测方法MesoNet(图8-9),并结合Inception结构进行改进,抽取了中间层的特征进行决策的MesoInception-4(图8-10)。由于MesoNet与MesoInGception-4网络层数较少,因此其在满足检测性能的同时,参数数量也少于ResNet-50、XceptionNet等深度神经网络,具有一定的优势。
图8-9 MesoNet网络结构
图8-10 加入Inception的网络结构
深度合成视频通常需要基于人脸仿射变换技术(如缩放和旋转等)将新的人物角色准确匹配到原始视频,因而可能致使合成视频的面部区域与周围图像之间的分辨率存在不一致的情况。2019年,Li等学者提出一种基于面部变形导致视觉伪像特征的检测模型,根据扭曲的面部区域与周围图像之间的分辨率不一致性特性,结合UADFV和DeepFake-TIMIT数据集利用VGG16和三种ResNet网络进行训练和检测,表明基于ResNet网络的检测方法更加有效。(www.xing528.com)
上述研究可以看做对卷积神经网络结构进行优化,主要还是依赖一路神经网络进行检测,还有学者考虑了更多的检测特征,设计了多路网络的检测框架,如2018年,Zhou等人提出一个双流模型来检测人脸图像(图8-11),其中一个支路使用CNN捕捉图像中的视觉合成痕迹,另一个支路利用隐写特征分析技术提取底层的噪声残差特征并使用支持向量机进行分类,最后融合两个支路的识别结果进行综合决策。
2019年,Chih-ChungHsu等人提出一种包含Dense模块的孪生网络检测深度合成图像,利用成对学习得到的对比损失提高网络的泛化能力,在利用五种GAN制作的深度合成图像集中进行测试的准确率均超过90%(图8-12)。
图8-11 双流检测模型
图8-12 基于孪生网络的成对学习框架
2020年,陈鹏等人提出了一种整合局部空间特征和全局时序特征的深度合成检测方法,采用卷积神经网络CNN发现单个视频帧中的空间合成痕迹,结合LSTM网络捕捉视频帧之间的时序合成痕迹。如图8-13所示,其框架由图像特征提取模块、全局时序特征分类模块和局部空间特征分类模块组成,其中的GAP代表全局平均池化,FC代表全连接网络。使用由全局时序分类损失和局部空间分类损失两部分组成的交叉熵损失函数进行计算。其实验结果也验证了视频中的全局时序信息和五官区域的局部细节信息对深度合成检测具有重要作用。
自2018年以来,在深度合成检测领域涌现了包括CNN、GAN、LSTM等深度学习技术的一系列成果,这些研究主要创新点在于:①在检测图像中设计或引入了隐写领域提出的SRM等高通滤波器实现对细微伪造信息的有效计算;②引入ResNet、Inception、Xception、孪生网络等各种新型网络结构或增加多条支路改进特征提取模型;③针对已有数据集的缺点不断完善训练数据。相对于传统检测方法,基于深度学习的检测技术对训练数据通过各种方式进行了扩充,深度网络模型不断改进,特征学习更加自主,各类检测性能有了明显提升,也表明深度学习技术在此领域的巨大潜力。
图8-13 融合全局时序和局部空间特征的检测框架
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。