深度合成检测可归纳为一个原始图像/视频与合成内容的二分类问题,需要大量的数据训练分类模型,算法性能的优劣与采用的数据集密不可分。深度合成技术产生的时间较短,数据集规模自然无法与ImageNet等数据集相提并论,但在学术界和企业界的共同努力下,在短短的两三年时间内,依然涌现了一批典型的深度合成数据集,为检测技术提供了较好的训练平台和测试基准,也推动了深度合成检测技术的发展。除前面介绍的深度合成检测挑战赛的数据集(DFDC)外,还包括UADFV、DeepFake-TIMIT、FaceForensics++、Celeb-DF和DeeperForensics-1.0等数据集。
(1)UADFV。2018年被提出的UADFV数据集可以看作第一批数据库。该数据集包含98个视频(总共32752帧),分为49个真实视频和49个合成视频。49个真实视频来自YouTube,这些视频再被用来通过FakeApp手机应用制作了49个深度合成视频。每个视频代表一个个体,典型分辨率为294×500像素,平均时长约11秒(图8-3)。
图8-3 UADFV数据集示例
(2)DeepFake-TIMIT。DeepFake-TIMIT数据库是由瑞士Idiap研究所的Korshunov和Marcel在澳大利亚昆士兰大学构建的VidTIMIT音频视频数据库基础上构建的。VidTIMIT数据库包含43个对象,每个对象拍摄了13段真实视频,DeepFake-TIMIT数据库从VidTIMIT数据库中选择16对肤色和光照差异相近的人物视频,基于多任务级联卷积网络方法MTCNN进行更稳可靠的人脸检测和对齐,使用开源的Faceswap-GAN方法创建了合成视频。制作的视频考虑了两种不同的分辨率,分别为64×64的低质量图像和128×128的高质量图像,合计620个合成视频(图8-4)。
图8-4 DeepFake-TIMIT数据集示例
(3)FaceForensics++。FaceForensics++是第一个大规模人脸合成数据集,由德国慕尼黑工业大学视觉计算组构建,数据库包括由DeepFakes、Face2Face、FaceSwap和NeuralGTextures共四种方法伪造的4000个合成视频和1000个来自YouTube的真实视频。其中,Deepfake视频是基于自编码器模型的Deep-Faceswap方法实现的深度合成视频,使用H.264编解码器分别合成压缩率0、压缩率23和压缩率40三种不同压缩程度的视频。随后,在Google的支持下,FaceFo-rensics++中加入了一个名为Deep Fake Detection数据集。该数据集包括来自16个不同场景中28个付费演员的363个真实视频,以及3068个基于FaceSwap技术实现的合成视频。
(4)Celeb-DF。Celeb-DF是Li等人在2019年中提出的一个高质量的深度合成视频数据库。该数据库包括从YouTube上提取的408个原始视频和795个合成视频,视频的主角多为好莱坞明星。这些视频是通过一个改进版本创建的开源深度合成算法,改进了合成人脸的低分辨率和颜色不一致等问题。Celeb-DF的合成视频的视觉质量要优于UADFV、DeepFake-TIMIT和FaceForensics++,观感效果类似于影视剧(图8-5)。
图8-5 Celeb-DF数据集示例(第一行为真实人脸,第二行为合成人脸)(www.xing528.com)
(5)DeeperForensics-1. 0。DeeperForensics-1.0是目前规模最大的深度合成数据集,包括50000个原始视频和10000个合成视频,共1760万帧,原始视频是由100个付费演员在各种姿态、表情和照明条件下拍摄采集的高分辨率(1920×1080)数据,与上述数据库拍摄对象不同,原始视频仅拍摄头部区域。合成视频采用其提出的DeepFake变分自动编码器方式实现。合成视频质量与Celeb-DF相仿,同样明显优于UADFV、DeepFake-TIMIT、FaceForensics++,但数据规模远大于Celeb-DF(图8-6)。
图8-6 DeeperForensics-1.0数据集示例
除了直接采用上述数据集外,用户也可以利用DCGAN、WGAN、WGAN-GP等生成对抗技术结合已有的图像库或视频自行制作数据集,但时间成本较高。
目前,构建数据集的主要挑战是缺乏高质量的视频素材。大多数公开可用的视频都是较为随意的条件下拍摄,从而导致合成的人物角色前后形成较大变化,尽管某些被变换的视频较为真实,但仍有大量可通过人眼轻松分辨的合成视频,如图8-7列出了四个数据集中肉眼可轻易辨别的部分视频截图。
图8-7 合成质量较差的示例图像
DeeperForensics-1. 0的研究人员聘请了100名从事计算机视觉研究工作的专业人员参与分辨合成视频,以评价各种数据集的质量。参与者观看从每个数据集中随机选择的30个视频剪辑,然后记录他们对“视频剪辑看起来是真实的”这句话的反馈,并给出五个层次的分数。其测试结果表明,即便是合成质量最好的两个数据库DeeperForensics-1.0和Celeb-DF,仍有相当大比例的视频看起来不像真实的。可见,在现实应用中基于上述数据集训练深度检测模型仍有一定局限性,也影响相关检查分析技术的发展,对比表8-1可知,构建高质量、大容量、多样性的数据集依然任重而道远。
表8-1 深度合成数据集基本信息
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。