沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

深度信息可以实时揭示深度伪造(Deepfake)

2022-08-25 09:47:324636

深度信息可以实时揭示深度伪造

来自意大利的新研究发现,从图像中获得的深度信息可以成为检测深度伪造的有用工具——即使是实时检测也是如此。

鉴于过去五年中对深度伪造检测的大部分研究都集中在伪影识别(可以通过改进技术来缓解,或者被误认为是较差的视频编解码器压缩)、环境照明、生物特征、时间中断,甚至是人类本能,这项新研究首次表明深度信息可能是深度伪造内容的宝贵密码。

派生深度图的示例,以及真实和虚假图像之间感知深度信息的差异

派生深度图的示例,以及真实和虚假图像之间感知深度信息的差异。

至关重要的是,为新研究开发的检测框架在Xception等轻量级网络上运行良好,在MobileNet上运行良好,并且新论文承认通过此类网络提供的低延迟推理可以实现针对实时深度伪造欺诈的新趋势,例如最近对Binance的攻击。

由于系统不需要全彩色图像来确定假深度图和真实深度图之间的差异,因此可以实现更大的推理时间经济性,但可以仅在深度信息的灰度图像上高效地运行。

作者说:“这一结果表明,在这种情况下,深度比颜色伪影对分类的贡献更大。”

这些发现代表了针对DeepFaceLive等实时面部合成系统的新一波深度伪造检测研究的一部分——在FBI3月份发出警告之后,这一努力在过去3-4个月内显着加速。实时视频和音频深度伪造的风险。

这篇论文的标题是DepthFake:一种基于深度的检测深度伪造视频的策略,来自罗马Sapienza大学的五位研究人员。

边缘案例

在训练过程中,基于自动编码器的深度伪造模型优先考虑面部的内部区域,例如眼睛、鼻子和嘴巴。在大多数情况下,在DeepFaceLab和FaceSwap等开源发行版中(均源自2017年Reddit删除之前的原始代码),面部的外部轮廓直到训练的后期才变得清晰,并且不太可能匹配内面部区域的合成质量。

从之前的研究中,我们看到了面部“显着性图”的可视化

从之前的研究中,我们看到了面部“显着性图”的可视化。

通常,这并不重要,因为我们倾向于首先关注眼睛并优先考虑,在注意力水平下降时“向外”意味着我们不太可能被这些外围质量下降所困扰——尤其是当我们在现场与伪造另一个身份的人,这会触发我们评估“渲染”深度伪造镜头时不存在的社会惯例和处理限制。

但是,可以通过算法检测到深度伪造人脸受影响边缘区域缺乏细节或准确性。3月,发布了可在外围面部区域进行按键操作的系统。但是,由于它需要高于平均水平的训练数据量,因此它仅适用于可能出现在流行的面部数据集(例如ImageNet)中的名人,这些数据集在当前计算机视觉和深度伪造检测技术中具有渊源。

相反,名为DepthFake的新系统可以通过区分真实和虚假视频内容中估计的深度图信息的质量,甚至在模糊或未知的身份上进行通用操作。

深入

深度图信息越来越多地融入智能手机,包括对计算机视觉研究特别有用的人工智能辅助立体实现。在这项新研究中,作者使用了爱尔兰国立大学的FaceDepth模型,这是一种卷积编码器/解码器网络,可以有效地从单源图像估计深度图。

FaceDepth模型在行动

FaceDepth模型在行动。

接下来,意大利研究人员的新框架的管道从原始RGB图像和派生的深度图中提取对象面部的224×224像素块。至关重要的是,这允许进程复制核心内容而不调整其大小;这很重要,因为尺寸标准调整算法会对目标区域的质量产生不利影响。

利用这些来自真实和深度伪造来源的信息,研究人员随后训练了一个卷积神经网络(CNN),该网络能够根据各个深度图的感知质量之间的差异来区分真实实例和伪造实例。

DepthFake的概念管道。

DepthFake的概念管道。

FaceDepth模型使用混合函数在真实和合成数据上进行训练,该函数在面部外边缘提供更多细节,非常适合DepthFake。它使用MobileNet实例作为特征提取器,并使用480×640输入图像进行训练,输出240×320深度图。每个深度图代表新项目鉴别器中使用的四个输入通道的四分之一。

深度图会自动嵌入到原始RGB图像中,以提供现代智能手机相机可以输出的充满深度信息的RGBD图像。

训练

该模型是在已经在ImageNet上预训练的Xception网络上训练的,尽管该架构需要一些调整以适应额外的深度信息,同时保持权重的正确初始化。

此外,深度信息与网络预期值之间的值范围不匹配,研究人员必须将这些值标准化为0-255。

在训练过程中,只应用了翻转和旋转。在许多情况下,模型会出现各种其他视觉扰动,以便进行稳健的推理,但在源照片中保留有限且非常脆弱的边缘深度图信息的必要性迫使研究人员采用了缩减机制。

该系统还接受了简单的2通道灰度训练,以确定源图像需要多复杂才能获得可行的算法。

通过TensorFlow API在具有8GB VRAM的NVIDIA GTX 1080上进行训练,使用ADAMAX优化器,进行25个epoch,批量大小为32。在裁剪期间输入分辨率固定为224×224,人脸检测和提取是使用dlib C++库完成。

结果

使用FaceForensic++框架针对深度伪造、Face2Face、FaceSwap、Neural Texture以及具有RGB和RGBD输入的完整数据集测试结果的准确性。

四种深度伪造方法以及整个未拆分数据集的准确性结果

四种深度伪造方法以及整个未拆分数据集的准确性结果。结果分为源RGB图像分析和具有嵌入式推断深度图的相同图像。最佳结果以粗体显示,下方的百分比数字显示了深度图信息改善结果的程度。

在所有情况下,深度通道都会提高模型在所有配置中的性能。Xception获得了最好的结果,敏捷的MobileNet紧随其后。对此,作者评论说:

'[有趣的是]MobileNet略逊于Xception,并且优于更深的ResNet50。在考虑减少实时应用程序的推理时间的目标时,这是一个显着的结果。虽然这不是这项工作的主要贡献,但我们仍然认为这是对未来发展的一个令人鼓舞的结果。

研究人员还注意到RGBD和2通道灰度输入相对于RGB和直接灰度输入的一致优势,观察到深度推理的灰度转换在计算上非常便宜,允许模型在非常有限的本地资源下获得改进的结果,促进基于深度信息的实时深度伪造检测的未来发展。