AI换脸技术发展史：从Deepfake到2023

发布时间：2023-12-03 08:35:01源自：http://www.sporj.com阅读

自人工智能（AI）技术出现以来，图像和视频伪造便已成为可能。然而，近年来，这种伪造技术取得了惊人的进步，尤其是在深度伪造（Deepfake）方面。深度伪造是一种利用深度学习算法创建看似真实但实际上是伪造的图像和视频的技术。在这篇文章中，我们将探讨深度伪造的历史，从其起源到最近的进展，并深入分析其影响以及可能的未来发展方向。

AI伪造图像与视频，即Deepfake，在近年迎来了发展的高潮。本文将深入探究这段历史，并回顾其中的一个个重要里程碑。上图中的人脸有何共同之处？答案是：它们均由AI虚构而成。更具体地说，这些伪造图像背后所依托的是“生成对抗网络”（GAN技术）。这类网络由两个AI代理组成：一个负责伪造图像，另一个负责检测图像的真实性。如果代理发现伪造品，那么伪造AI会进一步提升自己的水平，持续改进。

通过这种方式，两个代理在训练过程中各自积累了更强大的能力。因此，伪造AI最终能够创造出难以辨别真伪的虚构图像。GAN技术与GAN，二者有着明显的区别。在实践中，原始GAN的输出结果与当前GAN变体的输出结果实际上有很大不同。近期，苹果公司的AI负责人Ian Goodfellow在Twitter上发表了一篇文章，谈到了这一问题。

Deepfake 技术的发展历程

Goodfellow 是公认的首位 GAN (Generative Adversarial Network) 过程发明者。他在近年来推动了深度fake 技术的快速发展，这种技术在过去几年中得到了显著的发展。

GAN 的发展历程可以从 Goodfellow 和他的同事发表的全球首篇关于 GAN 的科学论文中得以清晰地看到。GAN 的出现催生了我们现在所熟知的 deepfake 技术。早在 2014 年，研究人员就开始尝试将 GAN 与经过图像识别优化的多层卷积神经网络（CNN）相结合。CNN 能够在显卡上高效运行，并且可以并行处理大量数据。这一结合取代了传统的 GAN 代理驱动网络，提高了生成结果的可信度。随着卷积网络结构的不断复杂化，生成的伪造人脸也越来越可信。然而，2015 年时，写实风格的人脸生成仍不完全可靠。

研究人员随后将两个 GAN 结合在一起，实现了不同网络代理之间的信息共享。通过这种方式，代理可以并行学习，同时稍微修改学习数据。例如，一个代理可以分别生成戴太阳镜和不戴太阳镜的人脸。虽然生成的人脸变得更加可信，但“一眼假”的情况仍然存在。为了进一步提高 deepfake 技术的可靠性，研究人员引入了耦合机制，使得代理之间可以共享信息并进行并行学习。

GAN（Generative Adversarial Network）使得伪造者可以戴上太阳镜或佩戴珠宝首饰。然而，这些伪造人脸仍存在许多瑕疵，即“一眼假”问题依然存在。英伟达的研究人员成功解决了一个GAN的主要问题，从而推动了质量的重大飞跃。因为随着图像分辨率降低，检查代理的难度增加，生成代理通常会输出模糊不清的图像。这表明AI也相当狡猾。

英伟达提出了一个解决方案：分阶段训练网络。伪造AI学习如何创建低分辨率的图像。然后，逐步提高分辨率，使GAN具有高分辨率生成能力。这种方法逐渐培养出了质量前所未有的伪造人像。尽管这些图像仍存在一些缺陷，但在仔细观察的情况下，已经很难立即辨别真假。在2017年，生成的 faceset 人脸已经远远超过了原来的水平，其中一些甚至达到了难以区分真假的程度。

与此同时，英伟达正在继续改进其GAN。而在Reddit上，一位用户“deepfakes”已经开始将这项技术推向主流。2017年秋季，我们看到了第一张以“deepfake”命名的色情图片，该图片把色情女演员的脸部替换成了其他知名女性的脸部。由于制作成本极低，深 fake 色情视频在网络上迅速传播开来。

在线平台上，观众可以观看这些暴露且稍显诡异的色情视频。美国著名女演员斯嘉丽·约翰逊成为了AI色情片中的常客，后来这种互联网风潮被称作“黑暗虫洞”。面对这一事件，英伟达的研究人员再次介入并提升了GAN的控制能力：他们现在能够针对单一图像特征进行调整，如人像中的“黑发”和“微笑”等元素。通过这种方式，可以将训练图像中的特征有针对性地转移到AI生成的图像中。这种方法被称为“风格转移”，成为许多后续AI研究项目的重要部分。

网络转移可用于控制图像AI，例如只创建微笑着的人像。当然，GAN原理不仅适用于人像，因为AI本身并不关心输出的具体像素结构。它只需要相应的训练数据。2018年底，AI巨头DeepMind展示了由AI生成的食物、风景和动物图像，画面内容看起来相当逼真、令人印象深刻。Deep Video Portrait软件试图利用GAN改进视频处理能力，因此首个研究DeepFake的YouTube频道正式上线：这次产生的不再只是伪造的色情片，包括政治名人或好莱坞大牌的“魔改”版本逐一亮相。到这个时候，人们开始讨论AI是否可以“复活”那些已故的演员。

与此同时，DeepFake色情片也开始走向衰落：2018年第一季度，Pornhub、Twitter、Gfycat和Reddit等对这类内容的监管加强，导致其用户数量下降。

等各大平台纷纷出台限制此类视频的政策。许多常用的 Deepfake 应用程序也随之下线。三星公司的研究人员公布了一种能够深度伪造人类和艺术品的 GAN。例如，研究人员成功将蒙娜丽莎的微笑修改成了“大笑版”。更重要的是，只需要参考几张照片，三星的 deepfake AI 就能实现出色的伪造效果。几个月后，以色列研究人员又推出了换脸 GAN（FSGAN）。这套 AI 模型能够对实时视频中的人脸进行实时交换。虽然这款新 AI 已能直接交换人脸，但在质量上仍无法与经过精心训练的 deepfake 模型相媲美。

立法机构开始介入。面对即将到来的 2020 年美国大选，伪造视频的迅速传播让美国立法者感到担忧。美国国会议员、情报委员会以及 AI 和法律领域的专家纷纷警告称 deepfake 已经泛滥成灾，并呼吁应尽快制定相关法规。Twitter 成为首个针对 deepfakes 采取新措施的社交平台，并强调：Twitter 希望准确标记可疑推文，向用户展示警告信息。

除了美国之外，其他国家的也相继表明立场。我国将 AI 伪造视为犯罪行为，而德国则发表声明称：“Deepfakes 有可能会削弱整个社会对于音频和视频记录真实性的基本信任，从而降低公共信息的可信度。”虽然这种行为确实存在一定的风险，但不应对其风险程度过分夸大。

就在 2020 年初，随着 Deepfake 技术的不断发展，其在网络上的应用越来越广泛。从最初的恶意攻击到如今被用于创作艺术作品，Deepfake 技术已经引起了广泛的关注。然而，与此同时，我们也应该看到，Deepfake 技术并非全然有害。通过合理利用，它可以帮助我们更好地理解和欣赏艺术，甚至有可能为医疗诊断提供新的途径。

因此，我们需要在推动技术发展的同时，加强对其使用的监管。只有这样，才能确保 Deepfake 技术能够在安全、可控的环境中发挥其应有的作用。

在2020年美国总统大选之际，Facebook宣布在自家平台全面禁止Deepfakes，但讽刺或戏仿性质的Deepfakes除外。同年8月，TikTok也开始在其视频平台上封禁Deepfakes。尽管如此，Deepfake技术仍在不断进步。例如，微软推出的FaceShifter可以利用模糊的原始图片，生成高度可信的Deepfake图像。FaceShifter依赖两套网络，一套负责创建伪造人脸，并将原始照片内的头部姿势、面部表情、照明条件、颜色、背景及其他属性引入假图像；另一套网络HEAR-Net则将前面生成的照片与原始照片进行比对。如果HEAR-Net发现图像中存在头发、太阳镜或文字被脸部遮挡的部分，就会出手修改这些错误，确保各个元素之间拥有正确的位置关系。

Deepfake的效果非常逼真，以至于娱乐巨头迪士尼也开始为电影制作开发Deepfake技术。迪士尼正在尝试利用Deepfake技术制作百万像素级的深度伪造影像，以提升电影的视觉效果。

工具也随之诞生。它能生成 1024 x 1024 像素的图像，这项专利一举将 DeepFaceLab 等同类工具的 256 x 256 分辨率远远甩在身后。即便到了 2021 年初，DeepFaceLab 2.0 的最大分辨率也只能支持 448 x 448。从长远来看，迪士尼的 Deepfake 技术有望取代传统特效制作方法，消除以往那种几秒钟的画面需要数月时间渲染的困境。迪士尼粉丝们对这项技术充满期待。最近开播的星战剧集《曼达洛人》尚未采用百万像素的 deepfake 新功能，但在 YouTube 上，关于相同场景的 deepfake 视频在效果上已经超过了迪士尼的 CGI 艺术家们。不久之后，Wombo AI 应用彻底征服了网络：只需点击几下，我们就能将任何人物照片制作成一段简短的视频片段，人物在其中会表演著名歌曲。Wombo AI 是通过学习真实表演者的录制视频而获得知识的，然后将照片人物的脸与原始演唱者的表情进行匹配，从而完成视频制作。- heyben10 (@HeyBen10_) 2021 年 3 月 10 日

迪士尼还聘请了一位在 YouTube 上知名的 Deepfake 主播，因此民间传言，未来其影视剧集中肯定会出现更多的 deepfake 角色。实际上，2021 年底发布的《波巴费特》剧集证实了这些猜测。在社交与大众媒体中，deepfake 技术已经成为一种流行的创作手段。

除了迪士尼外，布鲁斯·威利斯的面孔也出现在一则俄罗斯商业广告中。一家初创公司获得了其真实人脸的许可权，并使用Deepfake技术将其转化为营销内容。英伟达在2021年发布了Alias-Free GAN，这是StyleGAN2的改进版，能在视角变化的情况下提供更一致的生成效果。几个月后，优化版的StyleGAN3也很快面世。DeepFaceLab的创始人则在2021年首次展示了DeepFaceLive。这款程序可以在经过适当训练或接收预训练AI模型后，实现在实时视频中交换人脸。然而，要实现这种实时换脸功能，用户需要一块支持3A游戏大作的高端显卡。2021年，所谓的扩散模型在图像质量上首次追平了之前风头无两的GAN。尽管这项技术尚未应用于Deepfake，但它已成为2021年年底推出OpenAI GLIDE图像生成工具的基础。今年1月，两项引人注目的GAN改进也相继亮相。特拉维夫大学的AI研究人员展示了一种能够轻松操控短视频中人脸风格的StyleGAN2变体，如让其微笑或让角色变瘦，且无需额外训练。同时，英伟达和斯坦福大学的研究人员提出了高效几何感知3D生成对抗网络（EG3D）的实现方法。利用这种方法，AI可以基于不同视角生成高度匹配的3D模型。

生成统一的人物（或小猫图像）。与之对应，3D GAN 也能利用一张真人图像还原出 3D 模型。因此，EG3D 生成的伪造图像更加逼真，因为它生成的人物在不同视角下能够始终保持一致。2022 年，斯坦福互联网天文台的研究人员在为期两周的研究中，从 LinkedIn 处发现了 1000 多份可疑的个人伪造资料。超过 70 家企业将这些伪造资料认证为真实人物，其中大部分被认定为值得跟进的潜在客户。而一旦实效联络成功，就会有真人及时介入、以伪造人物之名继续沟通。2022 年 4 月，OpenAI 推出了 DALL-E 2，这是一套能够利用文本描述生成图像的 AI 系统。项目完整版预计将在 2022 年夏季发布。DALL-E 2 及其底层扩散模型并未被用于 deepfake，OpenAI 也明确禁止使用此技术生成人脸。然而，这项技术未来肯定能够进一步提升合成图像的最终质量。

转载请注明: http://www.sporj.com/shenghuobaike/3839.html

上一篇：萝卜网提供全方位互联网职业培训,助力编程技能提升"

下一篇：韩妆市场复苏：成功开拓欧美市场的新篇章？