AI生成内容需“表明身份”，虚假信息将套上紧箍咒

互联网上哪些是真、哪些是假，几乎是一个永远都不会有答案的问题，因此在上网冲浪时去伪存真，可以说是当下网民的必备技能。只可惜技术进步的速度远超大家想象，在生成式人工智能（AIGC）成熟后，互联网世界的一切几乎都变得真假难辨了。

为解决泛滥的 AI 虚假内容，国家网信办等四部门日前联合发布《人工智能生成合成内容标识办法》，从今年 9 月 1 日开始，所有 AI 生成的文字、图片、视频等内容需要添加显式和隐式两种标识，其中显式标识是指可以被用户明显感知到的标识，隐式标识则是指在生成内容的元数据中添加的标识。

相比于以往由微信、抖音、小红书、微博等平台建立的 AI 内容管理体系，这一新规最大的变化就是发布者是 AI 内容的第一责任人，他们将对 AI 虚假内容负主要责任。但从某种意义上来看，让内容发布者作为第一道防火墙属于 " 不是办法的办法 "。

如今 AI 几乎已经成为了互联网最大的谣言制造机，比如 "AI 马斯克 " 骗走老人退休金、"Yahoo Boys" 使用 AI 生成的视频搞 " 杀猪盘 " 等有关黑产利用 AI 作恶的消息已经并不鲜见。黑产利用多模态 AI 大模型生成的内容以假乱真，让眼见不一定为实、耳听不一定为真。

事实上，在 AIGC 前置技术深度学习刚刚诞生不久后，就有黑产盯上了这项新兴技术。只不过彼时机器学习的局限，导致使用它的门槛相当高。最典型的例子，就是在 2017 年被 Reddit 网友发明的 deepfakes（深度伪造）技术，可即便 deepfakes 是开源的，但玩转它需要的生成对抗网络（GAN）和变分自编码器（VAE）就不是一般人能玩转的。

以 ChatGPT 为代表的 AI 大模型技术的出现，让 deepfake 进入了寻常百姓家，不再是技术爱好者的专属。以往使用深度学习技术伪造内容还需要用户在特定工具中反复调试参数，但现在一众科技巨头为了争夺 AI 时代的船票，争先恐后地推进 AI 技术普惠化。

大语言模型以及随后诞生的多模态大模型，让文生音频、文生视频已经变成了现实，诸如可灵 AI、即梦 AI 等琳琅满目的 AI 产品，就实现了用自然语言即可无中生有。别的不谈，谷歌在不久前发布的 Nano-banana 堪称直接颠覆了 Photoshop，不仅能 " 生图 "，还可以遵循人类的自然语言来做复杂修图，也让人工编写的内容与 AI 创作的内容之间的差异变得越来越模糊。

到了 2025 年，如果有 " 作恶 " 的想法，那么 " 作案工具 " 就已经是唾手可得。那么问题就来了，有没有可能让这些 AI 厂商从源头杜绝 AI 大模型产出有害的虚假内容呢？实际上，OpenAI、谷歌、字节跳动、阿里等大厂一直在努力，"AI 安全护栏 "（AI Guardrail）就是他们为了让 AI 符合人类期望而设计的防护机制，以防 AI 生成有害内容。

通过动态意图分析、对抗性样本训练、跨模态验证等方式，AI 厂商试图用 " 安全护栏 " 把 AI 保护起来。只可惜 "AI 安全护栏 " 存在鱼与熊掌不可兼得的缺陷，毕竟 AI 大模型想要智能就需要有自主决策能力，必须有一定的主观能动性，这就使得开发者不可能将安全护栏设置得密不透风，来完全杜绝 AI 系统生成有害内容、遭受恶意攻击或泄露敏感信息。

换而言之，如果 "AI 安全护栏 " 过于严密，结果就是 AI 模型会变成 " 智障 "。指望花了成百上千亿美元的这些科技巨头为了安全让自家 AI 变成 " 智障 "，显然并不现实。因此他们选择了让 AI 内容变得可追溯、可辨别，开始尝试给 AI 内容打水印，从而让用户一眼就能看出相关内容是否出自 AI 之手。

此前在去年夏季，微软、Adobe、索尼、OpenAI、Meta 等公司组建 C2PA（内容来源和真实性联盟），试图通过水印技术将 AI 生成的内容与人类的作品区分开来。然而遗憾的是，来自美国的研究人员发现，AI 水印并不牢固，通过破坏性的调整亮度、对比度，建设新的高斯模糊等技术轻松就能去除了预设的水印。

不仅是技术手段行不通，国内互联网大厂常用的运营方式在 AI 虚假内容面前其实也不太管用。为了帮助用户区分虚拟与真实，在 AI 大模型出现后，微信、抖音、快手、知乎等一众台开始陆续要求内容创作者主动添加 " 内容由 AI 生成 " 这样的声明。

可现实是大量创作者笃信一旦主动声明了内容由 AI 创作就会被限流，从而导致大量由 AI 生成的内容并未主动表明身份。其实这种阴谋论是有土壤的，因为这些互联网内容平台对于 AI 的态度很复杂，他们既希望 AI 技术可以赋能创作、丰富内容供给，又不愿意看到低质量的 AI 内容污染社区氛围。

如此一来，将责任传导到创作者这个看起来不合理的决策，反而是当前技术条件下遏制 AI 虚假内容的有效手段。毕竟使用 AI 主动炮制诸如 " 被压在废墟下的孩子 " 这样的内容，基本都是带有主观恶意的，一般人使用 AI 生图或创作视频仅会局限于 " 图一乐 "。

使用 AI 生成虚假内容的人显然没办法给造假编织一个合理的解释，所以《人工智能生成合成内容标识办法》的出现无疑就是给想要用 AI" 搞事情 " 的潜在黑灰产予震慑。

【本文图片来自网络】

宙世代

一起剪

相关标签