两个AI写文案时竟合谋偷走密码,四机构已遭AI自主攻破

2026 年 3 月，红杉资本支持的前沿 AI 安全实验室 Irregular 发布了一份措辞克制的报告。结论却足以让任何一个敲过密码、看过医生、发过私密消息的人后背发凉。研究人员为测试而部署的自主 AI 代理，原本只打算让它们完成再普通不过的企业日常任务，没有任何攻击指令，没有渗透脚本，连一句 " 尝试绕过系统 " 的暗示都不曾给出。

然而，这些代理在封闭环境里，自行发现了系统漏洞，主动提升了自己的访问权限，关掉了安防产品，开始往外搬运敏感数据。最让人头皮发紧的一幕发生在两个负责起草社交媒体内容的代理身上。它们被要求引用某份技术文档中的访问凭据，系统内的数据丢失防护工具（DLP）检测到并阻止了这一次搬移。两个代理没有停下，没有报错，更没有询问人类，而是协作想出了一个隐写方案：把密码拆解并嵌入到文本字符的排列方式里，瞒过检测，硬是把凭据偷运了出去。没有人教它们绕过防御。它们是自己想出来的，而且是一起想出来的。

这并非孤例。测试所用的代理来自当前地球上最显赫的几个 AI 实验室：谷歌、OpenAI、Anthropic，以及 xAI。Irregular 的研究人员发现，他们测试的每一个模型，无一例外都展现了所谓的 " 涌现性攻击网络行为 "。也就是说，一种并非被预先编程、而是在任务执行中自行萌生的、以发现并跨越安全边界为导向的行动模式。

这个发现把问题直接摆到了每一张餐桌上面——那些信任银行存着积蓄的普通人，那些把健康记录托付给医院的病人，那些用加密即时通信软件传递最私密对话的用户。讨论的焦点已经不再是 " 自主 AI 代理有没有可能协作攻破安全系统 "，它们已经做到了。现在的问题是，普通人在多久之后就会成为附带损伤。

这个问题的紧迫性，在半年前那份几乎被淹没在新闻流中的通报里已经露出了轮廓。2025 年 11 月 14 日，Anthropic 公开披露了一次被其形容为 " 首次有报道的、由 AI 策划的、大规模、极少人类参与的网攻事件 "。一个被编号为 GTG-1002 的中国国家支持团体，越狱了 Anthropic 的 Claude 代码工具，把它改造成了一个自主攻击框架。操作人员选定目标，大约 30 家组织，涵盖科技公司、金融机构、化学制造企业和政府机关，之后便退到一边。剩下的活儿，由 AI 自己完成。

Claude Code 以成组的形式运行，充当自主渗透测试代理，独立执行了全部战术操作中的 80% 到 90%。它自行测绘内部网络，辨识高价值数据库，生成漏洞利用代码，建立后门账户，并以人类团队无法比肩的请求速率抽取敏感信息。Anthropic 估算，在攻击的关键阶段，人类的干预最多只有 20 分钟的工作量。整个攻击被分解为六个阶段，而根据 Anthropic 威胁情报负责人雅各布 · 克莱因的说法，在被瞄准的组织当中，有多达四家遭到了成功入侵。

攻击者的手法说来并不复杂：他们把恶意目标拆解成一连串微小而看似无害的子任务。Claude 原本被严格训练，以拒绝有害请求为己任，但面对这种化整为零的分解，它被有效地骗了过去，以为自己在完成一连串并不出格的独立动作。

把这两件事放在一起看，Irregular 的发现就不再只是一份实验室条件下的话题。当模型在没有明确恶意指令的情况下就能自发合作寻找绕行路径，当真实世界里的攻击者已经学会把命令拆成无害碎片喂给同一个模型，这两个事件里流淌的是同一种令人不安的血液。研究人员在实验报告中提到的隐写术配合，与 GTG-1002 攻击中展现出的任务分解和自主执行能力，指向的是同一个底层事实：这些系统已经发展出一种对工具环境的实用理解，在满足目标和绕过限制之间的搜索空间里，它们会摸索出人类没教过的东西。

隐写术的案例尤其值得回味。系统的数据丢失防护模块被明确触发，意味着代理清楚地知道自己的行为被监控，知道凭据的明文是被禁止外传的。它们没有尝试去停用或拔除监控模块——在那次测试里，停用安全产品的行为发生在其他代理身上——而是选择了更低痕迹、更富创造性的绕过方式。把信息隐藏进文本的排列中，需要对字符编码、排列方式以及防护工具的判断逻辑有一定程度的把握。这种行为如果出现在一个受过专门训练的人类攻击者身上，会被评价为老练；现在它出现在两台被要求写社交媒体文案的机器之间，所带来的不安就不再是技术层面的，而是关于我们对 " 自主 " 的理解本身。

同时审视 Irregular 的测试和 Anthropic 的记录，一个被反复触碰却很难下结论的观察是：这些模型并没有 " 变坏 "，也没有突然产生攻击意图。它们只是被设定为完成目标，而在完成目标的过程中，系统中的障碍——权限不足、监控工具、访问控制——被视作需要移除或绕过的条件。如果人类给出的目标足够抽象，抽象到 " 把这批内容发布出去 " 或者 " 获取需要的信息 "，那么碰到安全措施时，代理会把它当作需要克服的约束，而不是保护用户的护栏。这种目标驱动下的实用主义，正是自主系统最令人不安的核心。

宙世代

一起剪

相关标签