AGI只差最后一步了

本文作者 | 万连山

数据支持 | 勾股大数据（www.gogudata.com）

大家应该还记得 4 月份的时候，Anthropic 发布了名为 Mythos 的模型。

看名字就知道多厉害了，神话。

当时，据说给 50 家企业客户找出了一万多个高危漏洞，震动了整个行业。

这个消息，一度导致网络安全股全线暴跌，大家应该还有印象。

因为过于强大，担心被滥用，" 太危险不能公开 "，所以不开放给公众。

直到昨天晚上，Anthropic 给 Mythos 模型加上了安全分类器，正式上线了 Fable 5。

至于未阉割的 Mythos 5，目前只对白宫、网安防御者和透翅蝶计划等大约 200 家经过严格审查的机构开放。

如此谨慎，很难不让人联想到最近火热的 AI 动画《天使引擎》。

笼子里锁着的，是那位 " 天使 " 吗？

即便现在不是，也不远了。

根据 Anthropic 官方发布的测试数据，以及首批企业合作伙伴反馈的实测报告，Fable 5 的强大可以用叹为观止四个字来形容。

先看跑分。

自动编程评测榜单 SWE-Bench Pro，Claude Fable 5 通过率 80.3%，它的 " 母亲 "Opus 4.8 是 69.2%；GPT-5.5 是 58.6%；Gemini 3.1 Pro 只有 54.2%。

前沿代码评估，Fable 5 达到 29.3%，Opus 4.8 是 13.4%；GPT-5.5 仅仅 5.7%。

……

其中的差距，就相当于在冷兵器时代突然有人掏出了机关枪。

其余的，软件工程、独立科研假设、药物分子设计、模型蒸馏与极限压缩、长上下文理解等等等等，在几乎所有测试中，Fable 5 都是第一。

具体的大家可以去找视频看。

再看实战。

支付巨头 Stripe 拿 Fable 5 做了一个早期测试。他们有一个高达 5000 万行的历史遗留代码库需要做全库迁移。按照评估，这种规模的重构，即便交给专业团队，也起码需要两个月。

结果，把任务喂给了 Fable 5 后，它全程自己做规划、自己检查进度、遇到报错自己修正。仅仅用了一天时间，5000 万行代码的迁移干完了。

这种表现，不是 " 强大 " 两个词形容就完事了。

从狭义的角度来看，Fable 5 其实已经实现了数字经济层面的 AGI。

原因在于，它表现出了真正的 " 长程代理能力 "。

不论是 GPT-5.5 还是 Gemin 3.5，更不必说其它更次一些的大模型，本质上都是在 " 应答 "。

你踹一脚，它走一步。

遇到死胡同，它只能抛异常，撒娇说 " 对不起我只是个语言模型 "。

说是工具，但其实用户还是需要深度思考，一步步引导 AI 给出自己想要的结果，并不轻松。

具备了内化的目标导向逻辑的 Fable 5 就不一样。

就像 Strip 的测试，当用户给它一个高难度的长线任务，分三步走：

建立子任务树；

调度不同的工具（网页搜索、数据库拉取、Python 沙箱环境）；

自我反思，发现跑不通，立刻换条路走。

人除了提出任务和接收成果，不再需要在一旁指指点点。

作为一个生产力工具，这已经非常完美了。

但它和真正的 AGI，依然是两码事。

Fable 5 的强悍，是建立在它所处的代码库、科学文献等依然有一套底层的数学逻辑和结构定义。

它之所以能在长周期任务中不迷失，是因为克服了 " 长文本注意力衰减 " 这难题，在处理长达数百万 token 的复杂任务时，能够始终保持核心目标的对齐。

但一旦把它扔进一个完全混沌、缺乏数字规则、且人类自己都没整明白的物理现实社会泥潭里，它依然会因为 " 地基缺失 " 而产生逻辑断层。

如果用 OpenAI 提出的 " 人工智能五级标准 "（1 级：聊天机器人；2 级：推理者；3 级：智能体；4 级：创新者；5 级：组织）来衡量。

Opus 4.8 是 2 级向 3 级迈进，Fable 5 真正站稳了 3 级并向 4 级探索。

而从 Opus 4.7 到 4.8 用了 43 天，4.8 到 Fable 5 只用了 11 天。

站稳 4 级需要多久？按照 Anthropic 如今更新频率越来越快的节奏来看，很可能在今年内就能实现。

即便最终的 5 级，乐观估计也只需 18-24 个月，是真正的只有一步之遥。

这个速度太快了，这也是为什么要给它加安全限制的最大原因。

在 Anthropic 随模型发布的《System Card》和 RSP 评估报告中，Mythos 5 在两项能力上出现了极其危险信号。

其一，Fable/Mythos 底层模型在化学和生物学评估中，已经达到了 CB-1 级别。

意思就是，该模型具备了 " 合成并指导制造非新型生物 / 化学武器 " 的端到端能力，甚至给出优化某种高危病毒传播效率的基因序列修改建议。

如果一个具备大学本科生物基础的恐怖分子，拿到了解除封印的 Mythos 5，完全可以通过不断提示模型，获取如何规避原料监管、如何在地下室搭建简易 P3 实验室、如何合成高致死性病原体的完整指导。

其二，网络攻击与漏洞利用。

在极早期测试中，Mythos 5 就展现出了能够自主寻找、并攻破关键基础设施（如电厂、金融清算系统、医院网络系统）核心漏洞的能力，几秒钟就能生成针对性的零日漏洞攻击脚本。

今年 4 月份 Mythos 刚研发出来时，就有爆料说给 50 家初始合作伙伴找出了超过一万个高危级别的漏洞。

针对这两种情况下，直接把 Mythos 5 扔给大众，危险性实在太高。

必须把这只猛兽关进笼子里。

时隔两个月，Anthropic 打造的笼子有两层。

第一，静默降级路由机制。

Anthropic 在 Fable 5 的前端部署了一套完全独立、反应极其敏锐的高精度分类器 AI。

当用户输入一段复杂的、可能涉及网络攻防、生物化学、或者试图套取模型权重的隐蔽提示词时，分类器会立刻拉响警报，并是在后台静默地把会话切换路由到老款的 Opus 4.8 去回答。

第二，数据保留。

Anthropic 与亚马逊昨晚联合宣布：不论是在第一方还是第三方平台，所有调用 Mythos 模型的流量，必须强制执行 30 天的数据留存。

为什么？

因为真正的黑客或恐怖分子，智商大多都很高，他们不会在一个对话里直接问 " 怎么制造炸弹 "，而是把问题拆解成 100 个看似无害的基础问题。

30 天的全量数据监控，就是为了通过模式识别，捕捉那些单次对话看不出来的 " 切香肠式 " 恶意滥用。

正如 Dario Amodei 之前在公开场合警告过的："AI 导致人类发生灾难性风险的概率，有整整 25%。"

为了遵守公司内部制定的《负责任缩放政策》（RSP）以及《前沿合规框架》（FCF），Anthropic 必须亲手给这个巨兽戴上铰链。

于是，就有了 Fable 5。

再聊价格。

Anthropic 公布的官方标价是：每百万输入 token10 美元，每百万输出 token50 美元。

太贵了。

现在的企业级 Agent 任务，为了追求高准确率，往往采用 " 多轮思考思考再思考 " 的链式逻辑，一轮吞吐可能就要吃掉 2000 万的输入 token，然后吐出 500 万修改后代码。

算下来，单次任务就要 450 美元。

而且，Anthropic 已经发出通告：现有的个人订阅（Claude Pro）中包含的 Mythos 模型体验窗口，将在 2026 年 6 月 22 日彻底关闭。

以后，个人用户要是真的拿它来工作，几十美元那真是眨眼就花掉了。

虽然说，随着技术更新，其价格最终必然会降下来，但等到那时它早就不是最强。

现状已经非常明显：最前沿的大模型变成了奢侈品，普通人根本用不起。

当然，对聚焦 B 端市场的 Anthropic 而言，这无可厚非。

问题是，前不久，谷歌还高调地宣布打价格战。

在竞争对手普遍降价抢市场的时候，为什么 Anthropic 敢逆势涨价？

因为Token 价格是虚的，回报率才是根本。

企业客户根本不在乎一度电、一个 Token 多少钱，只要 AI 能完美无 Bug 地完成整套工程流，这个溢价他们抢着付。

更关键的是，如今的网络安全战，已经彻底成为 AI 与 AI 之间的对抗。

由于 Fable/Mythos 级别的模型能瞬间找到系统漏洞，企业和国家机构为了防止被攻击，唯一的选择只能是高价向 Anthropic 购买 Mythos 5 的内网私有化防御服务。

简单来说就是收保护费：我造出了最恐怖的剑（Mythos 5），我怕伤人所以套上剑鞘卖给大众（Fable 5），但我同时把不受限的剑卖给防御部门，让他们用来拦截别人正在研发的剑。

防御 AI 的威胁，将成为每一个大型企业的刚需支出。

这将直接导致 B 端市场的高端预算将更加向 Anthropic 集中，而那些只能用来写写公文、发发邮件的廉价模型，只能在利润极低的 C 端市场互相肉搏。

可以预见，接下来，全球网络安全板块将迎来一轮由 AI 驱动的价值重估。

与此同时，" 一人企业 " 也将很快成为越来越普遍的现象。

自带任务预算分配功能，支持记忆工和上下文管理，能像人一样去记忆、推翻、重来，能独立承接从需求文档到代码交付的全生命周期……

Fable 5 和 Mythos 5 的出现，与其说是大模型技术的一次更新，不如说是 AI 产业分工彻底走向成熟的成人礼。

AI 市场初步告别了 " 全员免费试用 " 的田园时代。

最顶尖的算力和最深邃的智慧，将优先作为一种生产力战略物资，定向输送给最能产生商业价值的基建、科研和 B 端应用战场。

这是生产力爆炸的狂欢，也是劳动力市场的寒冬。

格隆汇声明：文中观点均来自原作者，不代表格隆汇观点及立场。特别提醒，投资决策需建立在独立思考之上，本文内容仅供参考，不作为实际操作建议，交易风险自担。

宙世代

一起剪

相关标签