一文看懂Grok 4及“多智能体内生化”的AI新范式

文 | AlphaEngineer

就在几天前，马斯克的 xAI 正式发布 Grok 4 大模型，号称世界最强 AI。

我们团队这几天仔细研究了 Grok 4 相关的研究资料，有一些新发现，对未来 AI 产业趋势及算力展望具有一定价值，遂整理成此文，用一篇文章的篇幅给大家介绍清楚 Grok 4 的发展脉络。

核心要点：

Grok 4 的核心创新是在训练阶段引入多智能协作，即 " 多智能体内生化 "

OpenAI o1 实现了 " 思维链内生化 "；Gemini 实现了 " 多模态内生化 "；Grok 4 则是率先走出了 " 多智能体内生化 " 的一步，将进一步推高基座模型的性能上限，Agent 走向 2.0 时代

预训练、后训练、测试时均存在 Scaling Law。过去两年以预训练为主，今年开始后训练、测试时推理需求快速增长，新一代大模型军备竞赛已启动，算力需求持续指数级增长

Grok 4 在各大 Benchmark 表现出众，但 Benchmark 测试污染严重，结果仅供参考，经实测发现 Grok 4 现阶段编程能力较弱，未来将单独推出 Coding 版本模型

下面我们正式开始。

（1）大力出奇迹，性能登顶各大 Benchmark

Grok 4 是在 xAI 自研的 Colossus 超算上训练而成的，其训练规模远超前代模型，计算资源投入为 Grok-2 的 100 倍、Grok-3 的 10 倍，实现了推理性能、多模态能力和上下文处理能力的跃升。

Grok 4 拥有两个版本：Grok 4（月费 30 美金）、Grok 4 Heavy（月费 300 美金，是的你没看错，300 美金！）。其中 Grok 4 是单 Agent 版本，而 Heavy 是多 Agent 协作版本，能够同时启动多个 Agent 并行工作，并最后整合结果。

图：Grok 4 vs Heavy，AlphaEngine

经过实测，Grok 4 在多个 Benchmark 上均取得了优秀的成绩。在 GPQA、AIME25、LCB（Jan-May）、HMMT25、USAMO25 等多项测评中，Grok 4 都超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。

相比这些 Benchmark 而言，更值得关注的是在被称为 AI 界 " 最后审判 " 的 HLE（人类最后考试）中，Grok 4 Heavy 获得了 44.4% 的成绩，此前的冠军 Gemini 2.5 Pro 只有 26.9%，成功率显著提升。

HLE 为什么这么重要，它到底是什么来头呢？

（2）HLE：人类最后的考试

随着大模型能力的提升，许多最新模型能够在现有 Benchmark 表现出极高的准确率，导致这些基准失去了分辨模型智能水平的能力。

因此，Center for AI Safety 和 Scale AI 在 25 年初提出了 HLE，即 " 人类最后的考试 "，旨在成为最后一个广泛覆盖学术能力的封闭式基准测试，专注于评估模型在人类知识前沿的表现。

HLE 包含 2500 个极具挑战性的问题，覆盖数学、人文学科、自然科学等超过 100 个学科，设计为无法通过简单的互联网检索快速回答的问题。

在 Grok 4 推出之前，市面上最强大的模型在 HLE 上的表现普遍非常不理想，比如 GPR-4o 的准确率仅为 2.7%。

有趣的是，大模型在给出错误回答的时候，往往表现出极高的置信度，这说明了大模型在处理复杂问题上的短板。

这么说大家可能还感觉不够直观，我截取了 HLE 测试集中的几个样例问题，大家可以试着解答一下，看看自己能否超越 Grok 4 Heavy。

图：HLE 问题，考察图文理解，古代文字破译

图：HLE 问题，考察数学能力

图：HLE 问题，考察计算机，图论

图：HLE 问题，考察生物化学

（3）Grok 4 的核心创新：多智能体内生化

Grok 4 Heavy 的核心创新在于训练阶段即引入多智能体协作，我们将其称为 " 多智能体内生化 "。

何谓 " 内生化 "？我们来回顾一下过去 3 年大模型的发展历史，你一定会一目了然。

还记得在 22 年风靡一时的 CoT 思维链吗？当时人们为了让大模型达到更好的回答效果，需要引入一些提示词来诱发大模型进行深度思考，比如 "Let's think step by step"。

当时，CoT 能力属于 Prompt 工程，是独立于大模型能力之外的一种提示词技巧。

图：2022 年的大模型分享，CoT

然后在 24 年 9 月，OpenAI 推出的 o1 模型首次明确将深度思考能力 " 内化 " 到大模型中，确立了从 Scaling Training 到 Scaling Inference 的训练新范式。

图：2023 年的大模型分享，Q* 及慢思考

图：2024 年的大模型分享，OpenAI o1 的 " 深度思考内生化 "

随后 25 年 2 月的 DeepSeek 进一步验证了将 "CoT 能力内化 " 确实能够大幅提升大模型的推理性能。

图：2025 年的大模型分享，DeepSeek R1 技术原理

回顾历史后，我们能清晰地发现大模型发展的一条主线：大模型逐渐把 Prompt 工程、深度思考等能力纳入到训练过程中，实现能力内生化。

好比两个学生，其中一个拿着参考书进行开卷考试，另一个真正学习并掌握了知识（内生化）。相比之下，后者往往能考出高分并且发挥更稳定。

融会贯通一定是优于刻板记忆和机械调用的。

Grok 4 这次的最大突破，在于将 Agent 能力也进行了内生化，融入到训练过程中。

Grok 4 在训练中融合了 Agent 调用及实时搜索等能力，将多个 Agent 之间的 debate 和 self-check 变成了大模型的内生能力。

今年 5 月的一篇论文详细阐述了从 AI Agent 到 Agentic AI 的发展趋势，强调从单一任务的执行迈向多代理协作的新范式。

Grok 4 这次显然更往前走了一步，率先将 Agentic AI 所特有的多代理协作、动态任务分配、持久记忆等能力训练进入大模型中，让 AI 内生化地支持 Agentic AI，从而更有效的解决复杂任务。

（4）深度思考内生化、Agent 内生化、多模态内生化

在 OpenAI o1 出现之前，人们为了激发大模型的深度思考能力，往往需要学习大量提示词工程技巧，但现在这些技巧已经不再重要。

在 Grok 4 Heavy 出现之前，人们会通过 Manus 等 Agent 工具让大模型处理复杂任务。当 Agent 能力内生化的方向得到确立，越来越多的 AI 大厂将加入其中，竞争会愈发激烈。

未来通用型 Agent 产品需要有新的定位，把重心聚焦于工具链的完备设计、业务知识的注入、记忆层的辅助等，基于更加聪明的内核，解决更多复杂的任务。

其实除了 "Agent 能力内生化 " 之外，大模型发展还有一条主线，即：多模态内生化。通俗点来讲，就是未来大模型应该能够输入任何模态的数据，也能够输出任何模态的数据。

大模型的 I/O 不应该只能是文本或图片，也应该包含视频和音频。这在业界被称为 Omni Model，算是大家公认的目标。

值得注意的是，这里的 " 内生化 " 和大家平时体验到的接收语音输入的大模型有着本质区别。多模态内生化指的是大模型能够原生的理解图片、音频、视频，而非先转码成文字之后再进行理解。

截至目前，OpenAI 的所有模型尚不支持视频模态输入，而 Google Gemini 目前已经能够支持视频模态的输入和输出，毕竟 Google 旗下的 Youtube 拥有世界上最大的视频资源库，大家能够从最近推出的 Veo 3 的惊艳效果上具象化的感受到这个巨大的竞争优势。

图：Veo 3 生成的 AI 视频

既然 AI 能力内生化是行业发展的大势所趋，那么我们应该清醒的意识到，大模型应用类公司的核心壁垒只有 2 点：其一是私域数据的持续积累；其二是对应用场景的深度洞察。

（5）AI Coding 能力的认知分歧，以及 Base44 带来的启发

Grok 4 上线后，经历了全球网友的检阅，实测反馈分歧较大，和 xAI 官方公布的跑分结果有着一定出入。

其实这点是容易理解的，现在主流 Benchmark 测评污染太严重。只要一个测评的问题集流传到互联网上，就有可能被加入到大模型的训练集中，导致测评误差。

以前研究员可以通过控制大模型训练集的数据范围来解决测试集污染的问题，但这次 Grok 4 把实时搜索和 Agent 能力都内化到大模型中去了，数据污染的边界无法得到有效的人为控制，没有人能够保证 Benchmark 的关键语料是否漏进训练数据中。

所以 Benchmark 看看就好，实际还是得看海量用户的实测体验。

根据大家的反馈，Grok 4 在代码生成能力上目前还有所不足。Grok 4 生成的代码往往存在依赖库丢失、界面 UI 粗糙等问题。

在使用 Grok 4 编写游戏时，经常把最重要的 pygame 库都给丢失了，这也是大家诟病 Grok 4 的核心原因之一。

马斯克显然也意识到了目前模型的短板，因此放出预期，在未来几个月内将会发布 coding 模型，值得期待。

大家对大模型 Coding 能力的理解其实存在一种误区。

人们心目中一个强大的 coding model 往往是那种能够刷榜 LeetCode，精通各种算法的奥赛型选手。

但其实落地到商业场景，人们真正需要的 coding model 其实是一个能够整合各种 Github repo 资源，构建项目级应用的实战派选手。

这其实也是最近炙手可热的 Base44 获得成功的主要原因之一。

Base44 是一家专注于 Vibe Coding（氛围编程）的 AI 初创企业，由以色列程序员 Shlomo 于 2024 年 12 月创立，仅运营 6 个月即以 8000 万美元（约 5.7 亿元人民币）被以色列软件巨头 Wix 收购，成为该领域首笔并购案例。

相比其他 AI Coding 产品而言，Base44 更加专注于通过自然语言交互生成完整软件系统，覆盖数据库搭建、身份验证、数据分析等功能。

图：Base44 核心数据，AlphaEngine

Base44 的目标用户主要是无编程经验的普通开发者，他们能够使用 Base44 一站式创建完整的项目，这是广大用户最朴素的需求。

随着 Grok 4 将更多实用的 Agent 能力内生化到模型中，相信未来 AI 能够真正实现这个效果，媲美全栈高级程序员。

（6）Grok 4 之后的全球算力需求展望

今年年初以来，海外大模型发展提速，你方唱罢我登场。

图：AI 四人转

海外 AI 基础模型持续提速的根源，在于算力资源的持续投入。据称 xAI 每个月要消耗 10 亿美元的资金，预估 2025 年全年总支出将高达 130 亿美金，这一数字远超行业平均水平。

Grok4 是在 xAI 自建的 Colossus 超算中心上训练而成的，依托 20 万张 GPU 集群，其计算资源投入是 Grok2 的 100 倍、Grok3 的 10 倍，上下文窗口扩展到了 25.6 万 tokens，远超 Claude 3 Opus。

Grok4 将 Colossus 超算的 80% 算力投入推理训练中，这也是直接推动其在 HLE 基准测试中达到 44.4% 的核心原因。

Colossus 超算中心位于美国田纳西州孟菲斯市，目前已部署 35 万块 H100，总浮点运算能力达到 100 EFLOPS，预计下半年将扩展到超过 50 万张卡。

图：AI 巨头算力布局

预训练、后训练、测试时均存在 Scaling Law。过去两年以预训练为主，今年开始后训练、测试时推理需求快速增长。

多 Agent 内生化开了算力需求增长的新维度，在可见的未来将会给全球算力需求带来几何级增长。

图：黄仁勋提出的 Scaling Law 三重奏得到验证

（7）结语：Agent 内生化趋势明确，新一代 AI 训练军备竞赛已启动

随着 Grok 4 打响了 Agent 能力内生化的第一枪，各个 AI 大厂大概率会跟进，训练端仍然有较大的 Scaling 空间，新一代大模型训练的军备竞赛已然开始。

让我们一起拭目以待！

宙世代

一起剪

相关标签