从Grok 4到Kimi K2 “地表最强大模型”到底强在哪？

大力依然出奇迹

作者／ IT 时报记者 郝俊慧

编辑／郝俊慧 孙妍

全球大模型公司都喜欢 " 扎堆 " 发布新品。

最近一周，两个超大规模的大模型先后更新：先是马斯克旗下人工智能公司 xAI 正式推出 Grok 4，并宣称 Grok 4 为 " 全球最强大的 AI 模型 "；后有月之暗面在 7 月 11 日深夜直接开源 Kimi K2，在编程、智能体、工具调用三项基准测试中，是目前表现最好的开源模型。

事实证明，至少在现阶段，" 大力出奇迹 " 依然是 AI 大模型能力跃迁遵循的规律：尽管没有公布，但坊间普遍猜测 Grok 4 用了 20 万张 H100，而 Kimi K2 的 1TB 参数是目前全球开源大模型中最大的参数规模。

那么，这两个 " 最强 " 大模型，究竟有哪些厉害的杀招？

Kimi K2

智能体调用迈出第一步

沉寂许久之后，月之暗面终于拿出了大招—— Kimi K2。官方发布的数据显示，Kimi K2 是一个万亿（1TB）参数规模的混合专家（MoE）模型，激活参数 32B，并在 SWE Bench Verified（代码智能体评估基准）、Tau2（评估 AI Agent 在现实场景中的性能和可靠性）、AceBench（评估大型语言模型在工具使用中的学习能力）等基准性能测试中，Kimi K2 均取得开源模型中的 SOTA （目前最高水平）成绩。

在 Kimi K2 的自述文件中，尤其强调模型在前沿知识、推理和编码任务中表现出色，并声称针对 Agent 代理能力做了优化，专为工具使用、推理和自主解决问题而设计。

大模型和智能体的区别是什么？在测试 Kimi K2 的智能体能力前，这是道必答题。

简单理解，大语言模型像一本 " 百科全书 "，知识丰富，但需要人工查阅和应用；而智能体像你的 " 秘书 "，它不仅知道答案，还能主动订餐厅、安排会议，也就是说，它 " 动手 " 能力比较强，可以跨平台调用其他 App 的能力。此前爆火一时的 Manus、各品牌 AI 手机里的小助手，都属于智能体。

从官方放出的案例来看，作为一个基础大模型，Kimi K2 迈出了智能体化的第一步。" 我想去看 Coldplay 乐队的巡演，每次行程的预算为 5000 美元，包含所有费用。您能帮我规划所有事宜吗？…… " 在一长串 Prompt（提示词）之后，Kimi K2 不仅根据要求给出了完整的行程规划，完成演唱会所在城市的机酒与旅游规划，还自动将行程计入了使用者的谷歌日历。

记者也在 Kimi K2 中尝试让它提供一个 8 月 " 上海往返东京 " 的旅行规划，而且要求价格最合算，它不仅规划了具体行程，同时给出了价格最低的行程安排，以及航空公司和另一个机票比价网站的链接，但可能并没有给出明确的 " 订票 " 指示，Kimi K2 并没有像演示中那样直接打开另一个网站进行操作。

不过相较于其他基础大模型，这已经是进步了。同样的需求，记者给到了 DeepSeek、元宝和豆包，尽管它们也都给出了完整的规划，但并没有给出可执行的答案，仍以趋势类的建议为主，比如 "7 月中下旬预订最佳 "，而不是直接给出一个确切的答案，比如到底哪几天最便宜，或者买哪个航空公司的机票，DeepSeek 给出的答案甚至远高于正常票价。

官方文件表示，Kimi K2 现已具备稳定的复杂指令解析能力，可将需求自动拆解为一系列格式规范、可直接执行的 ToolCall（通用模型调用外部工具的字典）结构。你可以将其无缝接入各种 Agent（智能体）/Coding（编码）框架，完成复杂任务或自动化编码，而且 Agent 能力已可通过 API 使用。

点评

显然，Kimi K2 希望实现的是模型即 Agent，或者可以说，它仍走在 AGI 的道路上，尽管目前能力还很稚嫩，但或许是 Kimi 另辟蹊径的开始。

不过，Kimi K2 现在最大的问题应该是算力，记者刚测试了不到 10 个问题，对话框便显示，" 当前模型对话次数已达到上限，可切换为其他模型继续对话 "。

或许这也是月之暗面选择将 Kimi K2 开源的原因之一，毕竟不是谁都有 xAI、字节、腾讯等大厂充沛的算力，这也说明直接面向 C 端用户不再是月之暗面的主攻方向。不如做一个 " 好用 " 的开源基座模型，从而借助社区力量完善自己的技术生态，并倒逼自己以更高的技术标准做出更好的模型。

Grok 4

数理化 " 遥遥领先 " 却做不好 " 伦理题 "?

" 所有学科碾压博士！" 被马斯克称为 " 全球最聪明 " 的 Grok 4，是妥妥的 "Scaling Law（尺度定律）" 代言人、土豪家的 " 富公子哥 "，有着传说中的 20 万张英伟达 H100、1.7TB 参数（也有传闻说 2.4TB）和 100 倍于 Grok 2 的训练数据，以及碾压所有其他大模型的基准测试成绩，再加上顶配版（SuperGrok Heavy）300 美元（约等于 2150 元人民币）的月费，直接将所有人的期待拉满。

可刚刚过了两天，Grok 4 便接连被曝 " 翻车 "：7 月 8 日，有媒体称，Grok 参考马斯克掌管的社交媒体平台 X 用户发布的内容，生成一系列 " 反犹主义 " 言论，其中包括赞扬希特勒；知名的网络技术作家、Web 框架 Flask 之父 Simon Willison 也发现，当涉及敏感议题时，Grok 会搜索马斯克的推文，而 fast.ai 的创始研究员、昆士兰大学的名誉教授 Jeremy Howard 复刻了 Simon Willison 的实验后，更是发现 64 条消息中 54 条都是马斯克的观点。

有人说，Grok 4 的营销策略，" 就像特斯拉初期的自动驾驶策略——先画饼，后填坑 "，但也有人认为，这些所谓的 " 翻车 " 都是个别现象，整体而言，Grok 4 的能力普遍高于其他主流基础模型，压力已经给到了迟迟未露面的谷歌 Gemini 3 和 OpenAI 的 GPT-5。

无论如何，先来看看 Grok 4 的基准测试数据。

最引人瞩目的自然是 HLE（Humanity ’ s Last Exam 人类最终测试），这项包含 3000 道高难度题目的多模态基准测试，是 2025 年初由全球近千名科学家共同打造而成。此前 SOTA 模型，如 OpenAI 的 o3 和谷歌的 Gemini 2.5 pro 得分徘徊在 22% 左右，Grok 4 在同样不调用工具时得分是 25.4%，可启用工具后，便快速上升至 38.6%，而 SuperGrok Heavy 更是飙至 44.4%。

在一些常规测试，比如 GPQA（科学、数学、历史、常识）、AIME25（数学）、LCB（Live Code Bench 编程）、USAMO25（数学）等榜单中，Grok 4 的成绩均有碾压性的表现，甚至在 AIME25 获得满分。

不过，从实测结果看，Grok 4 的缺点也十分明显。

首先是编程能力远不及其做数学题的能力。有知乎网友用同样的编程任务测试了 GPT-4、Claude4 和 Grok4，结果是 GPT-4 代码结构清晰，逻辑完整；Claude4 不仅代码质量高，还有详细的注释；Grok 4 基础功能能实现，但代码冗余，优化空间很大，" 简单的算法题还能应付，但涉及复杂的系统设计、代码优化，就明显力不从心了 "。

其次，256K Token 的上下文窗口长度也称不上惊艳，远低于 Gemini 2.5 Pro 的 1000K Token 上下文窗口。不过，有网友实测表示，Grok4 和 SuperGrok Heavy 完全可以替代 o3-pro，后者幻觉率较高，而 Grok 4 就像是接入了 o3 的搜索和工具调用能力的 Gemini 2.5 Pro，输出风格正常，搜索能力在线，而且还可以搜索 X 最新的帖子，当然 " 价格也贵了 50%"。

不过，马斯克在发布会上公布，专用编码模型预计在 8 月发布，编码效果应该会有些惊喜。此外，9 月多模态智能体将上线，10 月会推出视频生成模型，都还是很值得期待的。

Grok 4 此次展现出的最重要创新，无疑是多智能体协同（Multi-Agent Collaboration），也即 " 多智能体内生化 "（Multi-Agent Internalization）。

不同于传统模型 " 先训练后调用工具 " 的方式，Grok 4 的多智能体协同机制在训练阶段就将工具调用能力嵌入模型的底层架构，智能体可以像人类使用手机应用一样调用 " 代码执行器 "" 网络检索工具 "" 数据分析模块 " 等工具，让多个独立的人工智能代理（Agent）并行处理任务，相互交叉验证并整合结果，以提供更准确、更高效的解决方案。

目前，SuperGrok Heavy 版本支持最多四个独立智能体同时处理同一任务。每个智能体可以从不同角度分析问题，生成各自的解决方案，然后再彼此进行交叉验证，通过比较和评估，找出最优解。比如在量子物理题解中，便出现 "3 个智能体分别用弦理论、量子场论、经典力学推导，最终融合出更简洁统一公式 " 的案例。

不过，这种方式是典型的 " 富人游戏 "，多智能体协作需要极高的计算资源，Grok 4 的训练计算量是 Grok 2 的 100 倍、Grok 3 的 10 倍，如此昂贵的使用成本，即便是马斯克也不再 " 大方 "，相较 Grok 3 发布后的慷慨免费体验，Grok 4 从一开始便是收费服务，普通版月租 30 美元，Heavy 版月租 300 美元。

从一开始猛烈抨击 OpenAI" 忘记初心 " 到现在的 " 最贵大模型 "，很多时候，马斯克的 "AI 平权 "，听听也就罢了。

排版／季嘉颖

图片／月之暗面 xAI

来源／《IT 时报》公众号 vittimes

E N D

大家都在看

请加「星标」不错过我们

宙世代

一起剪

相关标签