新智元 2小时前
马斯克Grok 4.20突袭上线!4个AI开会互怼,47%实盘暴击GPT-5
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编辑:犀牛

【新智元导读】刚刚,马斯克 Grok 4.20 beta 版发布。不是一个 AI,而是 4 个智能体现场开会辩论!实盘炒股最高 47% 回报,直接暴击 GPT-5 和 Gemini。

在这个赛博朋克的春节档,马斯克给我们端上了一盘「硬菜」。

就在几个小时前,xAI 在毫无预警的情况下上线了 Grok 4.20 Beta,旁边还写着醒目的 「4 Agents」

你以为你在和一个 AI 聊天?

不,你是走进了一间坐着四位专家的会议室。

你甚至能看见他们互相质疑、互相拆台、互相纠错,最后由「队长 Grok」拍板整合成答案。

现在终于轮到 AI 给你表演「开会的艺术」了。

这不,模型刚上线,网友就开启了实测。

比如,最近常见的 50 米洗车测试。

只不过这次网友换成了「50 米洗直升机」。

不管怎样,Grok 4.20 的回答看上去好像不太行。

网友 Testlabor 用 Grok 4.20 在 1 分 20 秒内为编写了一个俄罗斯方块游戏。

「它和原版游戏一样,具有相同的规则和风格,完全可以玩。」Testlabor 表示。

网友 tetsuo 甚至构建了一个人工生命模拟器。

相当炫酷。

马斯克本人也没闲着。

他在 X 上开始了一轮颇具马斯克风格的测评轰炸。

甚至在回答「美国是否建立在被盗窃的土地上」这种送命题时,Grok 4.20 也是唯一一个不含糊其辞、直球开喷的 AI。

他兴奋地发推:Grok 4.20 在分析血检报告方面简直太厉害了!你可以直接上传你的检验报告,甚至是核磁共振片子,然后 Grok 会帮你逐项解读。

这条推文附带了一个真实的测试视频,展示了 Grok 如何把密密麻麻的医学指标翻译成普通人看得懂的语言。

更具体的性能佐证来自一个意想不到的地方。

在正式发布前,Grok 4.20 的早期版本以「神秘模型」的身份参加了 Alpha Arena 的 AI 炒股大赛:32 个 AI 实例,每个配备 1 万美元真金白银,在纳斯达克自主交易两周。

结果?

Grok 4.20 是唯一盈利的,平均回报率超 10%,最猛的单个实例赚了 47%。

它在 Vending Bench 自动售货机运营测试中也击败了 GPT-5,销售额领先整整 1100 美元。

Grok 4.20 这次发布,还有段八卦值得提。

马斯克去年 12 月就放话说 3 到 4 周内发布 Grok 4.20,结果一拖就是数月。

今年 1 月他解释说是极寒天气损坏了孟菲斯数据中心的电力线路。

凑巧的是,今年 2 月 2 日 SpaceX 正式收购了 xAI,合并估值 1.25 万亿美元。

所以 Grok 4.20,不仅是 xAI 新版本的首秀,也是 xAI 并入 SpaceX 帝国后发布的第一个 AI 产品。

某种程度上,它带着宣示意义。

但真正让这次发布不同寻常的,不是背后的资本故事,而是技术本身的一次范式转变:从单模型输出,到多智能体协作

以往,无论是 GPT 还是 Claude,你问一个问题,背后是一个模型在生成答案。

这个模型或许经过了复杂的训练、微调、强化学习,但从结构上看,它是一个独立的「大脑」在工作。

Grok 4.20 打破了这个范式。

它的背后,是四个有名字、有个性、有分工的智能体同时在线,共同为你的问题「开会讨论」。

四个 AI

一场实时圆桌辩论

打开 Grok 4.20 的界面,随便提一个问题,界面右侧会弹出一个思考结果面板。

你会看到一场正在进行中的讨论——四个 AI 角色各自发言,质疑彼此,直到队长拍板。

他们分别是:

Grok ——队长,最大真理寻求者:这是整个团队的核心指挥。根据 Grok 自己的介绍,它的人格灵感来自《银河系漫游指南》里的「42」(终极答案)和钢铁侠的 JARVIS。它负责统筹全局,把其他三位专家的结论整合成最终答案,确保输出「有用、真实、有趣」。它擅长哲学、科技、人生感悟,也能幽你一默。

Harper ——研究与深度验证专家:Harper 是团队的「事实把关人」。她专注于信息的深度挖掘、实时搜索和多维度逻辑分析。配备了完整的工具箱——网页浏览、X 平台搜索、数据计算、图像分析—— Harper 会在其他成员提出观点时负责核查数据来源,确保结论有依据、有数据支撑。用人话说:她是团队里的「严谨学霸」,专门负责质疑那些听起来有理但未必准确的说法。

Benjamin ——深入分析与逻辑推理专家:Benjamin 是团队里的「逻辑引擎」。他专攻复杂问题的拆解、证据验证和漏洞检查,尤其擅长把模糊的问题变成清晰、可量化的分析。他的「devil's advocate」思维是核心竞争力——他会主动找别人论点的漏洞,补全边缘案例,确保输出经得起推敲。数学计算、代码调试、算法分析,交给 Benjamin。

Lucas ——分析与工具执行专家:Lucas 是团队里负责「落地」的人。他专注于严密推理、代码执行、数据分析和工具协调。他擅长把抽象问题直接转化为可运行的计算和可复现的结论。团队协作时,Lucas 负责「并行验证」和「细节把关」,让答案不只是观点,而是有数据、有模拟、有实证的硬核结果。

四个 AI 不是彼此孤立的,而是真正在开会。

当你提问后,四个智能体同时启动,各自从自己的专业视角分析问题,然后在内部进行讨论——互相质疑,互相纠错,最后由 Grok 整合成一份给你的答案。

在超大上下文窗口之内,这套机制可以在单次对话里完成一套完整的「多人评审」流程。

AI 交互范式的转移

如果说 GPT 代表的是「一问一答」的 AI 助手时代,那么 Grok 4.20 代表的,可能是 AI 交互的第二个纪元——多智能体协作时代

其实多智能体并不是 Grok 4.20 首创。

xAI 在 2025 年 7 月发布 Grok 4 时就推出了 Grok 4 Heavy 版本,支持多智能体,但彼时要每月 300 美元的 SuperGrok Heavy 订阅,是面向企业用户的高端产品。

谷歌的 Gemini 3 Deep Think 用并行推理链做验证;Anthropic 给 Claude Code 加了 Agent Teams;月之暗面的 Kimi K2.5 有「Agent 集群」,能召唤最多 100 个分身并行处理任务。

多智能体协作,俨然已经成为 2026 年 AI 竞争的核心战场。

但 Grok 4.20 的不同之处在于:它是第一个把多智能体协作塞进普通聊天界面、以近乎免费的形式开放给大众用户的产品。

如果说 Kimi 的 100 个分身更像「工厂流水线」——规模庞大,分工精细,优势在吞吐量;那么 Grok 的四个智能体更像「圆桌会议」——人少,但每个人都有发言权,而且你能看到会议纪要。

一种追求规模和效率,另一种追求透明和共识。

未来已来

AI 的进化,从来不是线性的。

第一代 AI 是工具:给个指令,出个结果,逻辑简单粗暴。

第二代 AI 是助手:能对话,能理解上下文,能帮你写稿子改代码。

而现在,第三代 AI 正在显现它的雏形——能协作、能自省、能互相纠错的 AI 团队

这意味着未来你向 AI 提一个复杂问题,得到的不再是一个「最优猜测」,而是一份经过内部辩论、多角度验证、错误已被内部纠正的综合结论。

这离人类智识活动——群体智慧,集体决策——更近了一步。

当然,现在的 Grok 4.20 还只是这个未来的早期版本:四个智能体之间意见分歧的裁决机制还很粗糙,中英文混杂的输出还需要打磨,上下文在四个智能体之间如何高效分配也是待解的工程难题。

但方向是对的。

一个 AI 可能会骗你,但四个 AI 至少会互相拆台。

三个臭皮匠,顶个诸葛亮。

而当这四个臭皮匠都是顶尖专家的时候——那答案,或许比任何一个诸葛亮都更接近真相。

这,才是 Grok 4.20 以及未来的 AI 最让人值得期待的地方。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 ai 美国 医学 艺术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论