量子位 14小时前
马斯克开始疯狂剧透Grok 5了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

马斯克的Grok 5偷偷藏不住了。

刚刚 ARC-AGI 榜单官宣出现新SOTA,用的还是Grok 4+ 程序合成技术微调

好小汁,啥时候开始 Grok 都弯道超车了?OpenAI、Anthropic、谷歌一众明星模型都被压一头。

一石激起千层浪,网友纷纷发问,那等Grok5出来,岂不是……

马斯克也随即出来回应:

我现在认为 Grok 5 能达到 AGI。

顺便附赠了一堆有关 Grok 5 的爆料。

马斯克疯狂剧透 Grok 5

这事还得从 Grok 4 超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize 发布了两个最新的ARC-AGI榜单 SOTA 方案:

都是开源的。

都使用的是 Grok 4 作为基础模型。

都实现了带测试自适应的程序合成外循环。

先简单介绍一下 ARC-AGI 排行榜,其旨在评估 AI 解决复杂难题的能力,类似于人类的智力测试,从而反映 LLM 的推理能力。

测试任务包含 v1 和 v2 版本,v2 需要 LLM 完成更多的多步骤推理,一般来说,即使是最优秀的 LLM 也只能在 v2 中获得16%的准确率。

GPT-5在二者上的得分依次是 65.7% 和 9.9%,Claude Opus 4的得分是 35.7% 和 8.6%,而Grok 4则是 66.7% 和 16%。

Jeremy Berman 的新方案则是在 Grok 4 基础上,用英语替代了传统的 Python,最终得分来到 79.6% 和 29.44%。

Eric Pang 则在 Jeremy 的工作上,设计了一个受DreamCoder启发、LLM 辅助的程序合成系统,能够通过从不断扩展的程序库中学习来解决越来越难的任务。

虽然得分没有进一步升高(77.1% 和 26%),但是成功让每个任务的平均费用得以下降(v1:8.42 美元→ 2.56 美元;v2:30.4 美元→ 3.97 美元)。

当问及两位作者选择 Grok 4 的理由,他们均表示,这是他们测试下来效果最好的模型。

当中所体现出的 AGI 潜力,也让马斯克感到自豪,随即透露了一系列有关Grok 5的消息。

老马表示,这才只是 Grok 4,而 Grok 5 将很有可能达成AGI

而这个可能性也许能达到 10% 或者更高,要知道他此前并不认为 Grok 版本会出现 AGI。

与此同时,他表示Grok 5 将会在几周之内开始训练

加上此前他曾表示 Grok 5 将在今年年底前推出,或许我们将在不久后见证新的 "LLM 怪物 " 诞生。

所以为什么老马能对 Grok 5 抱以如此强烈的信心呢?

训练数据及硬件资源的投入

归根结底,是马斯克在 Grok 训练中投入之深。

据悉,Grok 5 将拥有较之前代更多的训练数据

Grok 4 的训练量是 Grok 2 的 100 倍、Grok 3 的 10 倍,而 Grok 5 则只会更多。

马斯克拥有一整套的最新真实数据收集体系,其中xAI可以为其提供最新的直接数据,特斯拉可以定期利用 FSD 和摄像头捕获图像从而生成数据,而擎天柱机器人也能从现实世界中生成大量数据。

可以说,马斯克在当下数据为王的时代,最不缺的就是数据。

此外,xAI 在硬件资源上也投入颇多,目标在 5 年内完成相当于 5000 万台 H100 GPU 同等算力的部署。

其专门为 Grok 系列打造的超级计算集群Colossus,已经部署了约 23 万张 GPU。其中包括 3 万张 NVIDIA GB200(基于 Nvidia 的 Blackwell 架构),将会持续为 Grok 提供强大的算力支持。

不过 Grok 5 究竟能否真正实现 AGI,网友们对此也提出了质疑:毕竟要成为 AGI 靠的可不仅仅是数据和马斯克的声明,一切还得看成品

所以究竟谁才是能吃到第一只 AGI 螃蟹的 AI 公司,且让我们拭目以待。

参考链接:

[ 1 ] https://x.com/elonmusk/status/1968196086193066365  

[ 2 ] https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again

[ 3 ] https://ctpang.substack.com/p/e760eba7-c8b3-4fda-b631-61b89dd0d0fd

[ 4 ] https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-xai-is-targeting-50-million-h100-equivalent-ai-gpus-in-five-years-230k-gpus-including-30k-gb200s-already-reportedly-operational-for-training-grok

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者  点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 python 谷歌 效果 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论