马斯克的Grok 5偷偷藏不住了。
刚刚 ARC-AGI 榜单官宣出现新SOTA,用的还是Grok 4+ 程序合成技术微调。
好小汁,啥时候开始 Grok 都弯道超车了?OpenAI、Anthropic、谷歌一众明星模型都被压一头。
一石激起千层浪,网友纷纷发问,那等Grok5出来,岂不是……
马斯克也随即出来回应:
我现在认为 Grok 5 能达到 AGI。
顺便附赠了一堆有关 Grok 5 的爆料。
马斯克疯狂剧透 Grok 5
这事还得从 Grok 4 超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize 发布了两个最新的ARC-AGI榜单 SOTA 方案:
都是开源的。
都使用的是 Grok 4 作为基础模型。
都实现了带测试自适应的程序合成外循环。
先简单介绍一下 ARC-AGI 排行榜,其旨在评估 AI 解决复杂难题的能力,类似于人类的智力测试,从而反映 LLM 的推理能力。
测试任务包含 v1 和 v2 版本,v2 需要 LLM 完成更多的多步骤推理,一般来说,即使是最优秀的 LLM 也只能在 v2 中获得16%的准确率。
GPT-5在二者上的得分依次是 65.7% 和 9.9%,Claude Opus 4的得分是 35.7% 和 8.6%,而Grok 4则是 66.7% 和 16%。
Jeremy Berman 的新方案则是在 Grok 4 基础上,用英语替代了传统的 Python,最终得分来到 79.6% 和 29.44%。
Eric Pang 则在 Jeremy 的工作上,设计了一个受DreamCoder启发、LLM 辅助的程序合成系统,能够通过从不断扩展的程序库中学习来解决越来越难的任务。
虽然得分没有进一步升高(77.1% 和 26%),但是成功让每个任务的平均费用得以下降(v1:8.42 美元→ 2.56 美元;v2:30.4 美元→ 3.97 美元)。
当问及两位作者选择 Grok 4 的理由,他们均表示,这是他们测试下来效果最好的模型。
当中所体现出的 AGI 潜力,也让马斯克感到自豪,随即透露了一系列有关Grok 5的消息。
老马表示,这才只是 Grok 4,而 Grok 5 将很有可能达成AGI。
而这个可能性也许能达到 10% 或者更高,要知道他此前并不认为 Grok 版本会出现 AGI。
与此同时,他表示Grok 5 将会在几周之内开始训练。
加上此前他曾表示 Grok 5 将在今年年底前推出,或许我们将在不久后见证新的 "LLM 怪物 " 诞生。
所以为什么老马能对 Grok 5 抱以如此强烈的信心呢?
训练数据及硬件资源的投入
归根结底,是马斯克在 Grok 训练中投入之深。
据悉,Grok 5 将拥有较之前代更多的训练数据。
Grok 4 的训练量是 Grok 2 的 100 倍、Grok 3 的 10 倍,而 Grok 5 则只会更多。
马斯克拥有一整套的最新真实数据收集体系,其中xAI可以为其提供最新的直接数据,特斯拉可以定期利用 FSD 和摄像头捕获图像从而生成数据,而擎天柱机器人也能从现实世界中生成大量数据。
可以说,马斯克在当下数据为王的时代,最不缺的就是数据。
此外,xAI 在硬件资源上也投入颇多,目标在 5 年内完成相当于 5000 万台 H100 GPU 同等算力的部署。
其专门为 Grok 系列打造的超级计算集群Colossus,已经部署了约 23 万张 GPU。其中包括 3 万张 NVIDIA GB200(基于 Nvidia 的 Blackwell 架构),将会持续为 Grok 提供强大的算力支持。
不过 Grok 5 究竟能否真正实现 AGI,网友们对此也提出了质疑:毕竟要成为 AGI 靠的可不仅仅是数据和马斯克的声明,一切还得看成品。
所以究竟谁才是能吃到第一只 AGI 螃蟹的 AI 公司,且让我们拭目以待。
参考链接:
[ 1 ] https://x.com/elonmusk/status/1968196086193066365
[ 2 ] https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again
[ 3 ] https://ctpang.substack.com/p/e760eba7-c8b3-4fda-b631-61b89dd0d0fd
[ 4 ] https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-xai-is-targeting-50-million-h100-equivalent-ai-gpus-in-five-years-230k-gpus-including-30k-gb200s-already-reportedly-operational-for-training-grok
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦