智东西 07-10
马斯克推最强Grok 4!人类终极测试干翻OpenAI,包月费超2千元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 心缘

智东西 7 月 10 日报道,今日,马斯克的 AI 公司 xAI 发布其最新旗舰大模型 Grok 4 和多智能体版本 Grok 4 Heavy,并推出史上最贵的每月 300 美元(约合 2153 元人民币)的 AI 订阅计划 Super Grok Heavy。

在 " 人类的最后考试 "(Humanity ’ s Last Exam)中,Grok 4 在无需 " 工具 " 的情况下取得了 25.4% 的准确率,超过了谷歌 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高版本)的 21%。

配备 " 工具 " 的 Grok 4 Heavy 获得 44.4% 的得分,优于配备工具的 Gemini 2.5 Pro 的 26.9%。

Grok 4 在 Humanity ’ s Last Exam 测评中取得第一

" 就学术问题而言,Grok 4 在各个学科上都比博士水平高,无一例外。" 马斯克在直播中说," 有时,它可能缺乏常识,而且它还没有发明新技术或发现新的物理学说,但这只是时间问题。"

埃隆 · 马斯克在直播中发言

xAI 还推出了迄今为止最昂贵的 AI 订阅计划——每月 300 美元的 Super Grok Heavy。订阅者可以抢先体验 Grok 4 Heavy,并抢先体验新功能。这些新功能包括但不限于:将于 8 月推出的 AI 编码模型,9 月推出的多模态智能体,以及 10 月推出的视频生成模型。

每月 300 美元的 Super Grok Heavy 正式推出

直播结束后,马斯克在 X 上发文称:" 你可以将整个源代码文件剪切并粘贴到 Grok 上的查询输入框中,然后 @Grok 4 会帮你解决,比 Cursor 更好用。"

马斯克在社交平台 X 上发言

除此之外,xAI 推出了 Grok 4 API。xAI 的企业部门仅成立两个月,但它计划与超大规模企业合作,通过其云平台提供 Grok。

近几个月来,xAI 不仅拿下 100 亿美元最新融资,还收购了社交平台 X,这也让最新推出的 Grok 4 成为产业的关注焦点。Grok 4 能否成为对打 OpenAI 计预告今夏推出的 GPT-5 的有力对手?让我们来一起先睹为快。

一、Grok 4 测评赶超 OpenAI o3,马斯克:科研能力强过人类博士

马斯克在直播中称,在人文、语言、数学、物理、工程等多个基准测试中,Grok 4 都取得了好成绩。" 有些人认为 AI 不能推理,但 Grok 4 的推理能力可以超越人类水平,比几乎所有学科的研究生同时都聪明。" 马斯克说。

xAI 的研究人员称,Humanity ’ s Last Exam 测试极具挑战性,总共有 2500 个问题,包括数学、自然科学、工程以及所有人文学科,问题广泛且都是博士甚至高级研究水平,Grok 4 在这些问题上可以得到很好的分数。

Grok 4 在无需 " 工具 " 的情况下,在 " 测试中获得了 25.4% 的准确率,超过了谷歌 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高版本)的 21%。马斯克称,在学术问题方面,Grok 4 比每个学科的博士水平都要好,现在没有例外。他预测 Grok 4 最快今年就能去发明新技术了,两年之内就能发现新物理学说。

在 GPQA、AIME25、LCB(Jan-May)、HMMT25 等多项测评中,Grok 4 都超越了 OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。

而在 ARC-AGI-2 测试中,Grok 4 取得了新的最高得分,得分为 16.2%。ARC-AGI-2 测试是另一项高难度基准测试,包含类似谜题的问题,要求 AI 识别视觉模式。Grok 的得分几乎是排名第二的商业 AI 模型 Claude Opus 4 得分的两倍。

二、训练量级达到 Grok 2 100 倍,Grok 4 将与人形机器人互动

从 Grok2 到 Grok 4,每一次迭代 xAI 都增加了一个数量级的训练,因此 Grok 4 的训练量级达到了 Grok 2 的 100 倍,这使得智力增长非常显著。

这是 xAI 第一次像预训练一样扩大训练规模。基于拥有 10 万块 H100 GPU 的超级算力中心,训练主要包括两种类型:一个是从 Grok 2 到 Grok 3 到的预训练,一个是从 Grok 3 到 Grok 4 在推理中投入了大量的算力。

谈及幕后,如图所示,当投入越来越多的训练算力,模型开始逐渐变得越来越聪明,最终在没有任何工具的情况下,解决了四分之一的 Humanity ’ s Last Exam 测试问题。

接下来研发人员做的是向模型中添加工具功能。与 Grok 3 不同的是,研发人员使其更加本地化,将工具放入训练中,从而显着提高了模型使用这些工具的能力。

马斯克透露,今年晚些时候,Grok 4 还将融合有限元分析、计算流体动力学等更强大的工具进行训练,将打造非常精确的物理模拟器,比如去做提供精确的黑洞模拟等任务。最终,Grok 4 最大的区别在于,其将能够通过人形机器人(如擎天柱)与现实世界互动。

马斯克说,我们正处于智能大爆炸的开端。我们需要确保 AI 是一个好的 AI,安全最重要的事,AI 需要最大限度地寻求真理。你可以把 AI 看作是超级天才的孩子,最终会比你聪明,但你仍然可以灌输正确的价值观并鼓励它长成想要的样子。

除了计算之外,还有一个技术问题是数据瓶颈。研发人员称,在强化学习训练过程中,他们实际上已经没有可用来测试的问题了,已有的问题对 AI 来说正在迅速变得微不足道。

但马斯克称,最能出色判断事物的就是现实。如果物理学是定律,最终其他一切都是建议。你不能打破物理。因此,我认为对于 AI 的最终测试是现实。就像你发明一项新技术,比如改进汽车或火箭,它有效吗?现实才是最终的裁判。所以这将是一个围绕现实的强化学习闭环。

三、现场演示:看论文进行现实模拟,语音模式延迟减少一半

xAI 研究员在直播中演示了 Grok 4 回答问题的能力。

Grok 4 的一大特点是能够理解世界,并通过利用工具来解决难题。比如要求 Grok 4 生成两个黑洞碰撞的可视化图像,它有一些清晰的思考过程,比如,为了让它真正可见,Grok 4 考虑到通过海浪的形式扩放它的规模。从思考过程看,Grok 4 使用了搜索,从一堆链接中收集结果,参考了现有的现实世界数据,而且还阅读了分析引力波模型的本科论文。

除此之外,xAI 还演示了 Grok 4 解答数学问题、创建一个基于 X 个帖子的时间线、查看 Humanity ’ s Last Exam 测试成绩等问题。

在多模态测试方面,Grok 4 分数略有下降。马斯克坦言,Grok 4 的基本弱点是它部分盲目地理解图像生成偏好。Grok 4 的多模态理解能力正在改进,这些问题将在几周内实现改善。

Grok 4 的语音模式也进一步更新,已将延迟减少了一半。Grok 4 今天推出一系列更具自然性和韵律的新声音,API 版本也将发布。

四、推出 Grok 4 企业 API,编程、多模态、视频模型在路上

xAI 的企业部门仅成立两个月,但它正在通过其 API 发布 Grok 4,已有各行业企业通过云平台使用了 Grok 4。

聚焦现实的自动售货机商业场景,xAI 的客户团队采用了大模型管理库存、联系供应商,大多数模型在去进行长线任务时都很困难。但使用了 Grok 4 API 之后,团队获得了令人印象深刻的结果。它设法运行模拟的时间翻了一倍,得分也翻了一倍,前后能保持较强一致性。

聚焦 AI 创作游戏方面,Grok 4 可以在 4 个小时内制作的第一人称射击游戏。制作游戏并不一定是对游戏的核心逻辑进行编码,而是去寻找所有资源、文件素材,以创建一个具有视觉吸引力的游戏。对于开发人员来说,你可以专注于核心开发本身,让 Grok 4 去整理所有资产,自动化完成任务。

未来 Grok 4 将具有出色的视频理解和改进的工具使用能力,例如可以使用虚幻引擎生成艺术品模型,然后创建一个可在 PC 或手机上运行的可执行文件。xAI 预计第一个真正优秀的 AI 视频游戏将在明年出现。

除此之外,马斯克透露,团队目前正在加大力度训练编码模型,在未来几周内将推出一个专业的编码模型。编码任务展现了 Grok 4 的弱点,即多模态能力。就像透过玻璃眯着眼睛看世界,看到所有模糊的特征,并试图感知它。xAI 将在下一代模型中看到的最直接改进是,模型在理解图像和音频方面会能力逐步提高。

在视频模型方面,xAI 将在接下来三到四周开始训练一个新的视频模型,具备出色视频生成和理解能力。

结语:抢发 Grok 4,马斯克对战 GPT-5

Grok 4 在高难度测试中展现的 " 超越博士水平 " 的推理能力,在理解和解决复杂问题方面迈出了关键一步。其通过工具加持实现的新能力,以及雄心勃勃的多模态与视频生成路线图,展现了 xAI 与即将发布的 OpenAI GPT-5 竞赛的决心。

在 To B 端落地,xAI 正加速将 Grok 4 的能力从企业应用到零售、游戏创作等领域。同时,马斯克强调的 " 安全至上 " 与 " 寻求真理 " 的 AI 发展原则,以及对现实世界作为最终测试场的认知,为这场席卷全球的智能爆炸提供了不可或缺的思考维度。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 物理 社交平台 埃隆马斯克
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论