量子位 23小时前
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

刚刚,马斯克发布 Grok 4.1,同时霸榜大模型竞技场的第一和第二。

怎么做到的?

Grok 4.1 思考模式以 1483 的 Elo 分数稳居榜首,领先非 xAI 模型中的最高分整整 31 分。

Grok 4.1 非思考模式以 1465 分拿下第二名,超越了公开排行榜上所有其他模型的完整推理模式。

之前的 Grok 4 在排行榜上仅排第 33 位。不到半年时间,xAI 就实现了巨大飞跃。

在大模型竞技场新推出的专家榜和职业榜上,Grok 4.1 思考模式同样霸榜。

专家榜中的题目预计只有各自领域的顶尖专家才会提出,职业榜分为八个细分:

软件和 IT 服务,写作、文学和语言,生命科学、物理科学和社会科学,娱乐、体育和媒体,商业、管理和财务运营,数学、法律与政府,医疗保健

Grok4.1 目前只在文学榜上输给 Gemini2.5,数学榜输给 Claude4.5 和 o3,其他六个榜单均拿下第一。

不过由于模型刚发布,投票数还很少,等 "Preliminary" 标记消失(超过一定票数)后的成绩更有参考价值。

在非用户投票的 EQ-Bench 情商测试中,Grok 4.1 的表现同样出色,超过刚发布不久的 Kimi K2(但不是 Thinking 版本)。

EQ-Bench 是一个由大语言模型评判的测试,评估主动情商能力、理解力、洞察力、同理心和人际交往技能。

Grok 4.1 原来早就暗中测试了。

从 11 月 1 日起,新版模型被逐步推送越来越多的用户,期间持续进行盲测对比评估,64.78% 的用户更喜欢新版。

xAI 官网给出了 Grok4.1 与之前版本在各个方面的回答对比。

响应情感问题:

创意写作:

xAI 在技术报告中特别强调,Grok 4.1 在创造性、情感性和协作性互动方面带来了显著改进。模型变得更加善于捕捉细微的意图,对话更有吸引力,个性表现更加连贯,同时完全保留了前代产品的敏锐智能和可靠性。

为了实现这些提升,团队使用了支撑 Grok 4 的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、有用性和对齐性。他们开发的新方法让前沿智能推理模型作为奖励模型,能够自主评估和迭代响应。

xAI 负责后训练的 Dust Tran 分享了更多细节,主要改进在强化学习上,将 RLHF 推向前所未有的高度。

在过去的几个月里,我们这个由十几人组成的团队利用用户在真实对话中的偏好,以及基于强大推理能力进行评分的智能体奖励模型,对强化学习 ( RL ) 的算法进行了全面改进 .

此外,我们还将 RL 的规模扩大了一个数量级,远超 Grok 4 中现有的类似预训练的规模。

Grok 4.1 对不需要思维链推理的快速回复模式做了特别加强。关闭推理功能后,输出标记数从约 2300 个减少到 850 个。

此外 Grok 4.1 还重点改善了幻觉问题。

配备搜索工具的非推理模型可以快速给出答案,但由于推理深度受限和工具调用预算有限,很容易出现事实错误。

在 Grok 4.1 的后训练阶段,专注于减少信息检索提示中出现的事实性幻觉。随后观察到,对于抽样生成的信息检索提示,幻觉发生率显著降低。

在包含 500 个个人传记问题的 FActScore 测试中,Grok 4.1 非推理模式的成绩也比前一代有明显改善。

在更多示例中,Grok 4.1 还展示出可以输出图文并茂的回答。

目前,Grok 4.1 已经在 grok.com、X 平台以及 iOS 和 Android 应用上向所有用户开放,默认以自动模式推出,用户也可以在模型选择器中明确选择 Grok 4.1。

参考链接:

[ 1 ] https://x.ai/news/grok-4-1

[ 2 ] https://x.com/arena/status/1990530984014676155

[ 3 ] https://x.com/dustinvtran/status/1990532663258853720

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

聊 AI,当然得来量子位 MEET2026 智能未来大会

张亚勤、孙茂松等首波 AI 行业重磅嘉宾已确认出席,还有更多嘉宾即将揭晓  了解详情

  12 月 10 日

北京金茂万丽酒店

,期待与你共论 AI 行业破局之道  

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 文学 数学 技能 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论