Metaverse元宇宙 02-19
“9.11比9.9大”,Grok3还不如小学生?“最聪明的AI”翻车
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 大模型的数字陷阱,连 Grok-3 都翻车

日前,马斯克与 xAI 团队,在直播中正式发布了最新版本 Grok3。

此前,马斯克将 Grok-3 描述为 " 地球上最聪明的 AI"。他在 X 平台上表示:" 自己整个周末都在和团队打磨产品。"

不过,据媒体报道,有人测试了最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:"9.11 与 9.9 哪个大 ?" 遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok3,仍然无法正确回答这个问题。

难道马斯克口中 " 地球上最聪明的 AI" 就给出了这种答案吗 ?Grok3 到底行不行 ?

9.11 和 9.9 哪个大这个看似很简单的问题为什么 Grok3 会出现错误呢 ? 其实,大模型在处理 "9.11" 时,可能会将其拆分为 "9"、"11" 两个部分。由于小数点后的 "11" 大于 "9",这导致了错误地判断。

而且,在某些情况下,如日期或章节编号,9.11 确实比 9.9 大。例如,"9 月 11 日 " 比 "9 月 9 日 " 晚," 第 9 章第 11 节 " 也比 " 第 9 章第 9 节 " 晚。大模型可能在学习过程中积累了这些 badcase,从而产生了错误的判断。

还有,在分析大模型的底层注意力机制时,我们发现大模型对小数点后的 "11" 和 "9" 更为关注。这可能是导致错误的原因之一。然而,当我们排除这些明显的可能性时,问题可能出在位置编码或大模型更底层的推理逻辑上。

因此,不仅是 Grok3,包括 ChatGPT 在内的很多大模型都在这个问题上跌了跟头。

值得一提的是,用同样的问题询问 DeepSeek 时,无论是否开启深度思考 ( R1 ) 模式,对方都给出了正确的答案:9.9 大于 9.11。

而且,除了这个数字问题外,在 xAI 发布会直播中,在分析游戏《流放之路 2》的职业与升华效果时,Grok 3 也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。

尽管在官方 PPT 中,Grok3 在大模型竞技场 Chatbot Arena 中看似 " 遥遥领先 ",但实际上其与 DeepSeek R1 和 GPT4.0 的差距仅为 1% 到 2%。

不过,对此这个问题马斯克并不以为然,其公开回应称,当前的 Grok 3 仅是测试版,这个阶段错误越多越好,而完整版将在未来几个月推出,并邀请用户反馈使用问题。

另外,此外,马斯克在直播中透露,未来,最快一周后 Grok 应用程序将具备 " 语音模式 ",这将为 Grok 模型提供合成语音。几个月后,xAI 将开源上一代模型 Grok 2。" 我们的一般做法是,当下一个版本完全推出时,我们将开源上一个版本 ( Grok ) 。"

马斯克曾多次警告说,人工智能会给人类文明带来风险,但他仍在极力推动加大对这一领域的投资。

我们从本次发布的 Grok 3 里面,可以看出来,马斯克还是押注大算力 AI,Grok 3 无论在训练集群规模、用电量上都是首屈一指的,这也在一定程度上转化为了 Grok 3 在多个基准测试上的 SOTA 表现。不过,马斯克这次押注能不能成功,我们还要接下来继续看 AI 的发展。

更多内容

    AI                  XR                 机器人

科技趣闻         硬件评测            科技文旅

粉丝激励计划现已开启!加入我们的群组,一起探讨、分享、评论最新文章即可有机会领取红包奖励,扫码即刻加入!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 效果 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论