IT之家 02-19
号称“地球上最聪明的AI”,Grok 3竟答不出9.11和9.9哪个大
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 2 月 19 日消息,昨天马斯克及其 xAI 团队在直播中正式发布了 Grok 3,此前马斯克通过持续的预热宣传,将外界对 Grok3 的期待值推向了前所未有的高度。马斯克称 Grok 3   为,然而其实际表现似乎对不起这个名号。

IT 之家注意到,在发布会上,马斯克宣称 Grok 3 在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于 SpaceX 的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。

但 Grok   3 的实际测试表现却让人大跌眼镜。发布后,一些媒体测试了最新的 Beta 版 Grok 3,并提出了那个经典的用来刁难大模型的问题:"9.11 与 9.9 哪个大?" 遗憾的是,号称目前最聪明的 Grok 3,仍然无法正确回答这个问题,被网友戏称为 " 天才不愿意回答简单问题 "。

此外,在 xAI 发布会直播中,在分析游戏《流放之路 2》的职业与升华效果时,Grok   3 也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。

尽管在官方 PPT 中,Grok3 在大模型竞技场 Chatbot Arena 中看似 " 遥遥领先 ",但实际上其与 DeepSeek R1 和 GPT4.0 的差距仅为 1% 到 2%。

马斯克在发布会上透露,Grok 3 使用了超过 20 万张 H100 芯片,总训练小时数达到两亿小时。作为对比,DeepSeek V3 仅使用 2000 张 H800 芯片训练两个月,其性能却与 Grok 3 相差无几。这表明,随着模型规模的不断扩大,性能提升的边际效应已经显现。

值得一提的是,马斯克在社交媒体上表示,当前的 Grok 3 仅是测试版,完整版将在未来几个月推出,并邀请用户反馈使用问题。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 芯片 it之家 spacex
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论