智东西 02-18
全球华人决战AI之巅!马斯克Grok 3险胜DeepSeek,疯狂启动钞能力,压力给到OpenAI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者|陈骏达 程茜

编辑|心缘

智东西 2 月 18 日报道,刚刚,基于 20 万块的 GPU 集群训练,马斯克口中地球上最聪明的 AI Grok-3 终于亮相!

此次直播伊隆 · 马斯克(Elon Musk)主要负责听,两位华人研究员坐在 C 位撑场,分别是曾就职于谷歌的研发小组 N2Formal 的吴宇怀(Yuhuai "Tony" Wu),以及多伦多大学计算机科学助理教授Jimmy Ba,他是 " 深度学习三巨头之一 "、图灵奖得主辛顿的学生,曾在 Meta 担任研究员。

▲ Jimmy Ba(左二)、吴宇怀(左三)、伊隆 · 马斯克(最右)

此次,xAI 发布了Grok-3、Grok-3 mini,两个推理模型Grok-3 ReasoningGrok-3 mini Reasoning,首个 AI 智能体DeepSearch。Grok-3 在基准测试中击败了 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。社交平台 X 的Premium Plus 订阅用户在 Grok 的应用程序和网页端可以体验推理、编程,以及DeepSearch 的搜索能力

此外,xAI 还开启了单独的会员订阅计划 SuperGrok,SuperGrok 的价格为每月 30 美元(折合约 218 人民币)每年 300 美元(折合约 2184 人民币),可解锁额外的推理DeepSearch 查询,以及无限的图像生成功能

OpenAI 联合创始人、前特斯拉 AI 总监、知名计算机科学家李飞飞的爱徒安德烈 · 卡帕西(Andrej Karpathy)在推特发文评价 Grok-3:"Grok-3+Thinking 感觉与 OpenAI 最强大的模型 o1-pro(每月 200 美元)相当,略好于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。"

▲ AI 大神卡帕西评价 Grok-3 的部分截图(图源:X,经谷歌翻译为中文)

万众期待的语音功能此次并未展示,马斯克透露,最快一周后 Grok 将获得 " 语音模式 "。几周后,xAI 将在企业 API 中提供 Grok-3 模型与 DeepSearch 功能。几个月后,xAI 将开源 Grok-2。

直播最后放出了 Grok 用马斯克声音对话的彩蛋~

一、Grok-3 现场思考卡壳,水平与本科毕业生相当,2 年内要上火箭

现场演示环节中,Grok 被考验了两个任务,一是现场设计了一条往返地球与火星间的合理路径,并用动画呈现,二是设计一款类似俄罗斯方块的消消乐游戏。在演示中 Grok" 思考卡壳 ",因为显示 "Thinking Hard" 后很长一段时间没有反应,等待几秒后演示人员关闭了页面开启下一话题。

之后演示人员又回到思考页面,分析了 Grok 的生成结果。

首先是其现场设计的一条往返地球与火星间的合理路径。提示词是 " 制作从地球降落在火星,然后在下一个发射窗口返回地球的发射动画三维图表并生成代码 "。不过,测试人员在 Grok-3 mini 解决问题的过程中打断了它,并切换到了能力更强大的满血版 Grok-3。

114 秒后,Grok-3 解决了这一问题,具有航空航天经验的马斯克现场评价道,Grok 给出的解决方案基本正确,他还煞有介事宣称,2 年内 Grok 将会接入 SpaceX 的火箭。在场的员工马上调侃,说马斯克 " 预言什么都是两年内 "。

在设计一款类似俄罗斯方块的消消乐游戏时,Grok 生成的代码在复制后即可运行。其提示词是 " 制作一个结合了俄罗斯方块和宝石的游戏,代码可能很长,将其输出为一个文件,让它变得非常棒 "。最后游戏的运行机制比较合理。马斯克同时宣布,xAI 将成立一个游戏工作室,使用 AI 进行游戏的开发工作。

Agent 能力目前已经是各家大模型企业都在押注的方向,xAI 也不例外。他们给模型配备了更多的工具,本次 Grok-3 已经具有Deep Search 功能,xAI 称其为初级 Agent 能力。

演示中,测试人员开启 DeepSearch 功能,让 Grok-3 预测 SpaceX 下一次火箭发射的时间。回答问题时,Grok-3 既会给出思维链内容的总结,也会将完整思维链提供给用户。它的搜索范围十分广泛,从 X 平台上的内容到百科网站,再到美国政府的相关文件。

进行 DeepSearch 时,Grok-3 还会充分考虑用户问题背后的意图、需求和目的,也会对信息来源进行交叉检验,从而给出更为准确的回答。

已经有抢先体验的用户在 X 发布了 100% 由 Grok-3 生成的游戏,用户只需要告诉它我想要什么,并将代码放在正确的位置,就可以得到一个完整的游戏。

在内部,研究人员发现 Grok 已经可以解决许多复杂的工程问题,节省大量时间,水平大致相当于一名本科毕业生。而 17 个月前,Grok 还很难解决高中数学问题。

二、20 万块 GPU 力大砖飞,性能击败 o3-mini high、DeepSeek-R1

直播演示中提到,Grok-3 所涉及的训练量是 Grok 2 的10 倍,这都建立在 xAI 孟菲斯的 AI 超级计算机集群之上。该集群建造的第一阶段,xAI 在 122 天内建成了拥有 10 万块 NVIDIA H100 GPU 的超级计算集群,第二阶段拓展到20 万块 GPU 集群仅用了 92 天。

基准测试结果显示,Grok-3 在评估模型在数学问题样本上性能的 AIME 和使用博士水平的物理、生物学和化学问题测试模型 GPQA、LCB Oct-Feb 中击败 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。

Grok-3 的早期版本在 Chatbot Arena 中获得 1400 分,排名第一。Chatbot Arena 是一项众包测试,让不同的 AI 模型相互竞争,并让用户对他们喜欢的回答进行投票。Grok-3 也是有史以来第一个突破 1400 分的模型。

xAI 发布的推理模型早期版本 Grok-3 Reasoning Beta,在最新的数学基准测试 AIME 2025 中达到 93 分,在 GPQA 上达到 85 分,这超过了 o3-mini 的最佳版本 o3-mini high 以及 DeepSeek-R1。

此外,用户还可以打开"Big Brain"模式让 Grok 进行额外、更仔细的推理。xAI 将该模式描述为最适合数学、科学和代码相关问题的功能。马斯克还提到,他们隐藏了一些推理过程,以防止蒸馏。

对于开源,几个月后 xAI 将开源 Grok-2。马斯克说:" 我们的方法是当下一个版本完全发布时,将开源 Grok 的上一个版本,也就是当 Grok-3 成熟稳定时,我们将开源 Grok-2。"

xAI 认为预训练模型远远不够,真正的 AI 需要具备反思、第一性原理检验等能力。他们通过强化学习让 Grok-3 学会了上述能力,实现了训练和推理时的两种 Scaling Law。

Grok 团队成员还透露,Grok-3 的语音交互功能是通过原生语音交互模型实现的,模型将能够直接理解用户语音,然后生成对应的语音回复,是一个端到端的过程,无需语音转文字、文字转语音作为中间环节。

马斯克称,未来他们将会进一步加大数据中心的建设力度,xAI 的下一个计算集群会成为世界上最强大的集群,能耗达到 1.2GW,相当于数十万户家庭 1 年的用电量。

三、基于合成数据训练,计划筹集约 100 亿美元资金

值得一提的是,这次直播马斯克又姗姗来迟,推迟 18 分钟开始,但最后 X 上 xAI 官方账号中的直播观看人数已经超过 286 万人次。刚下直播马斯克就马不停蹄转发、点赞科技播客顶流 Lex Fridman、AI 大神卡帕西等对 Grok-3 的赞美。

在 Grok-3 发布之前,马斯克就按耐不住在 X 上让 Grok-3 秀技能。

他让 Grok 仿照电影《指环王》中 " 戒指之诗 " 做了工程师版诗歌:" 以 lor ’ s ring 诗句的风格介绍戒指的起源,指派工程师进行高级大模型搜索、代理、记忆、幽默的工作,使其接近原作 "。

Grok 生成的诗歌最后还有对专有名词的注释,与原著如何对应等。

法新社此前报道,Grok-3 是在合成数据上接受训练的,并且能通过检查数据来反映它所犯的错误以达到逻辑一致性。

融资方面,上周,据媒体援引消息人士报道,xAI 还正在接洽潜在投资者,计划筹集约 100 亿美元资金,此轮融资可能使该公司估值达到约 750 亿美元。去年 12 月,xAI 宣布完成 C 轮融资,筹集了 60 亿美元。xAI 总融资额已经达到 120 亿美元(约合人民币 876 亿元)。

结语:马斯克继续押注大算力 AI

本次发布的 Grok 3 无论是在训练集群规模、用电量上都是首屈一指的,这也在一定程度上转化为了 Grok 3 在多个基准测试上的 SOTA 表现。根据马斯克在采访中的言论,未来 xAI 可能还会继续押注大算力 AI 这条发展路径。

不过,也有海外网友犀利的评价道,自 DeepSeek-R1 之后,我们只应考虑效率更高的进步,而不仅仅那些规模更大、且比竞争对手耗能更多的进步。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 谷歌 三巨头 计算机 多伦多大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论