导语:Grok 4.5 进入 SpaceX 和 Tesla 内部私测,1.5 万亿参数 V9 架构 +Cursor 编程数据,马斯克称每月将发布一个新模型
Grok 4.5 先在火箭厂和汽车厂跑,实验室之外的另一种验证
6 月 28 日,马斯克在 X 平台宣布,其最新模型 Grok 4.5 已进入 SpaceX 和 Tesla 内部私测阶段。
Grok 4.5 基本参数:
底层架构:xAI 自研 1.5 万亿参数 V9 基础架构
补充训练:引入 Cursor IDE 编程数据
内部评估:能力接近甚至超越 Claude Opus 4.8
强化学习训练仍在持续优化,外部访问时间未定
马斯克同时透露,SpaceX 计划今年每月发布一个全新训练的模型。
为什么值得关注:
这是 AI 前沿模型直接在工业环境(火箭制造、汽车量产)中首轮验证的罕见案例。相较于实验室基准,SpaceX 和 Tesla 代表的是更高复杂度、更高容错成本的真实工程场景。
引入 Cursor 数据做补充训练的选择也很清晰:xAI 在快速追平编程能力短板上不绕弯子。这个方向与当前各家实验室重点布局 Agentic Coding 高度一致,Grok 4.5 的工业私测,在某种意义上也是 Agentic Coding 能力的实战压测。
AI 模拟创业,七成模型 " 破产 "
据 The Decoder 6 月 28 日报道,普林斯顿大学研究团队推出 CEO-Bench 基准,让 AI Agent 在模拟环境中运营订阅软件公司NovaMind 500 天,起始资金 100 万美元。
最终盈利排行(最佳运行):

14 个测试模型中,仅 3 款在最佳运行中盈利超过初始资本。其余模型均在模拟结束前破产。
这个结果挑战了什么:
一个不调用任何语言模型、仅依赖固定规则的启发式算法,以 1576 万美元的盈利超越了除前三名外的所有 AI 模型。这直接戳穿了 " 更强的推理能力等于更强的商业决策能力 " 这一预设。
多数模型的失败不在于单轮决策,而在于长周期策略的连贯性——它们无法在 500 天的时间跨度内维持一致的经营方向。简单规则在这里的竞争力,恰恰暴露了当前顶级 AI 在 " 持续决策 " 上的明显短板。
CEO-Bench 的价值在于将 AI 能力评估从 " 回答问题 " 扩展到 " 跨时间步的持续决策 " ——这对企业评估 AI 在实际经营中的可用边界,提供了比传统基准更务实的参考框架。
AI 打《文明 VI》:能造核弹,却不主动看地图
据 IT 之家 6 月 28 日报道,英国前首相府数据科学家 Liam Wilkinson 为四款顶级 AI 模型搭建了含 76 个 MCP 工具的《文明 VI》对局环境,进行了 23 场对局。
标志性事件: Claude 扮演葡萄牙时,因法国文化胜利逼近,花费 50 回合研发并使用核武器摧毁图卢兹——但最终仍被法国以外交胜利击败。
关键数据:

企业启示:
这项研究的核心结论颇具说服力:AI 的战略短板不在于智识层面(它会造核弹、会算战略价值),而在于两个行为缺陷:
这与普林斯顿 CEO-Bench 的发现高度吻合:长时间复杂任务中,AI 的跨步连贯性是当前明确的能力天花板。
对企业部署 AI Agent 的实际启示:高智能不等于高可靠。凡是需要持续状态感知和多步骤执行的工作流,仍需设计明确的触发机制与人工检查节点,而不是假设 AI 会主动 " 抬头看路 "。
新浪发布 3B 参数开源推理模型
据 The Decoder 6 月 28 日报道,新浪发布仅 3B 参数的开源推理模型 VibeThinker-3B。
模型表现:

核心假说与长远意义:
研究团队提出 " 参数压缩 - 覆盖假说 ":逻辑推理依赖少数可压缩的模式,而广泛世界知识仍需大参数存储。
这个假说若成立,意味着参数量大小不是推理能力的决定因素,而是知识覆盖度的决定因素。3B 参数可在消费级设备本地运行,若数学编程能力真实可靠,部署成本优势显著。
但 " 推理强、知识弱 " 的特性也划定了清晰边界——适合代码生成、数学证明等结构化任务,不适合需要广泛领域知识的开放问答场景。更重要的是,它为未来 " 小参数推理引擎+ 外部知识库 " 的混合架构提供了理论依据,这条路线在边缘端和企业私有部署场景中具有明显的实践吸引力。
结语
AI 的能力边界正在被深度测量。
Grok 4.5 选择工业私测而不是先刷榜,是用真实场景替代实验室基准。CEO-Bench 和《文明 VI》研究从两个方向揭示了同一个短板—— AI 可以在单轮任务上表现出色,但在需要持续状态感知和长周期策略一致性的场景中,连规则算法都可能跑赢它。VibeThinker-3B 则从另一个角度揭示了能力的结构:推理可以压缩,知识不能。
这些发现对企业部署 AI Agent 的实际指导意义比任何基准排行都更直接:把 AI 用在结构清晰、周期可控的任务上,在长周期动态决策中设计人工介入点,在需要广泛知识判断的场景中不要依赖小模型。 能力边界越清晰,用对地方的概率就越高。
(本文为艾瑞网独家原创稿件 转载请注明出处)


登录后才可以发布评论哦
打开小程序可以发布评论哦