Grok 4.5工业私测

导语：Grok 4.5 进入 SpaceX 和 Tesla 内部私测，1.5 万亿参数 V9 架构 +Cursor 编程数据，马斯克称每月将发布一个新模型

Grok 4.5 先在火箭厂和汽车厂跑，实验室之外的另一种验证

6 月 28 日，马斯克在 X 平台宣布，其最新模型 Grok 4.5 已进入 SpaceX 和 Tesla 内部私测阶段。

Grok 4.5 基本参数：

底层架构：xAI 自研 1.5 万亿参数 V9 基础架构

补充训练：引入 Cursor IDE 编程数据

内部评估：能力接近甚至超越 Claude Opus 4.8

强化学习训练仍在持续优化，外部访问时间未定

马斯克同时透露，SpaceX 计划今年每月发布一个全新训练的模型。

为什么值得关注：

这是 AI 前沿模型直接在工业环境（火箭制造、汽车量产）中首轮验证的罕见案例。相较于实验室基准，SpaceX 和 Tesla 代表的是更高复杂度、更高容错成本的真实工程场景。

引入 Cursor 数据做补充训练的选择也很清晰：xAI 在快速追平编程能力短板上不绕弯子。这个方向与当前各家实验室重点布局 Agentic Coding 高度一致，Grok 4.5 的工业私测，在某种意义上也是 Agentic Coding 能力的实战压测。

AI 模拟创业，七成模型 " 破产 "

据 The Decoder 6 月 28 日报道，普林斯顿大学研究团队推出 CEO-Bench 基准，让 AI Agent 在模拟环境中运营订阅软件公司NovaMind 500 天，起始资金 100 万美元。

最终盈利排行（最佳运行）：

14 个测试模型中，仅 3 款在最佳运行中盈利超过初始资本。其余模型均在模拟结束前破产。

这个结果挑战了什么：

一个不调用任何语言模型、仅依赖固定规则的启发式算法，以 1576 万美元的盈利超越了除前三名外的所有 AI 模型。这直接戳穿了 " 更强的推理能力等于更强的商业决策能力 " 这一预设。

多数模型的失败不在于单轮决策，而在于长周期策略的连贯性——它们无法在 500 天的时间跨度内维持一致的经营方向。简单规则在这里的竞争力，恰恰暴露了当前顶级 AI 在 " 持续决策 " 上的明显短板。

CEO-Bench 的价值在于将 AI 能力评估从 " 回答问题 " 扩展到 " 跨时间步的持续决策 " ——这对企业评估 AI 在实际经营中的可用边界，提供了比传统基准更务实的参考框架。

AI 打《文明 VI》：能造核弹，却不主动看地图

据 IT 之家 6 月 28 日报道，英国前首相府数据科学家 Liam Wilkinson 为四款顶级 AI 模型搭建了含 76 个 MCP 工具的《文明 VI》对局环境，进行了 23 场对局。

标志性事件： Claude 扮演葡萄牙时，因法国文化胜利逼近，花费 50 回合研发并使用核武器摧毁图卢兹——但最终仍被法国以外交胜利击败。

关键数据：

企业启示：

这项研究的核心结论颇具说服力：AI 的战略短板不在于智识层面（它会造核弹、会算战略价值），而在于两个行为缺陷：

这与普林斯顿 CEO-Bench 的发现高度吻合：长时间复杂任务中，AI 的跨步连贯性是当前明确的能力天花板。

对企业部署 AI Agent 的实际启示：高智能不等于高可靠。凡是需要持续状态感知和多步骤执行的工作流，仍需设计明确的触发机制与人工检查节点，而不是假设 AI 会主动 " 抬头看路 "。

新浪发布 3B 参数开源推理模型

据 The Decoder 6 月 28 日报道，新浪发布仅 3B 参数的开源推理模型 VibeThinker-3B。

模型表现：

核心假说与长远意义：

研究团队提出 " 参数压缩 - 覆盖假说 "：逻辑推理依赖少数可压缩的模式，而广泛世界知识仍需大参数存储。

这个假说若成立，意味着参数量大小不是推理能力的决定因素，而是知识覆盖度的决定因素。3B 参数可在消费级设备本地运行，若数学编程能力真实可靠，部署成本优势显著。

但 " 推理强、知识弱 " 的特性也划定了清晰边界——适合代码生成、数学证明等结构化任务，不适合需要广泛领域知识的开放问答场景。更重要的是，它为未来 " 小参数推理引擎+ 外部知识库 " 的混合架构提供了理论依据，这条路线在边缘端和企业私有部署场景中具有明显的实践吸引力。

结语

AI 的能力边界正在被深度测量。

Grok 4.5 选择工业私测而不是先刷榜，是用真实场景替代实验室基准。CEO-Bench 和《文明 VI》研究从两个方向揭示了同一个短板—— AI 可以在单轮任务上表现出色，但在需要持续状态感知和长周期策略一致性的场景中，连规则算法都可能跑赢它。VibeThinker-3B 则从另一个角度揭示了能力的结构：推理可以压缩，知识不能。

这些发现对企业部署 AI Agent 的实际指导意义比任何基准排行都更直接：把 AI 用在结构清晰、周期可控的任务上，在长周期动态决策中设计人工介入点，在需要广泛知识判断的场景中不要依赖小模型。能力边界越清晰，用对地方的概率就越高。

（本文为艾瑞网独家原创稿件转载请注明出处）

宙世代

一起剪

相关标签