小鹏集团发布X-Mind架构，为自动驾驶决策加入思考过程

X-Mind 与 X-World、X-Foresight 共同组成小鹏物理 AI 基座模型的谱系。

本文为 IPO 早知道原创

作者｜SY

微信公众号｜ipozaozhidao

据 IPO 早知道消息，6 月 29 日，小鹏集团（XPEV.US；09868.HK）正式发布 X-Mind 技术框架。据了解，该框架通过内嵌预测性世界模型，赋予车载智能体高效的视觉思维链，攻克了认知推理与实时计算之间的矛盾，为实现真正安全、拟人的自动驾驶提供了全新的技术范式。

"X-Mind" 可以解析模型如何 " 主动思考 "，并可视化地呈现驾驶决策背后的中间推理过程。值得注意的是，可解释性对于自动驾驶的软件性能调试、用户信任建立以及模型快速迭代都至关重要。

传统的行业内主流方案停留在 " 感知即行动 " 的反应式映射阶段，这就好比一个驾驶员只盯着眼前的瞬间画面踩电门，缺乏对物理世界时空演化的显式预测能力。

具体而言，显性的不足之处有：首先，基于文本的思考难以精准表达复杂的环境几何信息；其次，基于未来图像的预测又包含大量、高频冗余的纹理数据，反而缺少了对自动驾驶任务十分重要的深度语义信息。

基于此，小鹏的研发团队提出新思路，让模型在输出动作之前，先进行一场高效的脑内推演：将视觉思维链（Visual CoT）实例化，在动作生成之前执行显式的时空推演。

这意味着，车辆能能够像经验丰富的老司机一样在驾驶的时候可以想在前头，让每一条规划出来的路径都考虑到未来交通流的变化，具备更好的防御性驾驶能力。

（图片来源：小鹏集团）

小鹏研发团队近期还发表了一系列与世界模型相关的学术论文，包括 X-World、X-Foresight、X-Cache，围绕这几个核心能力拆解小鹏世界模型的研究方法。

X-World 能在给定动作条件下生成符合物理约束的未来视频，同时在持续生成过程中保持良好的可控性与稳定性。X-World 现已投入到闭环仿真测试、在线强化学习、数据生成等研发环节。

X-Foresight 在架构上与 VLA 融为一体，在统一的 token 空间内联合预测未来的多视角画面与自车动作，为 VLA 控车决策提供了核心支撑，侧重在 " 看 " 未来的画面来理解世界如何演变。

X-Cache 能在基本不牺牲画质的前提下，减少约七成的重复计算，对世界模型的去噪主干实现最高约 2.7 倍的推理加速。

X-Mind 则是为 VLA 提供思考的画布，在车端算力有限的情况下进行高频的认知推理，并利用视觉思维链可视化的理解模型决策背后的逻辑，侧重在行动之前建立一段类人的高效思考过程。它们两者将共同驱动小鹏 VLA 模型向着具备物理常识、会预判、且推理透明的通用物理 AI 进化。

围绕想得快、想得清楚这一核心目标，X-Mind 的原理是将反应式黑盒映射转变为预测性的显性认知推理。

验证结果显示，在包含数亿帧真实世界数据的训练集上，X-Mind 展现了卓越的性能。无论是面对前车的急刹、匝道汇入，还是复杂的十字路口博弈，X-Mind 都能提前推演出障碍物的占位和场景因果链条。

X-Mind 的发布，与 X-World、X-Foresight 共同组成小鹏物理 AI 基座模型的研发谱系，成功激活主动思考、可控生成和长时序推演三大核心能力，让模型不仅学习 " 如何行动 "，也能理解 " 行动之后世界会如何变化 "。

近年来，小鹏研发团队正在通过模型、数据与训练目标的规模化，不断提高基座模型的性能，持续探索规模法则的上限。

随着第二代 VLA 能力的不断提升，其在环境理解、推理决策和行动执行等方面形成的能力体系，正加速向更广泛的具身智能场景延伸。

目前，小鹏人形机器人 IRON 面向量产版本的软硬件研发进展顺利，即将进入软硬件合围阶段，预计年底实现量产、2027 年一季度进入小鹏线下门店担任导购。

本文由公众号 IPO 早知道（ID：ipozaozhidao）原创撰写，如需转载请联系 C 叔↓↓↓

宙世代