

X-Mind 与 X-World、X-Foresight 共同组成小鹏物理 AI 基座模型的谱系。
本文为 IPO 早知道原创
作者|SY
微信公众号|ipozaozhidao
据 IPO 早知道消息,6 月 29 日,小鹏集团(XPEV.US;09868.HK)正式发布 X-Mind 技术框架。据了解,该框架通过内嵌预测性世界模型,赋予车载智能体高效的视觉思维链,攻克了认知推理与实时计算之间的矛盾,为实现真正安全、拟人的自动驾驶提供了全新的技术范式。
"X-Mind" 可以解析模型如何 " 主动思考 ",并可视化地呈现驾驶决策背后的中间推理过程。值得注意的是,可解释性对于自动驾驶的软件性能调试、用户信任建立以及模型快速迭代都至关重要。
传统的行业内主流方案停留在 " 感知即行动 " 的反应式映射阶段,这就好比一个驾驶员只盯着眼前的瞬间画面踩电门,缺乏对物理世界时空演化的显式预测能力。
具体而言,显性的不足之处有:首先,基于文本的思考难以精准表达复杂的环境几何信息;其次,基于未来图像的预测又包含大量、高频冗余的纹理数据,反而缺少了对自动驾驶任务十分重要的深度语义信息。
基于此,小鹏的研发团队提出新思路,让模型在输出动作之前,先进行一场高效的脑内推演:将视觉思维链(Visual CoT)实例化,在动作生成之前执行显式的时空推演。
这意味着,车辆能能够像经验丰富的老司机一样在驾驶的时候可以想在前头,让每一条规划出来的路径都考虑到未来交通流的变化,具备更好的防御性驾驶能力。

(图片来源:小鹏集团)
小鹏研发团队近期还发表了一系列与世界模型相关的学术论文,包括 X-World、X-Foresight、X-Cache,围绕这几个核心能力拆解小鹏世界模型的研究方法。
X-World 能在给定动作条件下生成符合物理约束的未来视频,同时在持续生成过程中保持良好的可控性与稳定性。X-World 现已投入到闭环仿真测试、在线强化学习、数据生成等研发环节。
X-Foresight 在架构上与 VLA 融为一体,在统一的 token 空间内联合预测未来的多视角画面与自车动作,为 VLA 控车决策提供了核心支撑,侧重在 " 看 " 未来的画面来理解世界如何演变。
X-Cache 能在基本不牺牲画质的前提下,减少约七成的重复计算,对世界模型的去噪主干实现最高约 2.7 倍的推理加速。
X-Mind 则是为 VLA 提供思考的画布,在车端算力有限的情况下进行高频的认知推理,并利用视觉思维链可视化的理解模型决策背后的逻辑,侧重在行动之前建立一段类人的高效思考过程。它们两者将共同驱动小鹏 VLA 模型向着具备物理常识、会预判、且推理透明的通用物理 AI 进化。
围绕想得快、想得清楚这一核心目标,X-Mind 的原理是将反应式黑盒映射转变为预测性的显性认知推理。
验证结果显示,在包含数亿帧真实世界数据的训练集上,X-Mind 展现了卓越的性能。无论是面对前车的急刹、匝道汇入,还是复杂的十字路口博弈,X-Mind 都能提前推演出障碍物的占位和场景因果链条。
X-Mind 的发布,与 X-World、X-Foresight 共同组成小鹏物理 AI 基座模型的研发谱系,成功激活主动思考、可控生成和长时序推演三大核心能力,让模型不仅学习 " 如何行动 ",也能理解 " 行动之后世界会如何变化 "。
近年来,小鹏研发团队正在通过模型、数据与训练目标的规模化,不断提高基座模型的性能,持续探索规模法则的上限。
随着第二代 VLA 能力的不断提升,其在环境理解、推理决策和行动执行等方面形成的能力体系,正加速向更广泛的具身智能场景延伸。
目前,小鹏人形机器人 IRON 面向量产版本的软硬件研发进展顺利,即将进入软硬件合围阶段,预计年底实现量产、2027 年一季度进入小鹏线下门店担任导购。
本文由公众号 IPO 早知道(ID:ipozaozhidao)原创撰写,如需转载请联系 C 叔↓↓↓






登录后才可以发布评论哦
打开小程序可以发布评论哦