
近日,在美国丹佛举行的 CVPR 2026 具身智能基座模型部署研讨会上,小鹏集团通用智能中心负责人刘先明首次披露了小鹏世界模型的完整技术图谱,并正式推出 X-Mind 技术框架。该框架旨在解决自动驾驶系统在车端算力受限条件下,认知推理与实时计算之间的矛盾,使车载智能体具备类似经验驾驶员的前瞻性判断能力。
传统自动驾驶方案多停留在 " 感知即行动 " 的反应式映射阶段,缺乏对物理世界时空演化的显式预测能力。X-Mind 的核心创新在于将视觉思维链(Visual CoT)实例化,让模型在输出动作之前先进行一场高效的脑内推演。围绕 " 想得快、想得清楚 " 的目标,该框架的技术实现主要包含三个层面。
首先是构建 " 思维草图 "。X-Mind 抛弃了对高清纹理的执着,转而构建一种融合鸟瞰图(BEV)布局与抽象驾驶先验的 " 认知画布 "。通过深度压缩自编码器(DC-AE),系统将未来 12 帧的世界推演压缩至仅 96 个 Token,仅保留车道线、障碍物、交通灯状态和导航意图等核心语义信息,从根本上过滤了无效纹理干扰,解决了长上下文带来的计算瓶颈。其次是采用递归块扩散机制。网络在单次前向传播中,通过大语言模型的不同内部层执行渐进式去噪步骤,无需多次迭代即可完成高质量的未来场景推演。实验数据显示,其图像生成质量(FID 9.59)显著优于单步去噪方案(FID 67.30),且推理延迟基本持平。最后是思维链可视化。该技术能够直观展示模型在决策前对障碍物占位和车道连通性的推演过程,打破了自动驾驶的 " 黑盒 " 状态,为算法验证、合规落地及用户信任建立提供了透明依据。
在技术定位上,X-Mind 与小鹏早前发布的 X-Foresight 形成了互补。X-Foresight 侧重在统一的 Token 空间内联合预测未来多视角画面与自车动作,即 " 看 " 未来的画面来理解世界演变;而 X-Mind 则侧重为 VLA(视觉 - 语言 - 动作)模型提供思考画布,在行动前建立一段类人的高效思考过程。两者协同作用,共同驱动小鹏 VLA 模型向着具备物理常识、会预判且推理透明的通用物理 AI 进化。
基于数亿帧真实世界数据的训练,X-Mind 在应对前车急刹、匝道汇入及复杂十字路口博弈等长尾场景时,展现出显著的精度与效率优势。对比实验表明,相比传统 VLA 模型,X-Mind 在横向和纵向轨迹预测误差(ADE)上均有显著降低,安全性与合规性大幅提升。同时,其极低的推理延迟使其具备了在资源受限的车规级芯片上量产落地的可行性。
目前,X-Mind 与 X-World、X-Foresight、X-Cache 共同构成了小鹏物理 AI 基座模型的技术体系,初步补全了车端主动思考的技术拼图。随着第二代 VLA 能力的持续提升,这一技术体系正加速向更广泛的具身智能场景延伸。


登录后才可以发布评论哦
打开小程序可以发布评论哦