小鹏发布X-Mind技术框架：让自动驾驶能够"预见未来"

【CNMO 科技消息】今年 6 月，在美国丹佛举办的 CVPR 2026 具身智能基座模型部署研讨会上，小鹏集团通用智能中心负责人刘先明首次完整披露了世界模型的技术图谱，提出主动思考、可控生成和长时序推演是优秀世界模型的三大核心能力，也是其应用于自动驾驶的前提条件。

全新小鹏 P7

今年上半年，小鹏研发团队先后发表了 X-World、X-Foresight、X-Cache 等一系列学术报告，围绕可控生成与长时序推演展开系统性研究。

图源网络

近日，小鹏集团正式发布 X-Mind 技术框架，通过内嵌预测性世界模型，赋予车载智能体高效的视觉思维链，破解了认知推理与实时计算之间的矛盾。

传统自动驾驶方案停留在 " 感知即行动 " 的反应式映射阶段，缺乏对物理世界时空演化的显式预测能力。X-Mind 的创新在于，让模型在输出动作之前先进行高效的脑内推演——将视觉思维链实例化，在动作生成前执行显式的时空推演。这意味着车辆可以像经验丰富的老司机一样，提前预判未来交通流的变化，具备更好的防御性驾驶能力。

图源网络

X-Mind 包含三项关键技术。其一是 " 思维草图 "，这是融合鸟瞰图布局与抽象驾驶先验的认知画布，通过深度压缩自编码器，将 12 帧未来世界推演压缩至仅 96 个 Token，避免了高清纹理带来的计算瓶颈，让 " 思考 " 变得轻量且高效。其二是递归块扩散机制，在大型驾驶模型的不同内部层中内化生成，实现单次前向传播完成高质量未来推演。实验数据显示，其图像生成质量远优于单步去噪方案，同时推理延迟几乎持平。其三是思维链可视化，让每一条规划路径都基于对障碍物占位和车道连通性的预判，使模型决策逻辑透明可解释。

实战效果方面，X-Mind 在面对前车急刹、匝道汇入等复杂长尾场景时，能够提前推演障碍物占位和场景演变，横向和纵向轨迹预测误差显著降低，安全性与合规性大幅提升，同时推理效率足以支持在车规级芯片上量产落地。

图源网络

X-Mind 与 X-World、X-Foresight 共同构成小鹏物理 AI 基座模型的技术体系，激活了主动思考、可控生成和长时序推演三大核心能力。随着第二代 VLA 能力的持续提升，这一能力体系正加速向更广泛的具身智能场景延伸。

宙世代

一起剪

相关标签