DoNews 10小时前
小鹏发布X-Mind技术框架强化车端主动思考能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

在近日于美国丹佛举行的 CVPR 2026 具身智能基座模型部署研讨会上,小鹏集团通用智能中心负责人刘先明披露世界模型完整技术图谱,指出主动思考、可控生成和长时序推演是优秀世界模型必备的三大能力,并正式推出 X-Mind 技术框架,以解决车端算力约束下认知推理与实时计算之间的矛盾。

X-Mind 的核心思路是在输出动作前进行显式的时空推演,将视觉思维链实例化,使自动驾驶系统具备类似经验驾驶员的前瞻性判断能力。其技术实现包含三个层面:一是构建 " 思维草图 ",利用深度压缩自编码器将未来 12 帧的世界推演压缩至 96 个 Token,以 BEV 布局和抽象驾驶先验替代高冗余图像,保留道路拓扑、交通灯状态、导航意图等核心语义信息;二是采用递归块扩散机制,在大语言模型不同内部层中内化生成未来推演,无需多次迭代,单次前向传播即可完成高质量预测,实验显示其图像生成质量(FID 9.59)显著优于单步去噪(FID 67.30),推理延迟基本持平;三是实现思维链可视化,直观展示模型对障碍物占位和车道连通性的推演过程,支撑算法验证与用户信任建立。

与早前发布的 X-Foresight 不同,X-Mind 不侧重预测未来画面,而是为 VLA 模型提供思考画布,聚焦行动前类人的高效思考过程。两者协同作用于小鹏 VLA 模型,赋予其物理常识与可解释推理能力。

基于数亿帧真实驾驶数据训练,X-Mind 在横向和纵向轨迹预测误差上均较传统 VLA 模型显著降低,长尾场景下的安全性和合规性提升明显。其推理延迟极低,具备在车规级芯片量产落地的可行性。小鹏表示,X-Mind 与 X-World、X-Foresight 共同构成其物理 AI 基座模型研发谱系,初步补全车端主动思考的技术拼图,后续将持续探索规模法则上限,并向更广泛的具身智能场景延伸。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小鹏 物理 美国 自动驾驶系统 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论