小米汽车发布一体化世界模型框架，实现三维重建与视频生成深度融合

小米汽车近日发布 XiaomiAutoWorldModel 全新框架，该框架将三维重建（WorldRec）与视频生成（WorldGen）深度耦合，形成 " 重建锚定几何、生成填补想象 " 的一体化架构。该方案在 Waymo、nuScenes 等主流基准测试中取得当前最优（SOTA）结果，并已在小米汽车的合成数据生成、仿真测试和智能座舱三大核心场景实现落地应用。传统世界模型技术分为重建与生成两条路径：重建基于多视角观测恢复高保真、强一致性的 3D 场景，但仅能还原已观测内容；生成通过扩散模型预测未来画面，具备对未见视角和未发生场景的 " 想象 " 能力，但缺乏显式 3D 结构，在长时序下易出现漂移失真。XiaomiAutoWorldModel 将两者结构化融合，使重建提供 3D 几何作为稳定锚点，约束生成过程；生成则扩展预测边界，弥补重建局限，二者形成闭环协同。该框架在三个维度实现协同增益：一是高稳定性，利用重建的确定性几何约束抑制长时序自回归中的误差累积；二是高一致性，通过共享的 4D 场景表征确保跨帧、跨视角内容全局一致；三是高真实性，以重建渲染的 RGB 图像为几何骨架，使生成内容既符合物理布局又贴近真实传感器观测，缩小仿真与现实之间的域差异。目前，该模型已应用于三大业务场景：合成数据生成方面，已交付超 10 万 clips 高质量数据用于感知模型训练，提升车辆对危险场景的识别能力；仿真测试方面，构建闭环仿真环境，支持复现真实事故并进行定向优化；智能座舱方面，通过动态生成第一人称驾驶教学视频，在用户面对复杂路况时提供操作指引，相关功能已上线小米全系车型的辅助驾驶学堂实景模拟场景。

宙世代

一起剪

相关标签