小米汽车近日发布 XiaomiAutoWorldModel 全新框架,该框架将三维重建(WorldRec)与视频生成(WorldGen)深度耦合,形成 " 重建锚定几何、生成填补想象 " 的一体化架构。该方案在 Waymo、nuScenes 等主流基准测试中取得当前最优(SOTA)结果,并已在小米汽车的合成数据生成、仿真测试和智能座舱三大核心场景实现落地应用。 传统世界模型技术分为重建与生成两条路径:重建基于多视角观测恢复高保真、强一致性的 3D 场景,但仅能还原已观测内容;生成通过扩散模型预测未来画面,具备对未见视角和未发生场景的 " 想象 " 能力,但缺乏显式 3D 结构,在长时序下易出现漂移失真。XiaomiAutoWorldModel 将两者结构化融合,使重建提供 3D 几何作为稳定锚点,约束生成过程;生成则扩展预测边界,弥补重建局限,二者形成闭环协同。 该框架在三个维度实现协同增益:一是高稳定性,利用重建的确定性几何约束抑制长时序自回归中的误差累积;二是高一致性,通过共享的 4D 场景表征确保跨帧、跨视角内容全局一致;三是高真实性,以重建渲染的 RGB 图像为几何骨架,使生成内容既符合物理布局又贴近真实传感器观测,缩小仿真与现实之间的域差异。 目前,该模型已应用于三大业务场景:合成数据生成方面,已交付超 10 万 clips 高质量数据用于感知模型训练,提升车辆对危险场景的识别能力;仿真测试方面,构建闭环仿真环境,支持复现真实事故并进行定向优化;智能座舱方面,通过动态生成第一人称驾驶教学视频,在用户面对复杂路况时提供操作指引,相关功能已上线小米全系车型的辅助驾驶学堂实景模拟场景。


登录后才可以发布评论哦
打开小程序可以发布评论哦