2 月 12 日,小米雷军通过微博披露,小米机器人团队正式开源 Xiaomi-Robotics-0,一个 47 亿参数的具身智能 VLA 模型。该模型采用 Mixture-of-Transformers 混合架构,在 LIBERO、CALVIN 和 SimplerEnv 三大仿真测试集的所有 Benchmark 中,与 30 个对比模型相比均取得当前最优成绩。
图片来源:小米技术
Xiaomi-Robotics-0 的核心在于通过 MoT 架构将视觉语言大模型与多层 Diffusion Transformer 解耦。VLM 负责处理模糊指令与空间关系认知,DiT 则通过流匹配生成高频、连续的 Action Chunk。这种设计让模型在消费级显卡上即可完成实时推理,解决了现有 VLA 模型因推理延迟导致真机 " 动作断层 " 的共性痛点。
模型架构及训练方法: ( a ) VLM 多模态与动作混合预训练; ( b ) DiT 专项预训练; ( c ) 目标任务后训练;图片来源:小米技术
训练策略分为两个阶段。跨模态预训练阶段引入 Action Proposal 机制,强制 VLM 在图像理解的同时预测多模态动作分布,完成特征空间与动作空间的对齐;随后冻结 VLM,专项训练 DiT 从噪声中恢复精准动作序列。后训练阶段的核心是异步推理模式,使模型推理与机器人运行脱离同步约束。同时,Clean Action Prefix 通过引入上一时刻动作输入来保证轨迹连续性,Λ -shape Attention Mask 则强制模型优先响应当前视觉反馈,提升面对环境扰动时的反应敏捷性。
在真机部署测试中,搭载该模型的双臂机器人在积木拆解、叠毛巾等长时序、高自由度任务中展现出稳定的手眼协调能力,同时保留了 VLM 原有的物体检测与视觉问答能力。项目代码、模型权重与技术文档目前已同步上线 GitHub 和 Hugging Face。


登录后才可以发布评论哦
打开小程序可以发布评论哦