科技美学 02-12
小米开源首代机器人大模型公布,更智能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今日 , 小米对外发布开源 VLA 模型 Xiaomi-Robotics-0,拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力,刷新多项 SOTA。它在现实真机任务中实现了物理智能的泛化 —— 动作连贯、反应灵敏,且能在消费级显卡上实现实时推理。

据官方介绍获悉,物理智能的核心在于 " 感知 - 决策 - 执行 " 的闭环质量。为了兼顾通用理解与精细控制,Xiaomi-Robotics-0 采用了主流的 Mixture-of-Transformers ( MoT ) 架构。

视觉语言大脑(VLM): 团队采用了多模态 VLM 大模型作为底座。它负责理解人类的模糊指令(如 " 请把毛巾叠好 "),并从高清视觉输入中捕捉空间关系。

动作执行小脑(Action Expert):为了生成高频、平滑的动作,团队嵌入了多层的 Diffusion Transformer ( DiT ) 。它不直接输出单一动作,而是生成一个 " 动作块 "(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。

针对大部分 VLA 模型在学动作时往往会 " 变笨 ",失去本身的理解能力的问题。小米通过多模态与动作数据的混合训练,让模型在学会操作的同时,依然保持强大的物体检测、视觉问答和逻辑推理能力。

VLM 协同训练:首先引入了 Action Proposal 机制,强迫 VLM 模型在理解图像的同时预测多种动作分布。这一步是为了让 VLM 的特征空间与动作空间对齐,不再仅仅是 " 纸上谈兵 "。

DiT 专项训练:随后冻结 VLM,专注于训练 DiT,学习如何从噪声中恢复出精准的动作序列。在这一阶段,小米去除了 VLM 的离散 Token,完全依赖 KV 特征进行条件生成。通过 DiT 专项训练,模型可以生成高度平滑、精准的的动作序列。

针对推理延迟引发的真机 " 动作断层 " 问题,小米团队采用异步推理模式 —— 让模型推理与机器人运行脱离同步约束、异步执行,从机制上保障动作连贯流畅。为进一步强化模型对环境变化的响应敏捷性与运行稳定性,小米引入了:

Clean Action Prefix:将前一时刻预测的动作作为输入,确保动作轨迹在时间维度上是连续的、不抖动的,进一步增加流畅性。

Λ -shape Attention Mask:通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。

据小米官方介绍 , 在多维度的测试中,Xiaomi-Robotics-0 展现出优异的表现:

仿真标杆: 在 LIBERO、CALVIN 和 SimplerEnv 测试中,模型在所有的 Benchmark、30 种模型对比中,均取得了当前最优的结果。

真实挑战: 团队在双臂机器人平台上部署了模型并与行业标杆进行了横向对比。在积木拆解和叠毛巾这种长周期、高度挑战的任务中,机器人展现出了极高的手眼协调性。无论是刚性的积木还是柔性的织物,都能处理得游刃有余。

多模态能力:模型保留了 VLM 本身的多模态理解能力,尤其是在具身更相关的 benchmark 中表现优异,这是之前的 VLA 模型所不具备的。

目前 , 小米已经宣布将模型进行开源 , 感兴趣的小伙伴可以体验一下。

近期文章精选:

华为上半年新机爆料汇总,价格值得期待

苹果春季新品汇总!iPhone iPad Mac 你期待哪款?

小米 18 爆料汇总!成本激增 要涨价了?

Siri 史诗级升级!iPhone18Pro 可变光圈主摄?

华为苹果领衔 TOP5 厂商入场,阔折叠方向对了吗?

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小米 开源 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论