机器之心 11小时前
超越SONIC!人形机器人“小脑”的GPT时刻来了,还有史上最大动捕数据,整整20亿帧
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

编辑|Panda、泽南

当人形机器人仍停留在「见过才会、练过才行」的样本拟合阶段,难以应对新动作、新指令与分布外任务时,银河通用最新发布全球首个小脑 GPT 基模 AstraBrain ‑ WBC 0.5,全球首个成功验证运动控制 Scaling Law。

银河通用团队用史上最大、整整 20 亿帧的动捕数据,训练出了全球首个人形机器人全身实时运控基座大模型,该模型零样本泛化全新动作,成功率从 MLP 架构的 76.89% 跃至 92.58%,推理延迟仅 0.39ms,效果超越英伟达 SONIC,甚至比目前业内主流 TWIST 系统速度提升至五倍。首次实现领域外分布(OOD)数据的泛化能力,这一研究成果堪比大模型的 GPT-1 时刻,填补人形机器人通用小脑研究的行业空白。

这个工作还被全面开源了出来。

论文标题:Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

论文地址:arxiv.org/abs/2606.03985

代码地址:https://github.com/GalaxyGeneralRobotics/Humanoid-GPT/

这项研究的出发点其实很纯粹:把数据堆到原来同类研究的 200 倍以上,换一个 GPT 风格的 Transformer 架构,然后看看 Scaling Law 到底管不管用?

结论很直接:管用,而且很管用。

银河通用率先迈进了这片无人区,用对底层运控能力的突破树立了行业的新标杆。

数据说话:Scaling Law 在人形机器人上成立!

Scaling Law 到底在物理世界管不管用?AstraBrain-WBC 0.5 证明它管用了,有三组数据为证!

第一组:架构和规模的双重 Scaling ,效果叠加

研究团队在标准的 AMASS 测试集(训练时未见过的动作子集)上,系统比较了不同架构和不同数据量的组合。同样使用 200 万帧训练,MLP 的追踪成功率(SR)为 76.89%,TCN 为 81.48%,而 AstraBrain-WBC 0.5-S 已经达到 83.26% ——架构换代本身就带来了提升。

更关键的变化发生在数据规模扩大之后:随着训练帧数从 200 万增至 20 亿,AstraBrain-WBC 0.5-B 的 SR 从 88.27% 进一步升至 90.43%;最大规格的 AstraBrain-WBC 0.5-L 在 20 亿帧训练下最终达到 92.58%。

骨干网络架构比较与 Scaling 的影响。

同等数据量(20 亿帧)下,论文给出了一个直接对比:即便是表现最好的 TCN 大参数版本,其关键点位置误差(MPKPE)为 56.15mm,而参数量更小的 AstraBrain-WBC 0.5-S 已经达到 43.25mm,领先幅度超过 30%。MLP 和 TCN 并非无法从更多数据中获益,而是获益的边际在递减;Transformer 的训练损失曲线则持续下降,没有出现饱和。

第二组:数据规模消融,幂律曲线清晰可见

固定模型规格(Humanoid-GPT-B),只改变训练数据量,零样本 MPJPE 的变化轨迹如下:

很明显可以看出:数据每扩大 10 倍,误差持续下降,没有出现拐点。这条曲线正是 Scaling Law 在人形机器人运动控制上留下的第一个清晰印记。

第三组:真机验证,仿真结论在真实硬件上复现

研究团队将 AstraBrain-WBC 0.5 部署于宇树 G1 机器人上,用四段完全未见过的舞蹈动作做零样本追踪测试,并与 GMT、TWIST、Any2Track 三款当前最强的开源追踪器在相同协议下对比。

AstraBrain-WBC 0.5 展现出了此前人形机器人运控系统难以兼顾的四项核心能力:更高自由度的全身协同控制,更高动态的运动能力,毫秒级实时响应,更高的鲁棒性。

以 MPJPE(关节位置误差)作为衡量标准,Humanoid-GPT-B 在四段动作中均低于或持平所有对比方法。须知,这些动作直接来自网络视频的运动重定向,没有任何专项数据补充,也没有经过微调。

在四种未见过的舞蹈动作上的真实世界跟踪准确度

工程部署层面同样没有拖后腿。经过 TensorRT 编译和 C++ 流水线优化后,AstraBrain-WBC 0.5 的平均推理延迟降至 0.39 毫秒,控制回路维持在 50Hz 实时频率;与对比系统 TWIST(均值 2.79 毫秒)相比,推理速度提升约 5 倍。规模更大的模型,反而跑得更快,这得益于针对因果注意力和 MLP 融合算子的专项内核优化。

不同优化方法的推理延迟比较

未来,机器人训练不再需要从零开始构建动作能力,可以直接基于 AstraBrain-WBC 0.5 进行二次开发与能力扩展。这将大幅降低机器人训练门槛。

那么,AstraBrain-WBC 0.5 是如何做到的?

AstraBrain-WBC 0.5 做到了三件事

具体而言,AstraBrain-WBC 0.5 系统性地回答了三个问题:

动作数据能不能扩到十亿级?

控制模型能不能像 GPT 一样随数据增长继续变强?

规模变大之后,训练还能不能稳定、可部署?

AstraBrain-WBC 0.5 概况。该系统包含三个阶段: ( a ) 数据整理与处理, ( b ) 基于关键点奖励在集群上训练采用 PPO 算法的运动专家模型, ( c ) 通过并行 DAgger 监督将全部专家模型蒸馏为单一基于 Transformer 的 generalist 策略。由此生成的 AstraBrain-WBC 0.5 能够将未见过的或在线重定向的运动作为参考输入,并以完全零样本的方式进行跟踪。

第一件事:把数据堆到 20 亿帧

研究团队汇总了人类运动捕捉领域几乎所有主流开源数据集,包括 AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion,并补充了超过一千小时的大规模自采动作数据。

相比传统动作数据集中大量重复的行走、站立等高频动作,新数据集覆盖日常动作、舞蹈、快速转向、跌倒恢复、协作搬运等多种长尾场景,再经过严格筛选、分割和增广,得到 20 亿帧经过重定向处理的 G1 机器人关节运动数据。

这是此前同类训练集规模的 200 倍以上。

AstraBrain-WBC 0.5 的数据分布情况

然而数据量本身还不够。大规模数据集有一个隐患:常见动作会把不常见动作「淹没」,模型只学会了中间那些平平无奇的步伐,对高难度动作依然无能为力。

为此,团队设计了一种叫做「谐波运动嵌入(Harmonic Motion Embedding / HME)」的表示学习工具,从每条运动序列中提取各关节的振动频率和幅度特征,并据此将所有数据聚类成约 300 个风格各异的动作簇,实现了多样性感知的均衡采样。

在 HME 嵌入空间中,数据集多样性的比较,可见银河通用团队整理的数据集在 HME 空间里的 log-volume 比 AMASS 大约高 4-5 倍。

实验证明,两者缺一不可:数据多样但分布不均衡,模型仍会过拟合常见动作;分布均衡但多样性不够,能力上限就被数据的覆盖范围卡死。研究团队将这一洞察称为「Diversity and Balance」原则,这也是此前所有运动数据集从未系统考量过的维度。

也就是说,AstraBrain-WBC 0.5 不是简单把数据「堆大」,而是在做一件更难的事:让大规模动作数据变得可度量、可划分、可训练

第二件事:用对架构

过去的运动追踪器大多使用 MLP 或 TCN(时序卷积网络)。这些架构的问题在于,它们对序列历史的建模能力有限,而且到了一定规模后增加参数几乎不再带来收益。

AstraBrain-WBC 0.5 转向了 GPT 风格的因果 Transformer 架构。这可不是「跟风 LLM」,其背后有一条严密的技术逻辑。

运动追踪本质上是一个在线序列决策问题:机器人在每个时刻需要根据当前状态和历史轨迹,预测出下一帧的关节指令。这个问题天然有时序依赖——你现在迈出的这一步,和上一秒的重心、速度、姿态都强相关。

MLP 的致命伤正在这里:它每次只能「看」一个时刻的状态切片,对更长的历史序列只能靠拼接输入来临时凑数,建模能力从根本上就受限了。

Transformer 的自注意力机制则不同。它可以让模型在序列中的每个位置同时「回望」此前任意长度的历史,捕捉到「当前动作与 32 帧前的某个特定姿态」之间的关联。这类长程依赖关系,正是连贯、流畅的全身运动所必需的。

但还有一个关键约束:机器人控制是实时的,不能看到未来。这就是「因果(Causal)」的来源:AstraBrain-WBC 0.5 在注意力层加入了时序因果掩码,严格限制模型只能利用当前帧及之前的历史,推理时不依赖任何前瞻信息。

这使得同一个模型在训练时是并行处理整段序列(效率高),在推理时是逐帧自回归预测(延迟低),两种模式天然统一,没有结构上的割裂。

还有一个被容易忽视的优势:训练效率的质变

AstraBrain-WBC 0.5 的蒸馏阶段采用 DAgger 框架,每次迭代需要对整条运动序列中的所有历史时刻同时施加监督信号。MLP 每次只能处理单个时间步,想覆盖一条长序列得循环 N 次;Transformer 一次前向计算就能处理整段序列的所有位置,训练吞吐量直接拉开数量级差距。在 20 亿帧的数据规模下,这是能否在合理时间和计算成本内完成训练的关键。

论文中的消融实验也验证了「历史长度」的价值:序列长度从 4 帧增至 64 帧,追踪成功率持续提升;团队最终选定 32 帧作为默认配置,在性能与计算开销之间取得平衡。这本身就是对「长程时序建模能力真的有用」的直接证明。

第三件事:专家蒸馏的流水线

直接用一个模型训完 20 亿帧是不现实的。团队的做法是「先分后合」:在 300 个运动族群上各自训练 PPO 强化学习专家策略(约 384 个专家),每个专家只负责自己那个风格的动作,因此都能高保真地完成族群内的动作;再用 DAgger 蒸馏框架,让单个 Transformer 模型同时向所有专家学习,最终压缩为一个统一的通用策略。

专家数量本身也经过了系统的消融验证。簇数太少(如 128 个)意味着每个专家负责的动作风格过于混杂,单个专家的追踪质量会下降,蒸馏出来的通才也相应变弱;但簇数太多(如 1024 个)则会让相邻专家之间的监督信号互相矛盾,反而给学生模型带来混乱。实验表明,约 384 个专家是当前数据规模下多样性、专家质量和训练成本的最优平衡点。

整个训练过程耗费约 15000 GPU 小时,其中 75% 用于专家训练(RTX 4090),25% 用于 Transformer 蒸馏(H100)。

一旦蒸馏完成,部署时只需要这一个通才模型,384 个专家就可以「功成身退」,不再需要保留。

AstraBrain-WBC 0.5 与相关工作的比较

最终形成的 AstraBrain-WBC 0.5 模型参数规模达到 8040 万级别,已经接近 GPT-1 时代的大语言模型规模。

为什么是银河通用?

AstraBrain-WBC 0.5 背后的工业主体是银河通用机器人(Galbot)

银河通用成立于 2023 年 5 月,总部位于北京。公司从创立之初便将研发重点放在具身智能「大脑」和泛化操作能力上,而非优先追求双足运动能力。其代表产品 Galbot G1 采用双臂、折叠腿和全向轮底盘设计,被业内概括为「大脑优先、身体务实」的技术路线。

从融资节奏来看,银河通用走得并不慢。2025 年 12 月,银河通用完成超过 3 亿美元融资,中国移动链长基金、中金资本、央视融媒体基金等机构参与投资,公司估值超过 30 亿美元。2026 年 3 月,公司再次完成 25 亿元融资,投资方包括国家人工智能产业基金等机构。这也是国家人工智能产业基金首次投资具身智能企业。

商业化方面,银河通用是国内较早推动具身智能机器人规模落地的企业之一,其机器人已进入零售、制造、仓储物流等多个场景。

银河通用在即时零售领域推出了人形机器人自主运营零售仓方案,并已在全国数十家即时零售仓实现规模化部署。依托端到端具身智能模型,机器人能够在数千种 SKU 的复杂环境中自主完成识别、分拣、抓取和打包等流程。

该公司还与美团买药等合作伙伴推动人形机器人智慧药房(智慧药仓)落地,机器人可在包含约 5000 种药品 SKU 的环境中完成自主拣选与打包。目前相关方案已在北京、上海、广州、深圳、杭州等城市部署,并实现 7 × 24 小时持续稳定运行。

2026 年马年春晚,银河通用成为中央广播电视总台《2026 年春节联欢晚会》指定具身大模型机器人,为公众展示了其具身智能技术与机器人产品能力。现场,Galbot 机器人在沈腾、马丽身边全自主完成盘核桃、叠衣服、货架取物等任务,所有动作由「银河星脑」实时决策,而非预设程序——这是对机器人泛化能力的一次高曝光度公开验证。参阅《沈腾:春晚谁家机器人?除夕夜就扒拉活来了》。

「银河星脑(AstraBrain)」是银河通用自主研发的全身全手端到端具身大模型,也是理解 AstraBrain-WBC 0.5 战略意义的关键背景。

银河星脑采用三层类脑架构:「大脑」负责多模态感知与任务规划,「小脑」负责全身运动协同与实时控制,「神经控制」则处理末端灵巧操作与力反馈。业界多数方案将这三层割裂开发,模块之间存在信息损耗,导致响应迟滞和泛化能力弱;银河星脑的目标是打通全链路、实现端到端统一建模。

银河星脑 AstraBrain 框架

正如近日在 2026 智源大会主题演讲中,银河通用机器人创始人王鹤博士所言:「银河通用推出的 AstraBrain(银河星脑),目标就是做一个通用人形机器人的基座:既有大脑、又有小脑,中间通过脑桥连接,让更快的小脑与相对较慢的大脑实现异步同步。人脑中的脑桥实际上分为三路、有上传也有下载,我们的架构充分参考了人类大脑的结构,目标就是实现完全通用。」

AstraBrain-WBC 0.5 是这套架构小脑能力的展现:一旦小脑具备了跨场景零样本泛化的能力,银河星脑整体的通用性和迁移效率就能随之提升。

顺带一提,AstraBrain-WBC 0.5 论文(Humanoid-GPT)已被 CVPR 2026 接收。

「小脑」之争,这一局定了什么?

在业界,把 Scaling Law 套用到运动控制层方面,AstraBrain-WBC 0.5 不是第一个尝试。此前 SONIC 已经将训练帧数推至 1 亿,但其依然采用 MLP 架构,而实验表明在那个规模上 MLP 已经开始饱和。

AstraBrain-WBC 0.5 的贡献在于系统性地证明:MLP 的瓶颈并非数据少,而是架构本身的扩展性限制。换用 Transformer,一切才真正打开。

随着数据规模扩展至 20 亿帧、模型参数持续增长,模型的性能得以持续提升。人形机器人运动控制或许正迈向「基础模型时代」:如果说过去的机器人是在学习单个技能,AstraBrain-WBC 0.5 则更像是在学习整个人类动作世界。

这个结论对整个产业有直接的战略含义。

当前人形机器人行业的技术路线大致可分为两派:一派更加侧重突破运动控制和硬件;另一派则更加强调大模型驱动的泛化能力。

AstraBrain-WBC 0.5 让后者的主张有了更坚实的技术支撑:如果运动「小脑」本身就可以成为基础模型,那「大脑」与「小脑」之间的边界就会变得模糊,两者可以共同受益于 Scaling Law 的红利。

行业里已有一个共识:2026 年是具身智能的交付元年,企业的竞争重点正从「我的机器人能做到」转向「我的机器人能可靠地、规模化地做到」。在这个语境下,运动控制层的泛化能力,直接决定了一款机器人能否用同一套软件栈适配不同车间、不同家庭、不同任务。这是规模化落地的前提,也是商业壁垒真正形成的地方。

当然,AstraBrain-WBC 0.5 也有局限:它还是纯运动追踪模型,不具备对物体、环境的语义理解。论文作者在结语中明确提出,下一步方向是与视觉 - 语言 - 动作(VLA)模型对接,加入视觉、触觉和语言多模态信息,迈向通用具身基础模型(Embodied Foundation Model)。

银河通用已经走出了突破性的一步,后续的棋局,正在展开。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 sonic 效果 panda
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论