超越SONIC!人形机器人“小脑”的GPT时刻来了,还有史上最大动捕数据,整整20亿帧

编辑｜Panda、泽南

当人形机器人仍停留在「见过才会、练过才行」的样本拟合阶段，难以应对新动作、新指令与分布外任务时，银河通用最新发布全球首个小脑 GPT 基模 AstraBrain ‑ WBC 0.5，全球首个成功验证运动控制 Scaling Law。

银河通用团队用史上最大、整整 20 亿帧的动捕数据，训练出了全球首个人形机器人全身实时运控基座大模型，该模型零样本泛化全新动作，成功率从 MLP 架构的 76.89% 跃至 92.58%，推理延迟仅 0.39ms，效果超越英伟达 SONIC，甚至比目前业内主流 TWIST 系统速度提升至五倍。首次实现领域外分布（OOD）数据的泛化能力，这一研究成果堪比大模型的 GPT-1 时刻，填补人形机器人通用小脑研究的行业空白。

这个工作还被全面开源了出来。

论文标题：Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

论文地址：arxiv.org/abs/2606.03985

代码地址：https://github.com/GalaxyGeneralRobotics/Humanoid-GPT/

这项研究的出发点其实很纯粹：把数据堆到原来同类研究的 200 倍以上，换一个 GPT 风格的 Transformer 架构，然后看看 Scaling Law 到底管不管用？

结论很直接：管用，而且很管用。

银河通用率先迈进了这片无人区，用对底层运控能力的突破树立了行业的新标杆。

数据说话：Scaling Law 在人形机器人上成立！

Scaling Law 到底在物理世界管不管用？AstraBrain-WBC 0.5 证明它管用了，有三组数据为证！

第一组：架构和规模的双重 Scaling ，效果叠加

研究团队在标准的 AMASS 测试集（训练时未见过的动作子集）上，系统比较了不同架构和不同数据量的组合。同样使用 200 万帧训练，MLP 的追踪成功率（SR）为 76.89%，TCN 为 81.48%，而 AstraBrain-WBC 0.5-S 已经达到 83.26% ——架构换代本身就带来了提升。

更关键的变化发生在数据规模扩大之后：随着训练帧数从 200 万增至 20 亿，AstraBrain-WBC 0.5-B 的 SR 从 88.27% 进一步升至 90.43%；最大规格的 AstraBrain-WBC 0.5-L 在 20 亿帧训练下最终达到 92.58%。

骨干网络架构比较与 Scaling 的影响。

同等数据量（20 亿帧）下，论文给出了一个直接对比：即便是表现最好的 TCN 大参数版本，其关键点位置误差（MPKPE）为 56.15mm，而参数量更小的 AstraBrain-WBC 0.5-S 已经达到 43.25mm，领先幅度超过 30%。MLP 和 TCN 并非无法从更多数据中获益，而是获益的边际在递减；Transformer 的训练损失曲线则持续下降，没有出现饱和。

第二组：数据规模消融，幂律曲线清晰可见

固定模型规格（Humanoid-GPT-B），只改变训练数据量，零样本 MPJPE 的变化轨迹如下：

很明显可以看出：数据每扩大 10 倍，误差持续下降，没有出现拐点。这条曲线正是 Scaling Law 在人形机器人运动控制上留下的第一个清晰印记。

第三组：真机验证，仿真结论在真实硬件上复现

研究团队将 AstraBrain-WBC 0.5 部署于宇树 G1 机器人上，用四段完全未见过的舞蹈动作做零样本追踪测试，并与 GMT、TWIST、Any2Track 三款当前最强的开源追踪器在相同协议下对比。

AstraBrain-WBC 0.5 展现出了此前人形机器人运控系统难以兼顾的四项核心能力：更高自由度的全身协同控制，更高动态的运动能力，毫秒级实时响应，更高的鲁棒性。

以 MPJPE（关节位置误差）作为衡量标准，Humanoid-GPT-B 在四段动作中均低于或持平所有对比方法。须知，这些动作直接来自网络视频的运动重定向，没有任何专项数据补充，也没有经过微调。

在四种未见过的舞蹈动作上的真实世界跟踪准确度

工程部署层面同样没有拖后腿。经过 TensorRT 编译和 C++ 流水线优化后，AstraBrain-WBC 0.5 的平均推理延迟降至 0.39 毫秒，控制回路维持在 50Hz 实时频率；与对比系统 TWIST（均值 2.79 毫秒）相比，推理速度提升约 5 倍。规模更大的模型，反而跑得更快，这得益于针对因果注意力和 MLP 融合算子的专项内核优化。

不同优化方法的推理延迟比较

未来，机器人训练不再需要从零开始构建动作能力，可以直接基于 AstraBrain-WBC 0.5 进行二次开发与能力扩展。这将大幅降低机器人训练门槛。

那么，AstraBrain-WBC 0.5 是如何做到的？

AstraBrain-WBC 0.5 做到了三件事

具体而言，AstraBrain-WBC 0.5 系统性地回答了三个问题：

动作数据能不能扩到十亿级？

控制模型能不能像 GPT 一样随数据增长继续变强？

规模变大之后，训练还能不能稳定、可部署？

AstraBrain-WBC 0.5 概况。该系统包含三个阶段： ( a ) 数据整理与处理， ( b ) 基于关键点奖励在集群上训练采用 PPO 算法的运动专家模型， ( c ) 通过并行 DAgger 监督将全部专家模型蒸馏为单一基于 Transformer 的 generalist 策略。由此生成的 AstraBrain-WBC 0.5 能够将未见过的或在线重定向的运动作为参考输入，并以完全零样本的方式进行跟踪。

第一件事：把数据堆到 20 亿帧

研究团队汇总了人类运动捕捉领域几乎所有主流开源数据集，包括 AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion，并补充了超过一千小时的大规模自采动作数据。

相比传统动作数据集中大量重复的行走、站立等高频动作，新数据集覆盖日常动作、舞蹈、快速转向、跌倒恢复、协作搬运等多种长尾场景，再经过严格筛选、分割和增广，得到 20 亿帧经过重定向处理的 G1 机器人关节运动数据。

这是此前同类训练集规模的 200 倍以上。

AstraBrain-WBC 0.5 的数据分布情况

然而数据量本身还不够。大规模数据集有一个隐患：常见动作会把不常见动作「淹没」，模型只学会了中间那些平平无奇的步伐，对高难度动作依然无能为力。

为此，团队设计了一种叫做「谐波运动嵌入（Harmonic Motion Embedding / HME）」的表示学习工具，从每条运动序列中提取各关节的振动频率和幅度特征，并据此将所有数据聚类成约 300 个风格各异的动作簇，实现了多样性感知的均衡采样。

在 HME 嵌入空间中，数据集多样性的比较，可见银河通用团队整理的数据集在 HME 空间里的 log-volume 比 AMASS 大约高 4-5 倍。

实验证明，两者缺一不可：数据多样但分布不均衡，模型仍会过拟合常见动作；分布均衡但多样性不够，能力上限就被数据的覆盖范围卡死。研究团队将这一洞察称为「Diversity and Balance」原则，这也是此前所有运动数据集从未系统考量过的维度。

也就是说，AstraBrain-WBC 0.5 不是简单把数据「堆大」，而是在做一件更难的事：让大规模动作数据变得可度量、可划分、可训练。

第二件事：用对架构

过去的运动追踪器大多使用 MLP 或 TCN（时序卷积网络）。这些架构的问题在于，它们对序列历史的建模能力有限，而且到了一定规模后增加参数几乎不再带来收益。

AstraBrain-WBC 0.5 转向了 GPT 风格的因果 Transformer 架构。这可不是「跟风 LLM」，其背后有一条严密的技术逻辑。

运动追踪本质上是一个在线序列决策问题：机器人在每个时刻需要根据当前状态和历史轨迹，预测出下一帧的关节指令。这个问题天然有时序依赖——你现在迈出的这一步，和上一秒的重心、速度、姿态都强相关。

MLP 的致命伤正在这里：它每次只能「看」一个时刻的状态切片，对更长的历史序列只能靠拼接输入来临时凑数，建模能力从根本上就受限了。

Transformer 的自注意力机制则不同。它可以让模型在序列中的每个位置同时「回望」此前任意长度的历史，捕捉到「当前动作与 32 帧前的某个特定姿态」之间的关联。这类长程依赖关系，正是连贯、流畅的全身运动所必需的。

但还有一个关键约束：机器人控制是实时的，不能看到未来。这就是「因果（Causal）」的来源：AstraBrain-WBC 0.5 在注意力层加入了时序因果掩码，严格限制模型只能利用当前帧及之前的历史，推理时不依赖任何前瞻信息。

这使得同一个模型在训练时是并行处理整段序列（效率高），在推理时是逐帧自回归预测（延迟低），两种模式天然统一，没有结构上的割裂。

还有一个被容易忽视的优势：训练效率的质变。

AstraBrain-WBC 0.5 的蒸馏阶段采用 DAgger 框架，每次迭代需要对整条运动序列中的所有历史时刻同时施加监督信号。MLP 每次只能处理单个时间步，想覆盖一条长序列得循环 N 次；Transformer 一次前向计算就能处理整段序列的所有位置，训练吞吐量直接拉开数量级差距。在 20 亿帧的数据规模下，这是能否在合理时间和计算成本内完成训练的关键。

论文中的消融实验也验证了「历史长度」的价值：序列长度从 4 帧增至 64 帧，追踪成功率持续提升；团队最终选定 32 帧作为默认配置，在性能与计算开销之间取得平衡。这本身就是对「长程时序建模能力真的有用」的直接证明。

第三件事：专家蒸馏的流水线

直接用一个模型训完 20 亿帧是不现实的。团队的做法是「先分后合」：在 300 个运动族群上各自训练 PPO 强化学习专家策略（约 384 个专家），每个专家只负责自己那个风格的动作，因此都能高保真地完成族群内的动作；再用 DAgger 蒸馏框架，让单个 Transformer 模型同时向所有专家学习，最终压缩为一个统一的通用策略。

专家数量本身也经过了系统的消融验证。簇数太少（如 128 个）意味着每个专家负责的动作风格过于混杂，单个专家的追踪质量会下降，蒸馏出来的通才也相应变弱；但簇数太多（如 1024 个）则会让相邻专家之间的监督信号互相矛盾，反而给学生模型带来混乱。实验表明，约 384 个专家是当前数据规模下多样性、专家质量和训练成本的最优平衡点。

整个训练过程耗费约 15000 GPU 小时，其中 75% 用于专家训练（RTX 4090），25% 用于 Transformer 蒸馏（H100）。

一旦蒸馏完成，部署时只需要这一个通才模型，384 个专家就可以「功成身退」，不再需要保留。

AstraBrain-WBC 0.5 与相关工作的比较

最终形成的 AstraBrain-WBC 0.5 模型参数规模达到 8040 万级别，已经接近 GPT-1 时代的大语言模型规模。

为什么是银河通用？

AstraBrain-WBC 0.5 背后的工业主体是银河通用机器人（Galbot）。

银河通用成立于 2023 年 5 月，总部位于北京。公司从创立之初便将研发重点放在具身智能「大脑」和泛化操作能力上，而非优先追求双足运动能力。其代表产品 Galbot G1 采用双臂、折叠腿和全向轮底盘设计，被业内概括为「大脑优先、身体务实」的技术路线。

从融资节奏来看，银河通用走得并不慢。2025 年 12 月，银河通用完成超过 3 亿美元融资，中国移动链长基金、中金资本、央视融媒体基金等机构参与投资，公司估值超过 30 亿美元。2026 年 3 月，公司再次完成 25 亿元融资，投资方包括国家人工智能产业基金等机构。这也是国家人工智能产业基金首次投资具身智能企业。

商业化方面，银河通用是国内较早推动具身智能机器人规模落地的企业之一，其机器人已进入零售、制造、仓储物流等多个场景。

银河通用在即时零售领域推出了人形机器人自主运营零售仓方案，并已在全国数十家即时零售仓实现规模化部署。依托端到端具身智能模型，机器人能够在数千种 SKU 的复杂环境中自主完成识别、分拣、抓取和打包等流程。

该公司还与美团买药等合作伙伴推动人形机器人智慧药房（智慧药仓）落地，机器人可在包含约 5000 种药品 SKU 的环境中完成自主拣选与打包。目前相关方案已在北京、上海、广州、深圳、杭州等城市部署，并实现 7 × 24 小时持续稳定运行。

2026 年马年春晚，银河通用成为中央广播电视总台《2026 年春节联欢晚会》指定具身大模型机器人，为公众展示了其具身智能技术与机器人产品能力。现场，Galbot 机器人在沈腾、马丽身边全自主完成盘核桃、叠衣服、货架取物等任务，所有动作由「银河星脑」实时决策，而非预设程序——这是对机器人泛化能力的一次高曝光度公开验证。参阅《沈腾：春晚谁家机器人？除夕夜就扒拉活来了》。

「银河星脑（AstraBrain）」是银河通用自主研发的全身全手端到端具身大模型，也是理解 AstraBrain-WBC 0.5 战略意义的关键背景。

银河星脑采用三层类脑架构：「大脑」负责多模态感知与任务规划，「小脑」负责全身运动协同与实时控制，「神经控制」则处理末端灵巧操作与力反馈。业界多数方案将这三层割裂开发，模块之间存在信息损耗，导致响应迟滞和泛化能力弱；银河星脑的目标是打通全链路、实现端到端统一建模。

银河星脑 AstraBrain 框架

正如近日在 2026 智源大会主题演讲中，银河通用机器人创始人王鹤博士所言：「银河通用推出的 AstraBrain（银河星脑），目标就是做一个通用人形机器人的基座：既有大脑、又有小脑，中间通过脑桥连接，让更快的小脑与相对较慢的大脑实现异步同步。人脑中的脑桥实际上分为三路、有上传也有下载，我们的架构充分参考了人类大脑的结构，目标就是实现完全通用。」

AstraBrain-WBC 0.5 是这套架构小脑能力的展现：一旦小脑具备了跨场景零样本泛化的能力，银河星脑整体的通用性和迁移效率就能随之提升。

顺带一提，AstraBrain-WBC 0.5 论文（Humanoid-GPT）已被 CVPR 2026 接收。

「小脑」之争，这一局定了什么？

在业界，把 Scaling Law 套用到运动控制层方面，AstraBrain-WBC 0.5 不是第一个尝试。此前 SONIC 已经将训练帧数推至 1 亿，但其依然采用 MLP 架构，而实验表明在那个规模上 MLP 已经开始饱和。

AstraBrain-WBC 0.5 的贡献在于系统性地证明：MLP 的瓶颈并非数据少，而是架构本身的扩展性限制。换用 Transformer，一切才真正打开。

随着数据规模扩展至 20 亿帧、模型参数持续增长，模型的性能得以持续提升。人形机器人运动控制或许正迈向「基础模型时代」：如果说过去的机器人是在学习单个技能，AstraBrain-WBC 0.5 则更像是在学习整个人类动作世界。

这个结论对整个产业有直接的战略含义。

当前人形机器人行业的技术路线大致可分为两派：一派更加侧重突破运动控制和硬件；另一派则更加强调大模型驱动的泛化能力。

AstraBrain-WBC 0.5 让后者的主张有了更坚实的技术支撑：如果运动「小脑」本身就可以成为基础模型，那「大脑」与「小脑」之间的边界就会变得模糊，两者可以共同受益于 Scaling Law 的红利。

行业里已有一个共识：2026 年是具身智能的交付元年，企业的竞争重点正从「我的机器人能做到」转向「我的机器人能可靠地、规模化地做到」。在这个语境下，运动控制层的泛化能力，直接决定了一款机器人能否用同一套软件栈适配不同车间、不同家庭、不同任务。这是规模化落地的前提，也是商业壁垒真正形成的地方。

当然，AstraBrain-WBC 0.5 也有局限：它还是纯运动追踪模型，不具备对物体、环境的语义理解。论文作者在结语中明确提出，下一步方向是与视觉 - 语言 - 动作（VLA）模型对接，加入视觉、触觉和语言多模态信息，迈向通用具身基础模型（Embodied Foundation Model）。

银河通用已经走出了突破性的一步，后续的棋局，正在展开。

宙世代

一起剪

相关标签