1 米 3 的机器人小土豆,三步上篮也可以如此丝滑。

别误会,这台宇树 G1 暂时还不准备参加 NBA 选秀,但它刚解锁的 " 现实世界打篮球 " 技能,离上 " 村 BA" 首发应该不远了。
据悉,这是全球首个能在真实场景中完成篮球动作的机器人 demo,来自香港科技大学的研究团队。

虽然团队还没公开完整的技术细节,但结合他们此前让机器人 " 打篮球 " 的工作,这次很可能是在之前研究的基础上,进一步改良而来。
接下来,让我们一窥究竟。
SkillMimic-v2
首先是被收录于SIGGRAPH 2025的SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations。

SkillMimic-V2 旨在解决交互演示强化学习(RLID)中演示轨迹稀疏、含噪且覆盖不足的难题。
其通过引入拼接轨迹图(STG)与状态转移场(STF)、自适应轨迹采样(ATS)等技术,成功地在低质量数据条件下,训练出了兼具鲁棒恢复能力与技能迁移能力的复杂交互策略 。

当前,通过动作捕捉等方式收集的数据往往存在以下缺陷:
稀疏性 ( Sparse ) :演示数据仅覆盖了有限的技能变体,缺乏技能之间的过渡轨迹。
不连贯性 ( Disconnected ) :不同的技能片段是独立的,缺乏自然的连接。
噪声 ( Noisy ) :数据中包含物理上不可行的状态或误差(例如手与物体的穿模、接触位置偏差),这在精细操作任务中会导致严重的训练失败。
这些有缺陷的数据无法捕捉到技能变体和转换的完整频谱。
不过,相比直接去收集更好的数据,研究认为尽管演示数据是稀疏和嘈杂的,但存在无限的物理可行轨迹 。
这些潜在的轨迹天然地能够桥接不同的技能,或者从演示状态的邻域中涌现出来。
这就形成了一个连续的、可能的技能变体和转换空间,从而可以利用这些不完美的演示数据,训练出平滑、鲁棒的策略。

基于以上认识,研究提出三个关键步骤发现并学习这些潜在轨迹:
拼接轨迹图 ( Stitched Trajectory Graph, STG ) :为了解决技能间的连接问题(如从运球切换到投篮),算法在不同演示轨迹之间寻找相似状态。如果在两个不同技能的轨迹中发现相似状态,就建立一条连接,并用掩码标记中间的过渡帧。这构建了一个宏观的图结构,允许策略学习未在原始数据中出现的技能转换。
状态转移场 ( State Transition Field, STF ) :训练时不只从参考轨迹的特定点开始,而是从其邻域内随机采样状态初始化。对于邻域内的任意采样状态,计算其与参考轨迹中所有状态的相似度,找到最佳匹配目标。如果起点与目标点距离较远,算法会插入 N 个掩码状态(Masked States)。这些状态不计算奖励,仅作为时间缓冲,迫使 RL 策略学习如何从偏离状态 " 归位 " 到参考轨迹,从而形成一个具有恢复能力的 " 场 " 。
自适应轨迹采样 ( Adaptive Trajectory Sampling, ATS ) :根据当前策略在某段轨迹上的表现(奖励值)动态调整采样概率。奖励越低(越难学)的片段,被采样的概率越高。这解决了长序列中因局部失败导致整个链条断裂的问题。
由此,技能转换和泛化能力能够远超最初不包含任何技能转换或错误恢复的稀疏演示,实现更高效地技能学习与泛化性。
比如,在仿真环境(Isaac Gym)中,机器人可以在受到干扰时,仍可以完成上篮动作。

还能实现运球 - 投篮间的技能转换。
实验表明,相比此前的 SOTA ( SkillMimic ) 方法,SkillMimic-V2 在困难技能(如 Layup)上的成功率从 0 提升到了91.5%。技能转换成功率 ( TSR ) 更是从 2.1% 飙升至94.9%。

SkillMimic
接下来是 SkillMimic-V2 的前作——SkillMimic: Learning Basketball Interaction Skills from Demonstrations,这篇论文入选了 CVPR 2025 Highlight。

SkillMimic 旨在解决物理模拟人 - 物交互(HOI)中传统方法依赖繁琐手工奖励设计且难以在统一框架下掌握多样化技能的难题。
其通过引入统一 HOI 模仿奖励与接触图(Contact Graph)、分层技能复用等技术,成功地在单一奖励配置下,训练出了兼具精准接触控制与长程任务组合能力的通用交互策略。

研究 pipeline 包含三个部分:
首先,采集真实篮球运动技能,构建一个庞大的人机交互(HOI)运动数据集。
其次,训练一个技能策略,通过模仿相应的 HOI 数据来学习交互技能,设计了一个统一的 HOI 模仿奖励机制,用于模仿各种不同的 HOI 状态转换。
最后,是训练一个高级控制器(HLC),用于复用已学习的技能来处理复杂任务,同时使用极其简单的任务奖励。
其中,SkillMimic 方法的关键在于:
统一的 HOI 模仿奖励(Unified HOI Imitation Reward):放弃针对每种技能单独设计奖励,而是设计一套通用的奖励配置,通过模仿 HOI 数据集来学习所有技能 。
分层学习架构(Hierarchical Solution):低层:交互技能策略(IS Policy):通过 SkillMimic 框架学习各种基础交互技能(如运球、上篮)。高层:高级控制器(HLC):训练一个高级策略来复用和组合已习得的 IS 策略,以完成长程复杂任务(如连续得分 ) 。
数据驱动:构建了两个数据集 BallPlay-V(基于视频估算)和 BallPlay-M(基于光学动捕,精度更高),包含约 35 分钟的多样化篮球交互数据 。
实验表明,SkillMimic 能够使用同一套配置学会多种风格的篮球技能(运球、上篮、投篮等),成功率显著高于 DeepMimic 和 AMP。

在演示中,我们可以看到,仿真环境的机器人能够实现绕圈运球等高级技能。
PhysHOI
如果追溯 SkillMimic 作者的工作,就会发现早在 2023 年,论文PhysHOI: Physics-Based Imitation of Dynamic Human-Object Interaction就试图让仿真中的机器人能够根据演示学习篮球技能。

为实现这一点,PhysHOI在当时提出了一种基于物理仿真的动态人 - 物交互(HOI)模仿学习框架。

简单来说,给定参考的 HOI 数据,将当前的模拟 HOI 状态与参考 HOI 状态一起输入策略模型。
策略输出动作,并通过物理模拟器生成下一步的模拟 HOI 状态,然后将运动学奖励与接触 - 抓取(CG)奖励加权结合,并优化策略以最大化期望回报。
重复上述过程直至收敛,即可复现参考数据中的 HOI 技能。

除此之外,为防止运动学模仿奖励陷入最优解,研究还引入了接触图(Contact Graph)——
给定一个 HOI 帧,接触图节点包含所有身体部位和物体。每条边都是一个二元接触标签,表示接触与否。为了简化计算,还可以将多个身体部位聚合到一个节点中,形成聚合接触图。
同时,为了弥补 HOI 场景的不足,研究还引入了全身篮球技巧的BallPlay数据集。

在实验中,PhysHOI 在不同大小的篮球操作上表现出了鲁棒性。
One more thing
值得一提的是,在 PhysHOI、SkillMimic 、SkillMimic-v2 三篇工作中,王荫槐都担任了核心角色,网友调侃他是 " 篮球科研第一人 "。

王荫槐是香港科技大学的博士二年级学生,导师为谭平教授。
在此之前,他硕士就读于北京大学,本科毕业于西安电子科技大学,并于 IDEA Research、宇树科技以及上海人工智能实验室等机构进行实习。
从 2023 年在仿真环境的小试牛刀,到这次直接让机器人在真实环境中打球,得益于机器人本体的发展,这速度真是很快了!

参考链接
[ 1 ] https://x.com/NliGjvJbycSeD6t/status/1991536374097559785
[ 2 ] https://wyhuai.github.io/info/
[ 3 ] https://ingrid789.github.io/SkillMimicV2/
[ 4 ] https://wyhuai.github.io/physhoi-page/ [ 5 ] https://ingrid789.github.io/SkillMimic/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
快来量子位 MEET2026 智能未来大会,与我们畅聊 AI 吧!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、京东、高通、亚马逊等头部 AI 企业已确认出席,RockAI、太初元碁、自变量、小宿科技等业内新秀也将参与分享,还有更多嘉宾即将揭晓 了解详情
12 月 10 日
北京金茂万丽酒店
,期待与你共论 AI 行业破局之道
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦