量子位 05-07
一年磨一剑,今年最炸机器人Demo来了!1亿美元种子轮团队出手,单个模型解锁单手打蛋解魔方弹钢琴
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

看过的人已经傻眼了,因为这可能是今年为止最炸的机器人 demo。

刚刚,Genesis AI发布首个机器人基础模型 GENE-26.5,让机器人能自主打鸡蛋,拧试管盖,弹钢琴,玩魔方,切番茄。

全程自主运行,1 倍速,同一个模型。

亮相后,前 1x 副总裁Eric Jang宋舒然教授等业内大佬纷纷转发评论,表示赞叹。

如果你对这个半路杀出的团队感到陌生,下面这个 gif 可能会让你想起些什么。

一年多以前,他们在 GitHub 上发布了那个炸穿互联网的 Genesis 物理引擎。

一句话生成物理世界,28.6k Star,学术圈半壁江山参与。

创始团队在 2025 年中拿了 1.05 亿美元种子轮出来创业,沉默了将近一年。

现在回来了。

今年为止最炸的机器人 demo

GENE-26.5 的 demo 大概是机器人领域今年到目前为止最值得认真看的,咱们来速通一下。

烹饪场景

四分钟,20 个子任务串成完整流水线。单手打蛋,五指配合控制裂纹走向。

双手切番茄,一只手调整角度,另一只手下刀。毛巾、盐磨、打蛋器、刀、铲、煎锅轮番上阵。

搞笑的是,打完鸡蛋他还拿毛巾擦了一下手,怪干净的……

实验室移液操作

从抓移液器到装离心机,全流程毫米级精度。最难的是拧试管盖和手内换握姿势。

解魔方

双臂协作,连续空中翻转,实时闭环。

此前不靠专用夹具完成魔方的标杆还是 2019 年 OpenAI 那只单手,Genesis 称这是通用双臂系统的首次。

图源:OpenAI

做冰沙

语言指令驱动的长序列任务,固体、可变形物体、液体全涉及。

吸管翻转

测试极脆弱半透明物体的处理,最后一步手内翻转需要多根手指高度同步。

多物体抓取

单手同时抓四个不同尺寸物体,四种抓握方式并行,展示灵巧手相比传统夹爪的效率差距。

线束整理

汽车产业的「圣杯任务」。双手操控柔性线缆打捆、挂架、缠胶带,公认最难的工业操控任务之一。

弹钢琴

Rush-E,约 130BPM,专门压测控制栈极限,策略用 RL 在仿真中单独训练。

以上大多数复杂技能,GENE 只需要不到 1 小时的任务专属机器人数据,不到 200 个 episode。

值得一提的是,Genesis CEO 周衔在接受 Business Insider 采访时表示:

烹饪大多数步骤成功率在 90% 到 95%,但单手打蛋和用刀转移切好的番茄只有 50% 到 60%。整体操作速度大约是人类的六七成。

全栈怎么做的

Genesis 博客里说了一句话把整个技术思路讲透了,操控不是一个纯模型训练问题,是一个系统问题。任何一层的短板都会传导到整个系统。

所以他们选择每一层都自己做。

硬件,一双和人手一样大的手

Genesis 在 demo 中使用的灵巧手,20 个可反向驱动的自由度,与人手 1:1 尺寸匹配,手掌和手指覆盖柔软材料模拟皮肤接触力学。

这种设计让人手动作可以直接映射到机械手上,不需要复杂的重定向算法。

值得一提的是,不少业内人士指出这双手与国内灵巧手公司舞肌科技(Wuji Tech)的产品高度相似。

Genesis 官方博客将其称为 Genesis Hand 1.0,但未详细说明硬件来源。

回到手的尺寸上,为什么要做到与人手 1:1,是因为机器人领域存在一个叫「具身差距」的老问题,人手和机械手形态不一样,人类动作数据就没法直接迁移到机器人上。

Genesis 的解法很粗暴,把手做成一模一样,差距就消失了。

控制栈也一并重写。Genesis 把机械臂供应商的出厂控制器整个换掉,自研中间件跑在 PREEMPT_RT 实时内核上,EtherCAT 通信 500Hz,端到端延迟最低压到 3 毫秒。

原厂控制器画一个 15 厘米的圆追踪误差 20 毫米,换上 Genesis 的控制器后降到 2 毫米,提升一个数量级。单关节追踪延迟从 80 毫秒降到 9 毫秒。

这层的意义在于,当训练数据来自人类动作而不是机器人遥操作时,控制系统的延迟和误差会在训练信号和实际执行之间制造鸿沟。延迟越低,人类数据就越好用。

数据,让工人上班顺便采集

在数据采集方面,Genesis 主要采用一双与灵巧手配套的数据采集手套。

机器人手和人手尺寸一致,手套记录的手指运动可以无损映射到机器人上,不需要复杂的重定向算法。硬件成本是传统方案的百分之一,采集效率是遥操作的五倍。

数据引擎总共有三层来源。

手套数据提供最高保真度的手部运动和触觉信号。第一人称视频捕捉自然行为和任务多样性。第三人称互联网视频提供海量覆盖。

三层数据在质量和规模上做了帕累托分布,Genesis 和合作伙伴已经收集了超过 20 万小时的多模态数据。

Genesis 总裁 Gervet 对 TechCrunch 说了一句有意思的话,这只手套可以让实验室技术员、制造业工人在干日常工作的时候顺便采集数据,不打断工作流。

当然 TechCrunch 也追问了一个尖锐的问题,工人会愿意戴着手套和摄像头来训练最终可能取代自己的机器人吗?

Gervet 的回答是,这个得看客户和员工之间怎么谈,具体细节还没敲定。

模型,一个统一的轨迹联合分布

GENE-26.5 的模型目标是学一个能同时吸收语言、视觉、本体感觉、触觉和动作的统一模型。用 flow matching 对轨迹建模联合分布,捕捉多模态的未来可能性。

几个关键设计。

第一,支持异构、部分可观测数据的可扩展训练,第一人称视频流、手套数据、机器人控制数据、互联网视频,不需要显式对齐就能一起训练。

第二,同一个模型处理所有任务,控制、状态估计、逆动力学、目标推断都变成对联合分布的条件查询,缺失的模态通过去噪推断。

第三,可以灵活吸收预训练模型的先验,VLM 提供语义理解,世界模型提供时序和物理动态。

简单说就是一个模型吃所有模态的数据,做所有类型的任务。demo 里展示的几个场景,除了钢琴演奏是单独用 RL 训练的之外,其余全部共享同一套权重。

训练和评估,仿真是加速器

Genesis 团队在博客里放了三张 scaling 曲线,透露了训练 recipe 的关键信息。

预训练阶段,open-loop 评估显示模型规模和计算量增加时验证损失持续下降,符合经典的 scaling law。

但他们强调 open-loop 指标对机器人来说远远不够,关键是 closed-loop 表现,就是模型的动作会影响后续观测的闭环场景。

这里 Genesis 物理引擎的老本行就派上用场了。他们用最新版 Genesis World 仿真器做大规模闭环评估,不需要在仿真数据上做任何 co-training,仿真环境的保真度已经足够直接评估真实世界训练的模型。

每个数据点对应 200 个评估设置和超过 150 小时的机器人执行时间,整张图如果在真实世界跑需要 2700 个人 - 机器人小时。结论是预训练数据量越大,zero-shot 泛化能力越强。

到 fine-tuning 阶段回到真实世界。他们专门构造了预训练中完全没见过的新任务,在超低数据量条件下测试,每个任务只用 20 到 30 分钟的数据。

demo 里展示的那些复杂技能,大多数只需要不到 1 小时的任务专属机器人数据,换算下来不到 200 个 episode。预训练规模越大,fine-tuning 也越快、数据需求越少、最终表现越好。

周衔对 TechCrunch 说,模型迭代速度的真正瓶颈是评估,仿真帮他们大幅加速了这个循环。

从物理引擎到通用机器人

2024 年底,CMU 博士周衔牵头开源了 Genesis 物理引擎。

这款纯 Python 仿真平台比英伟达 Isaac Gym 快 10 到 80 倍,GitHub 上迅速成为最大的具身智能开源项目,吸引了 20 多个研究机构参与。

周衔本科毕业于新加坡南洋理工,是 Genesis 物理引擎的发起人。

2025 年初,Genesis AI 在法国注册成立,由周衔担任 CEO,总裁是Th é ophile Gervet,同样来自 CMU,曾在具身智能独角兽 Skild AI 任早期研究员,后加入 Mistral AI 做研究科学家。

两人师出同门,导师都是 Katerina Fragkiadaki。

成立几个月后,团队拿到 1.05 亿美元种子轮,Eclipse 和 Khosla Ventures 领投,谷歌前 CEO Eric Schmidt、法国电信大亨 Xavier Niel 个人参投,法国国家投资银行 Bpifrance 也在投资方名单里。

作为参考,此前具身智能赛道最大的种子轮是 Physical Intelligence 的 7000 万美元。

拿到钱之后,团队没有急着发产品,而是花了将近一年时间闷头搭全栈。

今天,GENE-26.5。模型、硬件、控制栈、仿真器,一次性全部亮相。团队从创始时的几个人扩展到 60 人,巴黎、加州、伦敦三地办公,欧美大约四六开。已经收集了超过 20 万小时的多模态数据,正在与多个行业客户洽谈合作。

周衔告诉 TechCrunch,接下来很快会公布第一个通用机器人,全身的,不只是手。

参考链接

[ 1 ] https://x.com/gs_ai_/status/2052050956272230577

[ 2 ] https://x.com/zhou_xian_/status/2052051823742312861

[ 3 ] https://www.aol.com/articles/look-hands-genesis-ai-says-130001205.html

[ 4 ] https://github.com/Genesis-Embodied-AI/genesis-world

[ 5 ] https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level

[ 6 ] https://techcrunch.com/2026/05/06/khosla-backed-robotics-startup-genesis-ai-has-gone-full-stack-demo-shows/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

5 月 20 日,我们将在北京金茂万丽酒店举办一年一度的中国 AIGC 产业峰会。

首波嘉宾阵容已公布昆仑万维方汉智谱吴玮杰EverMind 邓亚峰风行在线易正朝百度秒哒朱广翔Fusion Fund 张璐香港大学黄超MarsWave 冯雷都来了,了解详情

请你和我们一起,不再只是讨论 AI 的未来,而是现在就用起来。 

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 ai 魔方 物理 互联网
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论