
几小时前,Figure AI 发布了 Helix 02 ——官方称之为「一个视觉 - 语言 - 动作(VLA)通用模型」。
最直观的展示?一台 Figure 03 机器人走到碗柜前,打开柜门,从堆叠的碗碟中挑出一个,转身走向洗碗机,调整角度,稳稳放进去。
全程自主,没人遥控,更没有一个碗碟受到伤害:

洗碗:具身智能的「地狱难度」测试
为什么演示下厨房?因为这是家务劳动里的「地狱难度」。
人类挪动厨具感觉很简单,但对于机器人来说,每一个关节的运动都是挑战。
我们拆解一下洗碗的动作链就知道了——
首先,它非常考验机器人的环境识别与空间移动能力:

机器人(与机器人使用的模型)要判断自己的位置,识别碗柜、水槽、洗碗机的位置关系,然后规划路线走过去。
走到碗柜旁边,还得停在合适距离——太近打不开柜门,太远够不着碗。
看到餐具之后,还得识别类型:瓷盘、玻璃杯、塑料碗,每种都需要不同的姿势和力度。
捧起来,还得检测要放进洗碗机的哪个位置,盘子放下层、杯子放上层,餐具放侧边。
其次,下厨房对立体视觉与触觉反馈也有要求:

陶瓷很脆、玻璃很滑、塑料会变形,机器人需要精准的触觉反馈控制力度——太轻会滑落,太重会捏碎。
Helix 02 模型的突破就在这里。
结合视觉、触觉、压力、电感等等多种 sensor,它有了一套多维度的立体视觉能力,能准确判断碗在堆叠中的位置和深度。
Figure 03 机器人的手上也集成了力反馈机制,能「认知」到自己施加的力量,知道何时接触到了瓷器表面。
抓碗时,系统实时感知接触力度。碗放歪了?调角度。碰到柜门了?后退一点。
最后,还有视觉记忆,这也是 Helix 02 模型本次的主要升级点:

这意味着机器人能记住刚才看过的东西。
打开碗柜时,即使现在的角度看不到某个碗,它也记得刚才瞥见过,并根据记忆调整动作。
重复把放碗进洗碗机时,它也能记得哪些位置满了,哪里还有空间——
不需要每次重新扫描,大大提高了动作的执行效率。
Brett Adcock,Figure AI 的创始人兼 CEO 在 X 上强调:
没有远程遥控,运行(这个机器人)的是 Helix,从走路到抓握,以及规划。

Brett Adcock 还重申,同样的通用架构之前让机器人学会了叠毛巾、整理包裹,现在又学会了洗碗。
不需要任何新算法或任务专用工程,只需要新数据。
眼下唯一的限制就是预训练数据,只要我们给 Helix 喂入更多数据,机器人就能处理更多任务。硬件不需要任何改变,它已经能做大部分人类能做的任务了。
这条推文下面,有 X 用户评论:「第一次看到人形机器人真的在家里做任务,让我意识到我们离这个未来有多近。」
把机器人送进宝马打工的明星公司
另一边,Figure AI 绝不是那种在实验室里纸上谈兵的「创想公司」。
三年的时间里,Figure AI 的估值从 0 来到 390 亿美元,得到了包括贝佐斯基金、OpenAI、微软、英伟达的投资助力。
2024 年 2 月,Figure AI 结束 6.75 亿美元 B 轮募资,25 年 9 月又完成了 10 亿美元 C 轮,渴求进步的速度快得惊人。

创始人 Brett Adcock 还是个成功的连续创业者。
2018 年,Adcock 把招聘平台 Vettery 卖了 1 亿美元,转头创办电动飞机公司 Archer Aviation,2021 年借助 SPAC 上市时合并估值近 38 亿美元。
进入机器人领域后,Adcock 陆续从波士顿动力、特斯拉、谷歌 DeepMind 挖来了一堆顶尖人才,Figure AI 的技术实力迅速增长。

▲ Brett Adcock(右)
这种人才模式也赋予了 Figure AI 最大的特点:
「脑子」和「身体」一起造,既掌控硬件、也生产系统。
这里的「脑子」指的自然是 Helix AI。
从最初与 OpenAI 合作研发,到现在完全自研,Figure AI 成功把模型话语权牢牢握在手里。
例如 Figure 03 机器人采用了一套「System 0、System 1、System 2」的多层控制架构——

▲ Figure 03
System 0 负责机身运动控制,解决机身平衡、手指接触、环境扰动等底层控制问题,作用很像人类的小脑。
在此基础上,System 1 负责处理 Figure 02 的视觉 - 运动策略(visuomotor policy),System 2 负责运行视觉语言模型:

▲ 去年演示的 Figure 02 就使用了 System 1+2 的上半身模型
三层协同,最终实现了 Figure 03 可以自主理解指令,认知周围环境,并决定机身如何运动的循环。
而「身体」指的当然是 Figure 机器人硬件——
之前小规模试产的 Figure 02 配备 6 个 RGB 摄像头、双 GPU 模组,手部拥有 16 个自由度,最大搬运重量 25 公斤。
Figure 02 的电池续航在 5 小时左右,正好够一个工作班次。

▲ Figure 02
到了最新的 Figure 03,它的每只手掌都内嵌摄像头和触觉传感器,可以实现最低 3g 的压力检测。
换个说法就是,Figure 03 的手掌更加细致灵活了:

更关键的是,Figure AI 的机器人「肯进厂」,拥有快速组装送往实战的能力。
2024 年 1 月,Figure AI 跟宝马合作,把一批 Figure 02 送到了南卡罗来纳州的宝马总装线。
在那儿,Figure 02 负责把钣金零件精准放置到固定装置里——大型固定式机器臂难以照顾的精细活儿。

这些 Figure 02 在宝马累计工作了 11 个月,总行走里程近 200 英里,搬运了超过 9 万个零件,协助生产了超过三万辆宝马 X3。
Adcock 还晒出了布满划痕和磨损的机器人照片,表明这是一次「真刀真枪」的商业验证:

看到机器人拧螺丝,宝马生产部门董事 Milan Nedeljkovi ć 总结:
通过早期测试,我们正在确定人形机器人在生产中的可能应用。我们未来希望可以从(机器人的)技术开发阶段就参与进来。
Figure AI 跟 OpenAI 的关系也是关键。
比如在 2024 年,OpenAI 不仅给 Figure AI 提供了投资,甚至帮助开发了语音模型,让机器人能接受自然语言指令。
尽管 Figure 后来转向自研 Helix,但这段合作实质上为 VLA 模型打下了一个基础。
无独有偶,今年 CES 上,我们看到了一个明显趋势:
家电巨头都开始挑战「家居机器人」。
类似 LG 和海信都展示了能在家里自主移动、协助做家务的机器人原型,说明传统家电企业纷纷开始意识到:
下一代智能家电不是算力更强的冰箱或洗衣机,而是能直接操作这些设备的机器人。

▲ LG CIOiD 家居机器人
甚至在这场「变人」竞赛中,国内厂商的布局更加激进——
就在刚刚,蚂蚁集团旗下灵波科技开源了具身大模型 LingBot-VLA。
LingBot- VLA 作为一个面向真实操作场景的「智能基座」,实现了机器人跨本体、跨任务泛化能力。
根据灵波科技的数据,LingBot-VLA 在包含 100 项真实操作任务的 GM-100 评测中,刷新了真机评测的成功率纪录。

▲ 灵波科技首款机器人 Robbyant-R1
不只是蚂蚁,京东、阿里、腾讯、华为、比亚迪、小米——几乎所有科技巨头都在布局具身智能。
2024 世界人工智能大会上发布的《人形机器人产业研究报告》指出:
2024 年中国人形机器人市场规模达 27.6 亿人民币,2029 年有望扩大至 750 亿元,到 2035 年更是可能激增至 3000 亿元。
远的不说,今年春晚可能成为「机器人含量最高」的一届。
目前已经有多家具身智能公司有望登台展示——不是摆设,是真能上台唱跳 rap 的那种。

机器人配齐了「脑子」和「身体」,准备好进千家万户了。
而 Figure AI 的 Helix 02 证明了「通用具身智能模型」的可行性:
厂商其实不需要为每个任务单独编程,不需要收集巨量推演数据,只要一个足够强的 VLA 模型,机器人就能自己理解指令、自己熟悉环境、自己生成策略。

▲ 它甚至知道省力
就像 GPT 之于语言,Helix 之于具身智能一样,今天机器人能刷碗、打螺丝,明天它就能照顾你的饮食起居。
家里散养个机器人,这事儿可能真没想象中那么遥远了。


登录后才可以发布评论哦
打开小程序可以发布评论哦