机器人终于不用散装大脑了!
字节 Seed 一个模型就能搞定机器人推理、任务规划和自然语言交互。
经常做机器人的朋友都知道,以前想让机器人干活,得先解决一个烦人的问题——
模块之间的信息代沟。
能听懂指令和能完成指令可完全不是一回事,以前要让机器人听懂人话,得装个专门的语言交互模块;要让它能避开障碍从客厅走到阳台,又得搭一套任务规划模块;要想……还得……
于是不同模块在机器人身上拼凑使用苦开发者久矣。
但现在,字节 Seed 推出了Robix 视觉——语言单模型,把三件事全包了,也不用搞多模块拼接那套了。
所以,这是怎么做到的呢?
核心采用思维链推理和三阶段训练策略
Robix 是一款专门给机器人用的模型。核心想法是让一个模型同时搞定三件事:
琢磨怎么干活(推理)
安排干活步骤(任务规划)
跟人聊天沟通(自然语言交互)
首先,团队的思路是把机器人系统分为两层,高层认知和底层执行,Robix 就是管高层认知的。
底层(VLA)来执行 Robix 发出的命令。
而 Robix 本身也并不是多个模块拼合的散装大脑,而是一个视觉 - 语言融合的单模型,能同时处理画面、语言,还能把思考过程、动作指令、人类回复整合在一个逻辑循环里,避免模块间沟通卡顿。
Robix 核心采用思维链推理和三阶段训练策略。
在推理与决策方面,采用思维链,根据输入信息进行深思熟虑的推理。
在推理过程中,它会考虑当前场景中的物体、空间关系、任务要求等因素,预测下一步的思考方向、行动方案以及可选的语言回复。
这个过程是一个迭代的决策过程,每一步决策都基于当前的观察和之前的交互历史。
再来说说 Robix 是怎么训练的。
三阶段是分为持续预训练、监督微调和强化学习。
在持续预训练阶段,用大量机器人相关的数据,教它看懂 3D 空间、把语言和画面对应上,学会能判断任务进度的能力。
在监督微调阶段,模拟收拾餐桌、超市购物这些真实场景,教它处理各种指令、按逻辑一步步想问题,同时让它学会跟人简单对话,做到能听懂、会规划、能聊天。
在强化学习阶段,用专门算法纠正 " 想的和做的不一样 " 的问题,通过 " 做对给奖励、做错给提醒 " 的方式,让它在长时间任务里决策更稳、动作更准。
至于效果,团队给出了一些测试数据。
在基础能力测试上,Robix 的两个版本(7B 和 32B)在 8 个空间理解任务中有 7 个比 Qwen2.5-VL 表现好,平均准确率更高;
并且在多数基准测试中超越了闭源的 GPT-4o、Gemini 2.5 Pro 等。
离线评估中,Robix-32B-RL 在所有评估集上排名第一。
在模拟真实环境的交互测试,使用 UMI 设备在线评估,Robix-32B 在 5 个任务中的 3 个超越 Gemini 2.5 Pro,且平均任务进度略高,且大幅超越 Qwen2.5-VL-32B。
而使用 GR-3 进行在线评估时,在自动化真实机器人评估中,Robix-32B 的平均任务进度达到 92.5%,分别比 Gemini 2.5 Pro 和 GPT-4o 高出 4.3 和 28.1 个百分点。
看来,机器人模型以后拼的可能就不是模块数量而是单一模型的综合能力了。
One More Thing
值得关注的是,Robix 项目的负责人,正是字节 AI 实验室的负责人李航博士,更早之前,他曾担任华为诺亚方舟实验室主任和首席科学家。
△图源:李航微博
他于 2017 年加入字节,后带领团队开展字节的机器人项目。
在今年 6 月,有知情人透露李航已经退休,但字节相关负责人则马上表示他还将以返聘顾问的形式进行工作,且工作范围不变。
另外,李航老师在 2022 年出版的《机器学习方法》,据说从 2018 年开始就在构思与写作……
△图源:李航微博
现在还新增了深度学习内容,目前新版已经上市,如果想深入学习机器学习的朋友,也可以去追书哦~
技术报告:https://robix-seed.github.io/robix/
论文地址:http://arxiv.org/abs/2509.01106
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦