【TechWeb】6 月 17 日消息,据 " 千问大模型 " 公众号消息,Qwen 团队发布机器人套件,包含三个基础模型:Qwen-RobotNav、Qwen-RobotManip 与 Qwen-RobotWorld。
这三大基础模型分别将语言与不同类型的物理动作对齐。其中,Qwen-RobotNav 通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点 / 目标导航、目标追踪和自动驾驶四类任务。
Qwen-RobotManip 通过规范状态 - 动作空间和相机坐标系下的末端执行器增量位姿,把视觉语言能力接入操作控制,基于完全由开源数据构建的 >38,100 小时语料库实现了大规模多机型训练
Qwen-RobotWorld 通过自然语言动作接口,把视觉语言能力接入世界动态预测,让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。
三个模型均采用语言优先接口,可与通用大模型组合成物理智能体系统。Qwen 已展示从语言理解到复杂物理任务执行的闭环,包括实时任务分解与自主纠错。


登录后才可以发布评论哦
打开小程序可以发布评论哦