新浪财经 10小时前
三连发!阿里发布具身大模型Qwen-Robot系列
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

来源:新浪科技

新浪科技讯 6 月 16 日下午消息,阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列,包含 VLA 操作模型 Qwen-RobotManip、VLN 移动模型 Qwen-RobotNav 和世界模型 Qwen-RobotWorld 三大模型。这三个模型分别为机器人装上灵巧的手、认路的脚和会思考的大脑,既可单独部署,也能协同运转。

VLA (Vision-Language-Action,视觉 - 语言 - 动作)模型是当前具身智能最核心基础模型之一,它将视觉感知、语言理解和动作决策融合,让机器人看得懂、能动手。传统 VLA 模型的核心痛点是迁移能力不足,换机器人、换场景性能就下降。让不同形态的机器人能听懂一个模型指挥,需要解决动作统一和空间统一两个核心问题,Qwen-RobotManip 正是从这两点切入。据悉,Qwen-RobotManip 用一套 80 维的统一动作表征,为不同硬件定义了通用的 " 肢体语言 ",让机器人习得基础物理规律与动作逻辑,动作不再是生硬模仿。搭载在不同的硬件中,Qwen-RobotManip 只需数步反馈即可自动适配,性能稳定高效。

如果说 VLA 模型让机器人能动手,那么 VLN(Vision-Language Navigation,视觉语言导航)模型,就是让机器人能认路、会跑腿。Qwen-RobotNav 基于 Qwen-VL 构建,将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一个框架,遇到复杂任务无需人工切换模型。

Qwen-RobotWorld 则基于对物理规律的理解,可推理和模拟出下一个时间点机器人的合理动作和状态,让机器人在现实世界中可按图索骥般地行动。(文猛)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 自动驾驶 科技讯 物理 规律
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论