盖世汽车 06-18
新方法帮助机器人导航 使用语言基输入而不是昂贵的视觉数据
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

这种方法不是将机器人周围环境图像的视觉特征编码为视觉表征(这需要大量计算),而是创建描述机器人视角的文本说明(text caption)。

盖世汽车讯 有一天,人们可能希望自己的家用机器人把一大堆脏衣服搬到楼下,并把它们放进地下室最左边角落的洗衣机。机器人需要将指令与它的视觉观察结合起来,以确定它应该采取什么步骤来完成这项任务。

(图片来源:arXiv)

对于人工智能本体(AI agent)来说,这说起来容易做起来难。当前方法通常使用多个人工创建的机器学习模型来处理各部分任务,基于大量的人力和专业知识而构建。这些方法通过视觉表征(visual representation)来直接做出导航决策,需要大量的视觉数据来进行训练,而这些数据通常很难获得。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

机器人 人工智能 ai 机器学习
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论