图灵奖得主萨顿：具身智能走向交互学习时代

" 以往具身智能通过模仿人类进行学习，但人工智能的核心在于知道如何学习新事物，因此具身智能必须通过交互学习，通过试错实现持续学习。"2024 年图灵奖得主理查德 · 萨顿于 6 月 29 日在北京接受经济观察报等媒体采访时表示。

交互学习是指具身智能通过与周围环境进行互动获得经验，进而实现学习的方式，核心是强化学习。此前主流的学习模式为模仿学习，即模仿人类动作进行学习。

比如，AlphaGo 在发展早期通过学习围棋棋手的棋谱进行学习，是为模仿学习。后续研究人员为 AlphaGo 输入围棋规则，AlphaGo 通过不断在围棋规则内 " 下棋 " 习得棋谱，最终战胜人类选手。

" 现阶段人工智能的发展更关注大语言模型，具身智能的发展仅靠大语言模型是不够的，我认为需要关注‘经验’。" 萨顿表示。

萨顿表示，" 经验 " 指具身智能在参与现实世界的过程中收集到的反馈。具身智能想要获得 " 经验 "，需要通过交互学习。

除萨顿外，触觉感知公司他山科技 CEO 马扬，协作机器人公司节卡机器人副总裁许雄以及中信证券投资副总裁黄耀庭也于当天在与经济观察报等媒体采访时交流了交互学习对于具身智能的重要性。

" 模仿学习是具身智能‘冷启动’的方式，通过交互学习才能走向商业化。" 马扬表示。

他举例，目前绝大多数具身智能进行演示的场景，均为对具身智能 " 非常舒适 " 的场景，离现实场景差距较大。通过模仿学习，具身智能只能学会 " 这是正确的 "，不能学会 " 什么是正确的 "。

马扬表示，交互学习意味着减少或不再使用仿真模拟数据对具身智能进行训练，而是通过具身智能在真实世界中的行为进行训练。

萨顿表示，模拟器的自由度很低，因此提供的数据复杂性较现实世界低得多，仅通过仿真模拟数据训练难以应对真实世界。

" 具身智能不需要老师，也不需要训练，需要的是自己主动地在环境中进行探索、学习。" 萨顿说。

据马扬介绍，具身智能在发展早期，大多通过视觉模型进行训练，进入交互学习时代，触觉感知能力更为重要。" 视觉是用来感知的数据，触觉是用来交互的数据。" 马扬说。

马扬认为，触觉感知能够为具身智能提供主动安全策略、驱动具身智能进行探索，以及通过触觉感知定义事件等。

马扬表示，随着近年来具身智能被逐步部署于应用场景中，行业逐渐发现其只依赖视觉，而缺乏触觉感知，无法适应具体场景。现有的能够落地应用的具身智能，在执行层面仅能完成基础性的工作或者是在已经实现的工业自动化工作中增添一点柔性功能。

许雄表示，工业机器人更强调安全与可靠性、交互性以及学习能力，这些都离不开触觉感知能力。

马扬说，从去年开始，行业开始探索在纯视觉方案中增添触觉感知的可能性，下游具身智能厂商对机器人触觉感知产品的需求暴增，不仅仅将触觉感知作为 " 执行器 "，而是作为 " 收集器 "。

马扬表示，作为 " 收集器 " 的触觉感知更强调鲁棒性、稳定性、耐久性和分辨率，而不在于感知精度。

他举例，分辨率较好的触觉感知可以帮助具身智能快速对数据进行分类，进而做出响应和调整。

黄耀庭建议，实验室和数据采集中心不是具身智能的终点，具身智能企业需要挖掘到真实的、可规模化的、具有商业价值的场景，在场景应用中收集数据并不断进行产品迭代。

宙世代