元力社 08-15
中国工程院院士倪光南:AI与空间计算融合,让机器人看懂、理解世界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2025 世界机器人大会,中国工程院院士倪光南做了题为《"AI + 空间计算 " 让机器看懂世界》的演讲,他指出,AI 与空间计算的融合,是当前落实国家 " 人工智能 +" 行动的关键核心技术,它正在重构三维物理世界,拓展大模型通向物理世界的桥梁。

倪光南认为,机器人产业正处在从自动化工具向智能化主体发展的关键时期。要实现这一跨越,核心在于提升机器人的智能水平,让机器人能够真正地 " 看见世界、理解世界、行动于世界 "。

他在演讲中强调,视觉是智能的起点。倪光南引用数据指出,一个 4 岁小孩通过视觉在四年中学到的视频信息量,与一个典型大语言模型学习的互联网全部公开文本信息量相当,这说明要让 AI 真正认识和理解世界,仅靠文本信息是远远不够的,必须重视视觉信息。

"空间计算是对物理世界的重构,而不是像大语言模型那样去生成。" 倪光南表示,AI 与空间计算的融合,能够让机器人通过低成本的纯视觉解决方案,精准感知三维空间、识别目标物体,并进行高精度的自主移动与生产作业。

倪光南将当前制造业的发展分为传统工业化(工业 4.0)和新型工业化(工业 5.0)两个阶段。他指出,在新型工业化阶段,机器人将从被动的自动化工具,转变为能够自主决策的智能化主体;控制方式从实时操作系统,演进为 " 脑、眼、行动 " 一体化的具身智能系统;工作模式也从固定工位发展为多工位移动作业。

为实现这一目标,倪光南提出了构建机器人 " 脑、眼、行动 " 一体化具身智能系统的构想。

脑:即基于大模型的机器人大脑,使其能够接受任务、自主规划并适应各种场景需求。

眼:即机器人的视觉系统,他建议采用 "AI+ 空间计算 " 的技术路线,通过普通单目摄像头与神经网络学习的结合,实现高性价比、高精度的三维视觉感知。

行动:即机器人的操作系统,他推荐使用由中国科学院软件所支持的开源机器人操作系统 AgileROS,通过开源开放、协同创新,为智能机器人发展打下坚实基础。

展望未来,倪光南认为构建自主的 AI 机器人生态系统至关重要。他类比 PC 时代的 Wintel 联盟和移动时代的安卓 +ARM 联盟,提出未来 AI 机器人时代应构建基于 RISC-V 芯片架构与 AgileROS 等开源系统的 " 脑、眼、行动 " 一体化智能系统新生态。

" 在人工智能引领科技和产业变革的时代,发展 AI 机器人的关键在于提升其智能水平。" 倪光南总结说,通过构建 " 脑、眼、行动 " 的具身智能系统,才能让机器人真正看懂世界,从而更好地发挥其作为新质生产力的核心作用。

演讲全文:

AI+ 空间计算开启了从二维交互向三维交互发展的新方式。空间计算作为一种全新的计算方式,是物理世界和数字世界之间的桥梁,正在重塑人、机器与世界的交互方式,是推动机器人落地的关键核心技术之一。回顾交互方式的演进历程,从电报、文字到图形、视频,目前,我们正进入从二维交互向三维交互发展的重要时期,空间计算在其中起着重要作用。

空间计算是对物理世界的重构,而非生成。当前,大语言模型引领了科技的发展,但大语言模型并非世界的全部,生成式 AI 也无法完全复制复杂的物理世界。空间计算和 AI 的融合,以一种全新的方式重构三维物理世界,拓展了大模型通向物理世界的桥梁,促进了物理世界和数字世界的融合。因此,我们认为 AI+ 空间计算是当前落实 " 人工智能 +" 行动的一项关键核心技术。在图上也展示了交互发展的几个阶段。

首先要强调的是,视觉是智能的起点。AI 的眼睛,即 AI+ 空间计算,其目的在于提升视觉功能。在生物进化史中,智能的起点是视觉,为了处理视觉信息,大脑的多个层面都需要参与。图灵奖获得者杨立昆(Yann LeCun)教授有一个说法:一个典型大模型学习的信息量大约是 10^14 字节,相当于互联网上所有公开文本信息量的总和,一个人可能需要几十万年才能学完。但是,一个四岁的小孩在四年中通过眼睛能学到的视频信息量,也大约是 10^14 字节。这说明,大语言模型仅靠文本信息进行训练是不足的,要认识世界、理解世界,还需要海量的视频信息。

为此,我们要重视眼睛。视觉是智能的起点,是实现感知与控制的基础,是大脑和物理世界之间的桥梁。接下来,我们通过一段视频来展示一个 "AI+" 机器人在工厂的实际工作情况。视频中的绿色小窗口是机器人看到的世界,与人眼所见大体相当,但增加了机器人利用 "AI+ 空间视觉 " 进行的理解和建模过程。

(视频内容)"Albert 空间智能锁付机器人与传统复合机器人的区别在于其具备了强大的视觉感知和自主思考能力。它采用低成本的纯视觉解决方案,即可实现 L4 级自主移动与生产作业。凭借其空间智能,视觉机器人能够精准感知三维空间并识别目标物体,在无需固定工件位置的前提下,也能将锁付精度稳定控制在 200 微米,这一指标在全球同类技术中处于领先地位。更重要的是,Albert 空间智能锁付机器人集成了 AI 大模型驱动的持续学习与优化能力,通过不断学习完善,从而更可靠、更稳定地完成复杂的生产任务。"

从视频中我们看到,机器人因为有了眼睛,可以在移动环境中快速观察环境,确定精确位置。在动态情况下,将精度控制在 200 微米,是目前一项非常难实现的技术。

下面的表格展示了在不同工业化时期,制造业与机器人的变化。我们将时期分为传统工业化和新型工业化。传统工业化对应德国提出的工业 4.0,而新型工业化则相当于我们所说的工业 5.0。在制造业发展的不同时期,我们经历了从自动化到智能化的演进,现在则进入了 "AI+ 工业制造 " 的新阶段。对于工厂而言,过去的生产模式强调刚性化、标准化,而现在则要融合柔性制造与定制化。在工厂管理上,过去是被动的人工排产,现在则由工厂大脑自主决策。在工业软件方面,过去是多个软件的独立应用,在新一代模式下,许多工业软件会以工作流的方式渗透到整个工作流程中。

数字世界与物理世界的关系,过去是映射关系,现在则要实现二者的深度融合。对于机器人而言,要从自动化的工具转变为智能化的主体。作为工厂的主体,其控制方式从过去的实时操作系统,演进为现在的具身智能系统。以自动驾驶为例,过去相当于 L1 到 L3 的半自动化水平,现在我们希望提升到 L5 的完全智能化水平。同样,我们的操作方式也从按键、键盘、鼠标、屏幕,发展到可以使用自然语言与机器人交互,让它去工作;编程方式也从人工编程发展到大模型编程。机器人的工作模式从固定工位发展到多工位移动作业,同时可以实现即插即用,无需复杂的部署调试。这样,过去需要很长时间才能完成的高精度工作,现在通过移动作业,可以以很低的成本、很快的速度达到高精度。总的来说,我们希望未来人与机器在生产线上能够协同工作、取长补短。

下面我们看一下中国机器人产业的情况。

机器人产业是未来产业、新兴产业,其规模可能达到万亿元级别。在这样巨大的机遇中,我们要通过发展机器人产业,发挥其作为新质生产力的作用。

这里我们特别强调机器人的智能化。通常,一个智能机器人可以分为三大部分:脑、眼和行动系统。这三部分组合在一起,构成一个具身智能系统,才能够全面体现机器人的智慧,发挥其作用。

目前,我们在 " 脑 " 和 " 眼 " 方面的投入尚有不足,是一个相对的短板,需要特别予以加强,以更好地提升机器人的效率。就像汽车的自动驾驶能力可以从 L1 到 L5 分为不同等级一样,机器人领域的一些组织也进行了相似的分类。

当前的机器人大体上处于 L1 到 L3 的水平。我们希望通过发展 " 眼 " 和 " 脑 ",将机器人整体的智能水平提升到 L4 以上,这样的机器人才真正能体现其能力,具备我们所强调的移动、自主、高精度等特性,从而真正在提升生产力方面发挥作用。机器人将要从自动化的工具发展到 "AI+ 机器人 " 的阶段。

整个过程,是我们要用机器人的智能系统来升级其原有的操作系统,使机器人的控制从实时操作系统,转变为 " 脑、眼、行动 " 一体化的智能系统,从而让机器人能够看见世界、理解世界、行动于世界。这就是我们所说的 "AI+ 机器人 " 阶段。

第一,脑。机器人必须有自己的大脑,这个大脑是基于大模型的。当前,大模型正在引领科技和生产的变革,因此,机器人的操作系统也需要提升到智能系统的水平,实现架构性的变革。从视频中可以看到,一个机器人因为有了大脑和眼睛,再结合行动控制,就能在工作中发挥重大作用。它可以真正地按照语音指令接受任务、自主规划、进行操作,并适应各种场景的需求。

第二,眼。如前所述,视觉是智能的起点。从生物进化的历史来看,机器人的智能系统应该突出眼睛的作用。目前来看,采用 "AI+ 空间计算 " 的技术方案,即用普通的单目摄像头加上神经网络学习的方式,可以达到非常好的效果,能够以很高的性价比,使机器人拥有类似人眼的优良视觉,具备很好的适应性、易用性和实用性。

第三,行动。机器人需要与它的本体,如手、脚、轮子等进行交互。因此,我们需要一个操作系统。我们建议使用由中国科学院软件所支持的开源机器人操作系统 AgileROS 来支撑机器人的行动。这是一个标准的开源机器人操作系统,并拥有自己的 AgileROS 社区。它通过联合机器人产学研各方面的资源,全面推进智能机器人领域的发展;通过开源开放、协同创新,为智能机器人发展打下坚实的基础。目前,已有大批的单位和开发者加入了这个社区。

我们相信,借助开源的力量,AI 机器人的 " 脑、眼、行动 " 系统的竞争力将大大增加,在全球产业中占据应有的地位。

综合来看,未来机器人核心将不再仅仅是一个操作系统,而是一个包含 " 脑、眼、行动 " 的具身智能系统。在这样的系统支撑下,机器人将从过去自动化工艺的执行者,发展到人工智能时代的 "AI+ 机器人 ",获得更高的智能、更好的性价比,发挥更大的竞争力与作用。

最后,我们的目标是构建 "AI+ 机器人 " 的生态系统。历史上,重要的新兴领域都形成了强大的生态系统,例如 PC 时代的 Wintel(Windows+Intel)联盟,移动互联网时代的 ARM+Android 联盟。现在,在很多人正在推动的 RISC-V 芯片及其操作系统(如 OpenHarmony 等)的基础上,我们要走向 AI 机器人和人工智能体的新世界。

我们要注重生态的构建。未来,我们希望能够围绕 RISC-V 芯片以及 AgileROS 等系统,形成一个 " 脑、眼、行动 " 一体化的、完整的智能系统新生态,并以此引领人工智能机器的新潮流。

今天的分享可以归纳为两点。第一,在当前人工智能引领科技和产业变革的时代,在国家实施 " 人工智能 +" 行动的大背景下,我们要把自动化的机器人发展为 AI 机器人,让 "AI+ 机器人 " 更好地发挥其新质生产力的作用。第二,为了达到这个目标,关键在于提升机器人的智能水平。我们要用 " 脑、眼、行动 " 一体化的系统来提高机器人的智能水平,真正让机器人能够看见世界、理解世界、行动于世界。谢谢大家。

来源参考:元宇宙阅读实验室 /21 世纪经济报道

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 ai 工业化 中国工程院
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论