每日经济新闻 05-08
130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

"AI(人工智能)工具可划分为信息工具、辅助工具和生产工具三个层级。我觉得人工智能变成生产工具,才是真正人工智能爆发的时刻。" 理想汽车董事长、CEO 李想在 5 月 7 日晚的《理想 AI Talk 第二季》中,分享了他对于人工智能的最新思考,VLA 司机大模型的作用、训练方法和挑战,这距离他上一季谈及人工智能已经过去了 130 多天。

图片来源:企业供图

李想表示:" 判断 Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇用司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。"

就理想汽车而言,其研发的 VLA 司机大模型则是以 " 司机 Agent" 的产品形态呈现。" 用户可通过自然语言与司机 Agent 沟通,跟人类司机怎么说,就跟司机 Agent 怎么说。简单通用的短指令由端侧的 VLA 直接处理,复杂指令则先由云端的 VL 基座模型解析,再交由 VLA 处理。" 理想汽车方面表示。

此外,李想还回应了 " 有人觉得辅助驾驶应该被叫停 " 的问题。" 经过多年,从规则算法到端到端 +VLM(视觉语言),再到现在真正迈入 VLA 阶段,现在比较像‘黎明前的黑暗’。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。" 李想说。

VLA 是端到端 +VLM 的合体

所谓 "VLA",即视觉语言动作模型(Vision-Language-Action Model)。最早由 DeepMind 于 2023 年提出,应用在机器人领域,输入给定的文本和视觉数据,输出机器人可执行的动作,天然便带有 AI 与物理世界交互的基因。

与当前理想汽车使用的 " 着重于图像和场景的理解,作为智驾决策规划输入,让车辆行为更合理 " 的 VLM 模型不同,VLA 模型会将端到端与多模态大模型结合得更彻底,能够根据感知直接生成车辆的运动规划和决策,更加接近 " 图像输入、控制输出 " 的端到端智驾理想状态。

在业内看来,VLA 模型可看成是端到端 +VLM 的合体,其遇到一些复杂的交通规则、潮汐车道、长时序推理等特殊场景时,会比过往理解、应对得更好。" 对于理想汽车而言,VLA 是一个司机大模型,像人类的司机一样去工作的一个模型。" 李想说。

据悉,就推理时长而言,在传统 rule-based(基于规则)方案下,智能辅助驾驶只能推理 1 秒钟路况信息然后做出决策控制;端到端 1.0 阶段系统能够推理出未来 7 秒的路况,而 VLA 模型则能对几十秒路况进行推理。

李想透露,达到 VLA 模型阶段并非突变的过程,而是进化的过程,经历了三个阶段:第一阶段,理想汽车自 2021 年起自研依赖规则算法和高精地图的辅助驾驶,类似 " 昆虫动物智能 "。第二阶段,理想汽车自 2023 年起研究,并于 2024 年正式推送的端到端 +VLM 辅助驾驶,接近 " 哺乳动物智能 "。

" 在端到端的基础上,到第三阶段,VLA 将开启‘人类智能’阶段。它能通过 3D 和 2D 视觉的组合,完整地看到物理世界,而不像 VLM 仅能解析 2D 图像。同时,VLA 拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。" 李想说。

有观点认为,伴随着 VLA 模型的出现,理想汽车或放弃端到端技术。对此,李想表示:" 没有放弃,端到端是 VLA 的基础。如果你把端到端想象成一个个具身智能执行的环节,那它其实就是 VLA 的 A(action 行动)的部分。只是我要多语言的部分,还要更多更强的 3D vision 和高清 2D vision 的部分。"

" 现阶段 VLA 是能力最强的架构 "

值得注意的是,VLA 近来一直受到自动驾驶领域的热捧,除理想汽车外,元戎启行等企业也在该领域进行布局。有行业人士表示,VLA 模型对智能辅助驾驶的演进意义重大,在 L2 辅助驾驶到 L4 自动驾驶的飞跃中,VLA 可能会成为关键跳板;另一方面,VLA 模型也可能成为智能驾驶走向更广阔的具身智能行业的连接点。

" 目前的 L2、L2+ 组合驾驶辅助仍属于辅助工具阶段,而 VLA 能够让 AI 真正成为司机,成为交通领域的专业生产工具。对理想汽车而言,未来的 VLA 就是一个像人类司机一样工作的司机大模型。" 李想说," 我自己认为 VLA(司机大模型)能够解决全自动驾驶,至于 VLA 是否是效率最高的方式还要打个问号。但现阶段 VLA 是能力最强的架构。"

值得一提的是,行业也存有共识,VLA 模型的上车难度不小——将端到端与 VLM 模型二合一后,车端模型参数变得更大,既要有高效实时推理能力,同时还要有大模型认识复杂世界并给出建议的能力,对车端芯片硬件有相当高的要求。

" 理想汽车有编译团队,有芯片的能力,有板子设计能力,有操作系统能力。所以我们是能够把两个 Orin-X 带宽做到足够的大,它同样可以跑同等规模的 VLA 的模型。" 李想表示," 我自己还是认为,规模小的时候可能无所谓,规模大的时候基本功和能力永远是无法逾越的。"

值得注意的是,李想的这番言论也折射出当前智能辅助驾驶行业的一个现状——技术路径的快速迭代升级与竞争态势的加速转变,对那些尚未在端到端解决方案领域建立优势的企业而言,形成了更高的准入壁垒,使得后来者居上的可能性显著降低。

" 今天很多企业做端到端都很吃力,是因为在规则算法的时候都没做好。" 李想说," 如果你规则算法都做不好,你根本不知道怎么去做端到端;如果你端到端没有做到一个非常极致的水平,你连 VLA 怎么去训练都不知道。"

" 美国很多顶级的公司,像苹果、特斯拉,他们基本功特别扎实,这个是我们真正要去学的。尤其是在今天这种内卷环境下,包括外部不确定的环境下,这时候更是每个企业扎扎实实练基本功最好的时候。而且到了人工智能时代,基本功就更是不可跳跃的。" 李想补充道。 

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 人工智能 李想 机器人 黎明
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论