经济观察报 05-08
中国的“马斯克” 李想分享VLA训练细节
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

经观汽车

2025 年 5 月 8 日,距离 "AI Talk" 第一季播出已有 130 天,面对镜头,理想汽车创始人李想坦言:" 人工智能发展得这么快,但我每天的工作时间并没有减少。" 这一句话,道出了他对 AI 技术落地路径的冷静思考,也预示着理想汽车在智能化道路上的阶段跃迁。

在这场持续数小时的访谈中,李想系统性地阐述了他对 AI 工具分级的理解——从信息工具、辅助工具,到生产工具。而在理想的语境中,生产工具意味着 AI 真正进入价值创造的核心。这场技术演化的关键,正在从模型的堆叠走向具象能力的整合与释放。

过去四个月,中国本土大模型迎来了突飞猛进的发展。李想在谈话中频频提及 DeepSeek ——这一国产大模型体系,在技术架构、推理能力和工程效率上的表现,让理想汽车决策层重新评估了其 VLA(视觉 - 语言 - 行动)战略的实施路径。

"DeepSeek 给了我们一个巨大的推动力。" 李想坦承,原本计划在年底完成的基座模型,因 DeepSeek 的开源提前了九个月完成基础设施建设。

也正是出于这种 " 被帮助之后的反馈机制 ",理想汽车选择开源自研四年的星环 OS 整车操作系统。" 我们受到了那么大的帮助,应该给社会做一些贡献。" 李想说。

他提到,在过去的春节期间,理想团队围绕 DeepSeek 展开了全面研究,从模型的 MoE(混合专家)结构、训练效率、到部署难度,进行了详尽评估。" 这不是简单的‘借用’,而是站在巨人的肩膀上再进一层。" 他说。

从规则到端到端,再到 VLA

李想认为,人工智能走向生产力的关键在于 Agent 能力的释放,即 AI 不再只是辅助人类思考和判断,而是能够独立完成专业工作,承担 " 替代性 " 的角色。理想汽车当前的 VLA 战略,正是对这一目标的路径设计。

VLA,即 " 视觉 - 语言 - 行动 " 模型,是理想汽车提出的辅助驾驶大模型方案。李想将 VLA 的发展划分为三个阶段:

第一阶段是以规则算法为主的 " 昆虫智能 ",高度依赖地图和预设规则,类似蚂蚁在路径上的机械执行。

第二阶段是当前正在推进的端到端模型,通过大数据学习形成对行为的模仿,类似 " 哺乳动物式 " 的感知和反应,虽不完全理解物理世界,但能完成一定泛化任务。

第三阶段,即 VLA 阶段,则是李想眼中 " 类人智能 " 的起点。它不仅能够看懂导航界面、识别 3D 场景,还能进行语义推理(Chain of Thought),具备主动判断和行动的能力。" 这是我们的‘司机大模型’。" 李想说。

为了达成这一目标,理想汽车正在训练一个 32B 规模(即 320 亿参数规模)的 VL(视觉 - 语言)基座模型。李想详细介绍了训练的三个关键部分:

首先,是视觉方面的 token 和语料。理想在模型中纳入了大量 3D 视觉数据,即来自物理世界的三维信息,同时还引入了高清 2D 图像数据,分辨率相比开源多模态模型提升了 10 倍,以解决当前 2D 视觉模态清晰度不足、识别距离有限的问题。

其次,是语言部分的输入。模型训练加入了大量与交通、驾驶行为相关的语言语料,以强化其在实际场景中的语义理解能力。

第三个关键点,是视觉与语言的联合语料(VL 语料)。李想强调,这一部分极易被忽视,但对 VLA 至关重要。联合语料指的是图像信息与语言语义同时存在于一个数据单元中,比如导航地图与车辆对其的语义理解共同输入模型,帮助模型建立起从视觉到语言再到行动之间的深度联结能力。

" 过去的 VLM(视觉 - 语言模型)大多只是能看图说话,但理解不了世界。我们要的是一个能看懂真实世界、理解物理规则、具备行动意图的大模型。" 李想指出。

在谈及基座模型的研发投入时,李想表示:" 我们今年的训练卡采购量,是原定计划的三倍。" 这一扩张级别,反映出理想汽车在自研基础模型上的战略押注。

尽管 DeepSeek 的开源带来了加速效应,李想并未对自研路径抱有任何侥幸心理。他反复强调:" 没有任何捷径。如果规则算法做不好,根本不知道怎么走端到端。端到端不做到极致,就没法训练好 VLA。"

这也解释了为什么理想汽车仍然坚持构建自己的基座模型,而不是完全依赖第三方平台。" 我们的任务不仅仅是对话生成。我们要的是对多模态世界的理解,是真正为汽车场景服务的智能体。" 李想说。

谈及行业格局,李想将 DeepSeek 比作 "Linux 时刻 ",而理想追逐的,则是 " 安卓时刻 "。

" 语言模型只是底座,真正的爆发在于将其部署于特定领域,释放出完整的应用能力。" 他表示,在交通领域,理想希望借由 VLA 构建出具备认知、推理和行动能力的类人驾驶模型。

这一愿景背后,是理想汽车从底层操作系统到多模态大模型全面自研的技术链闭环。而在产业层面,这也意味着一场从传统规则驱动到智能体驱动的范式跃迁正在发生。

李想认为,辅助驾驶行业当前正处于 " 黎明前的黑暗 "。争议与困境并存,但这正是新范式到来的前夜。" 我最愿意解决的就是别人解决不了的问题。" 他说。

在理想汽车的路径图中,AI 不再是一个效率工具,而是一个系统性、可扩展、可以承担主角的 " 生产工具 "。在这个定义之下,VLA 不仅是技术跃迁的起点,更是理想汽车试图重塑人车关系、重塑交通智能产业的路径尝试。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

李想 ai 人工智能 春节 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论