理想“对线”宇树，何小鹏不惜“裸跑”，始作俑者是谁？

12 月 10 日，理想汽车自动驾驶研发高级副总裁郎咸朋在微博发布长文，回应宇树科技创始人王兴兴此前对 VLA（视觉－语言－动作）模型的质疑："VLA 就是自动驾驶最好的模型方案 "" 空谈架构不如看疗效 "。

这场技术争议的源头要追溯到今年 8 月，王兴兴在世界机器人大会上表示："VLA 是一个相对傻瓜式的架构。" 王兴兴认为目前 VLA 模型对真实世界的交互，数据质量还不够。" 大家对于基础数据的关注度太高了 " 他强调，应该把焦点放在具身机器人的模型架构上，因为现在的模型 " 不够好，也不够统一 "。

对于为什么时隔四个月才为 VLA" 出头 "，郎咸朋在回应中解释：" 一是（当时）理想 VLA 司机大模型还没正式发布，空口无凭；二是我们对具身机器人行业，还处于密切关注阶段。" 今年 9 月，理想 VLA 正式发布，12 月 6 日 OTA 8.1 推送，两个月多的 " 实践 " 让郎咸朋更加坚定了自己的选择。

戏剧性的是，就在郎咸朋发声次日，12 月 11 日，小鹏汽车董事长、CEO 何小鹏也针对 VLA 发布了微博长文：如果在 2026 年 8 月 30 日，小鹏的 VLA 在国内达到特斯拉 FSDV 14.2 在硅谷的整体效果，他将在硅谷筹建一个中国风味食堂；反之，小鹏自动驾驶负责人刘先明将 " 在金门大桥裸跑 "。

短短两日之内，来自造车新势力头部阵营的两位高管先后强势发声，让 VLA 这一备受争议的技术路线被推上了风口浪尖。

在 VLA 的世界里，理想与小鹏 "HE" 了

理想与小鹏皆是 VLA 的坚定布局者：小鹏汽车在 12 月底将正式开启第二代 VLA 的先锋内测；而理想汽车 OTA 8.1 版本车机系统在 12 月 6 日已经开启推送，围绕辅助驾驶、智能座舱、智能电动三大核心技术进行升级。

理想对 VLA 的力挺，与其 " 汽车机器人 " 的长期战略深度绑定。理想汽车董事长兼 CEO 李想曾表示，未来五到十年，具身机器人核心将有两种形态：汽车类的具身机器人、人形类的具身机器人。在他看来，具备 L4 级自动驾驶能力的汽车，本质就是一台汽车机器人。

理想汽车给自己的定位是具身智能企业，VLA 模型在这一战略中扮演着关键角色。李想认为，实现汽车机器人必须增加对物理世界的感知和理解能力。而 VLA 模型恰好具备对物理世界极强的理解能力，这种能力是其他技术架构难以匹敌的。

坚实的数据基础为理想 VLA 模型的迭代提供了源源不断的动力。郎咸朋表示，理想不仅可以从过去几年积累的十几亿公里的存量数据里进行挖掘和筛选，更可以通过 150 万车主的日常使用源源不断地获取新的数据。数据不是静态的、有限地存在，而是动态的、持续增长的过程，构成了理想汽车自动驾驶能力的坚实数据基础。

除了数据优势，VLA 模型在系统适配性上也展现出独特价值。理想汽车不仅将 VLA 视为一个独立模型，更将其作为整个具身智能系统的有机组成部分。郎咸朋强调，要做好自动驾驶，必须先把自动驾驶当作完整的具身智能系统对待，包括感知（眼睛）、模型（大脑）、操作系统（神经）、芯片（心脏）和本体（身体）等部分的协同作用。

对于 VLA 模型的未来，郎咸朋给出了明确的技术路线图。根据他的预测，如果明年理想汽车能做到 1000 MPI（每 1000 公里接管一次），VLA 将迎来 Chat GPT 时刻。这意味着 VLA 模型将在实际道路上展现出接近人类水平的驾驶能力。郎咸朋还预测，随着 VLA 模型的不断进化，它甚至可能在某些场景下超越人类司机的表现。

小鹏汽车同样对第二代 VLA 投入了巨大的资源与决心。在前不久的小鹏科技日，小鹏汽车正式推出第二代 VLA，其核心突破在于取消了 " 语言转译 " 环节，实现从视觉信号到动作指令的端到端生成，重构了行业传统的 "V-L-A" 架构。

小鹏汽车依托 3 万卡云端算力集群（集群运行效率常年保持在 90% 以上）部署了 720 亿参数基座模型，实现每五天全链路迭代一次。在模型训练层面，第二代 VLA 无需人工标注，直接采用近 1 亿 clips 真实驾驶视频，覆盖相当于人类司机 65,000 年驾驶经验的极限场景，并可通过场景推演生成长尾场景进行对抗训练。

为了实现第二代 VLA 量产上车，小鹏汽车通过 " 芯片－算子－模型 " 全链路优化，在 2250 TOPS 算力的 Ultra 版车型上，实现了数十亿级参数模型的搭载，远超行业千万级参数量的普遍水平。

基于第二代 VLA，小鹏汽车小路 NGP 功能即将发布，复杂小路平均接管里程（MPI）提升 13 倍，且在测试中自主涌现出交警手势识别、红绿灯提前应对等未训练场景的适配能力；行业首发的 " 无导航自动辅助驾驶 "Super LCC+ 人机共驾模式，无需依赖导航即可全球开启，支持人机协同变道转向。

何小鹏在近期的采访中提出无人驾驶要能实现 " 大路、小路、高速、胡同、户外 " 全场景的安全通行，解决并要能提前预判解决各种长尾问题，才能指向真正的无人驾驶未来。

VLA 还是 WA？或许殊途同归

王兴兴之所以断言 "VLA 是一个相对傻瓜式的架构 "，原因在于其认为目前 VLA 模型对真实世界的交互，数据质量还不够。" 大家对于基础数据的关注度太高了 "，他强调应该把焦点放在具身机器人的模型架构上，因为现在的模型 " 不够好，也不够统一 "。

这场 " 对线 " 最核心的分歧在于：王兴兴认为模型架构更重要，而郎咸朋则认为 " 模型的关键是要与整个具身智能系统适配，在此基础上，数据是起决定意义的 "。双方观点也反映出了当前智能驾驶的两大技术路线—— VLA 路线与 WA（世界模型）路线之间的分歧。

VLA 路线的核心理念是 " 行动派 "：通过端到端模型，直接从海量驾驶数据中学习从视觉感知到车辆控制动作的映射关系。它追求高效、拟人化的驾驶行为，优势在于能利用大规模车队迅速收集数据，实现体验的快速迭代和优化。

WA 路线的目标并非直接模仿驾驶动作，而是为机器构建一个能够进行空间认知和时间推演的内部 " 虚拟世界模型 "。让汽车像人一样 " 理解 " 物体、速度、距离的相互关系及行为后果，从而做出符合物理规律和常识的决策。

坚持 VLA 技术路线的，除了小鹏、理想，还有奇瑞、吉利等企业；而坚持 WA 路线的典型代表，是华为与蔚来。华为智能汽车解决方案 BU CEO 靳玉志曾表示：" 华为不会走 VLA 路径，这样的路径看似取巧，其实并不是走向真正自动驾驶的路径。华为更看重 WA，这个路径目前看起来非常难，但能实现真正的自动驾驶。" 蔚来创始人李斌将其自研的 NWM（NIO World Model）视为技术架构的基石，他表示，蔚来的智能驾驶世界模型 NWM 在优先保障安全的前提下，一直在行业中都处于领先的位置。

当 VLA 与 WA 在架构与数据、感知与认知、模仿与理解之间展开深度博弈，我们看到的不仅是技术路线的分化，更是整个行业对 " 机器如何学会驾驶 " 这一根本命题的多维度探索。这场争论没有简单的对错，唯有真实世界的复杂性与安全性才是最终的裁判。

未来，或许不会有单一的 " 胜出 " 方案，而是在场景分化中走向融合—— WA 构建理解世界的 " 大脑 "，VLA 锤炼应对现实的 " 本能 "，两者协同构成智能驾驶完整的神经中枢。而无论选择哪条路径，海量高质量数据、强大算力与工程化落地能力，都将成为穿越技术深水区的共同基石。

当技术逐渐穿透噱头，回归驾驶的本质，谁能在安全、舒适与自由的尺度上，率先找到那把通往 " 汽车机器人 " 的钥匙，谁才能真正启动下一个移动时代。

宙世代

一起剪

相关标签