元戎启行CEO周光：幼年期的VLA智驾，强于巅峰期的端到端

8 月 26 日，元戎启行发布全新一代辅助驾驶平台—— DeepRoute IO 2.0，该平台搭载自研的 VLA（Vision-Language-Action）模型，融合视觉感知、语义理解与动作决策三大核心能力。

如今，从理想、小鹏等整车企业，到元戎启行等智驾供应商，越来越多企业开始布局 VLA 模型。VLA 与现有的端到端架构的区别在哪里？它能给企业和用户带来什么？

让 AI 学会 " 害怕 "

区别于端到端架构的模仿学习，VLA 大模型的优势是通过强化学习不断进化，让机器尝试理解 " 为什么这样做 "。

元戎启行对 VLA 模型的投入，源于元戎启行 CEO 周光对技术趋势的判断。

2023 年底，GPT-4 发布后展现出的多模态理解和逻辑推理能力，让周光看到了一条通往更高阶智能驾驶的路径，他认为 " 强 AI 时代 " 可能提前到来。

" 它打破了我们对 AI 发展进程的认知——原来从弱 AI 到强 AI 可能只需要几年，而非过去认为的 50 年……如果我们不转型为大模型驱动的公司，未来很可能面临降维打击。" 周光在接受经济观察报等媒体采访时说。

真正促使元戎启行坚定转向 VLA 的，是一个发生在 2024 年 6 月的具体场景。在深圳福田保税区入口，突然立起一块 " 车辆左转不受灯控 " 的指示牌。当时元戎启行的测试车在红灯前停下，却因无法理解牌面文字而被后车鸣笛催促。

" 这类场景无法通过传统端到端学习解决，必须依靠对文字的理解。即便通过地图打标签也需要至少一周，而大模型则可以实时处理。" 周光说。这件事让他意识到，基于 CNN 的端到端系统已经触及天花板，必须构建具备语义理解能力的新架构。

除了场景难题，量产规模也是促使端到端转型的一个重要的刺激因素。官方数据显示，元戎启行已获得超过 10 款车型的定点合作，并实现近 10 万辆具备城市领航辅助系统的量产车型交付，涵盖 SUV、MPV、越野车等多个车型。

规模扩大带来了新挑战。周光坦言，当交付量达到 10 万辆级别后，任何问题都会被放大。" 早期千台、万台的阶段发生问题的概率较低，但规模扩大后，我们面临更严格的市场监督。" 他说。

市场上出现了更多严苛的评测，消费者对辅助驾驶安全的要求越来越高。" 虽然目前我们的评测表现仍处于头部，但我认为辅助驾驶还可以做得更好，仍有优化空间。" 周光说。这种焦虑感刺激元戎启行加速技术迭代，第一代端到端系统正逐渐触及性能瓶颈，VLA 被视为打破瓶颈的关键。

此前，理想汽车自动驾驶研发高级副总裁郎咸朋预测，未来 VLA 能将事故里程（MPA）提升至人类驾驶的 10 倍，做到 600 万公里才出一次事故（当前理想辅助驾驶为 350 — 400 万公里 / 次事故，人类驾驶约 60 万公里 / 次事故）。

对于当前的主流技术路线，周光持批评态度。他以基于 BEV 架构的端到端系统为例，指出其存在先天局限。就像玩坦克大战，墙后的物体无法被看到，系统就会认为 " 不存在 "。

在周光看来，真正的智能驾驶必须突破视觉遮蔽的限制，实现对空间关系的理解和推理。" 这并不是说我们要‘穿墙透物’，而是必须提升对高级语义和空间关系的理解能力。" 他说。

基于这一判断，元戎启行将 " 防御性驾驶 " 作为 VLA 训练的核心目标。周光表示：" 在 DeepRoute IO 2.0 中，我们让 AI 学会了‘害怕’。害怕是生物进化出的保护机制，AI 也应当具备对风险的敬畏之心。" 基于这种判断，元戎启行的 VLA 系统在盲区等场景中会主动进行 " 预防性预判 "，像人类一样采取谨慎策略。

对于特斯拉 CEO 埃隆 · 马斯克提出的 " 激光雷达会让自动驾驶越来越不安全 " 的观点，周光回应称，激光雷达目前对通用障碍物识别仍有重要作用。

不过，周光强调，随着大模型技术的发展，视觉会在感知中扮演越来越重要的角色。元戎启行的策略是兼顾两条路线—— VLA 平台同时支持激光雷达与纯视觉版本，以适应不同客户和场景的需求。

不只用于汽车

周光对 VLA 的期待远不止于智能驾驶领域。在元戎启行的规划中，VLA 的能力可复用于机器人、无人驾驶等多种移动场景。

周光表示，VLA 模型本身是通用架构，不再为特定场景定制。这一理念与元戎启行 2025 年 3 月发布的道路通用人工智能平台 "AI Spark" 一脉相承，旨在让智能体在道路上自主行驶，并具备与物理世界深度交互的能力。

" 正如我们年初发布的 Road AGI 策略所说，未来这一技术可泛化至多种移动场景——包括小区、电梯、办公室等室内外环境。" 周光说。在他看来，现在的很多机器人还依赖遥控或巡线技术，而 VLA 架构将支撑它们实现真正自主、通用的移动能力，完成从单点功能到通用智能体的系统演进。

目前，行业内逐渐兴起 VLA 研发热潮，小鹏汽车、理想汽车都在进行相关布局。

周光表示，元戎启行在防御性驾驶等方面布局较早，半年前就已强调这一方向。小鹏基于千问模型确实做出了实打实的成果，而元戎启行的优势在于对技术路线的早期判断和快速工程化能力。

如何向用户推广 VLA 这样具有技术门槛的产品？周光表示，VLA 模型最直接的价值是让辅助驾驶更自然、更人性化，能应对更多复杂场景，而这需要通过与用户的持续互动来不断优化。元戎启行更倾向于通过实际体验让用户感受 VLA 的价值，而非进行技术概念的灌输。

在发布会尾声，周光为当前的技术阶段给出了评价——满分 10 分中仅打 "6 分 "，刚刚及格。他解释称，VLA 模型仍处于早期，相当于幼年期，目前的 VLA 仍无法实现全无人驾驶，缺乏完全的推理能力，仅靠高精地图无法根本解决泛化问题。

不过，" 幼年期 " 也意味着巨大的成长空间。周光认为，VLA 的上限远高于端到端方案，" 其下限已经超过端到端方案的上限 "。在他看来，新一代架构需要新一代芯片支持，这不是 CNN 时代可比的。随着下一代芯片达到更高算力，VLA 模型的潜力将得到进一步释放。

宙世代

一起剪

相关标签