" 端到端 " 尚未完全兑现,"VLA" 已悄然登场," 世界模型 " 正在成为新的技术图腾 …… 自动驾驶行业的 " 黑话 " 越来越多,也越来越难懂了。
理想与小鹏都将 VLA(Visual language Action,视觉语言动作模型)押注为下一代技术架构,宣称其能赋予车辆 " 思考 " 能力;华为却说 VLA 是 " 取巧 " 的技术,转而力推自研的 WA(World Behavior Architecture,世界行为模型),将 " 世界模型 " 技术直接部署于车端;蔚来副总裁任少卿在近期的一次采访中强调:蔚来才是 " 第一个在国内提出世界模型这个概念的 "。
层出不穷的 " 黑话 " 背后,是围绕着下一代自动驾驶技术的话语权争夺战。当硬件与配置趋于同质化,智驾能力成为新势力最关键的身份标签。抢先定义未来,就意味着抢占用户认知与技术品牌的高度。晦涩的 " 黑话 " 不仅是技术路线的宣言,更是对技术品牌的精心包装。
然而,喧嚣的概念背后,是落地体验的落差与研发团队的承压。正如两年前小鹏自动驾驶副总裁吴新宙所言," 自动驾驶不是广告学 "。但 " 期货式 " 的技术发布仍然屡见不鲜。有车企高管曾对 " 云见 Insight" 坦言他的苦恼:为抢在对手前发布,团队常在技术未成熟时便被推至台前。临近交付节点,团队人心惶惶。推迟或推送后出现任何失误都是不可接受的结果。
技术本应驱动进步,但当 " 造词 " 的速度比技术进步的更快,用户获得的可能不是 " 颠覆性体验 ",而是一个仍需不断优化的 Beta 版本。本文试图梳理术语背后自动驾驶技术的演进脉络,并为用户附上一份 " 黑话使用手册 "。
黑话的起源
在 2022 年之前,自动驾驶行业的技术演进路径相对清晰,主要由特斯拉和 Waymo 定义,技术术语也多为对特定功能的客观描述。
早期的辅助驾驶系统基于工程师编写的规则,分为感知、规划、控制三大模块。自 2016 年起,特斯拉通过自研软件算法和 FSD 芯片,引领行业从规则时代走向了 AI(Artificial Intelligence,人工智能)。
2021 年和 2022 年,特斯拉连续举办的两次 AI DAY 对行业影响深远。第一届 AI DAY 上,特斯拉公布了 BEV+Transformer 技术架构。该方案将多个摄像头捕捉的 2D 图像统一投射到俯视坐标系中,形成车辆周围 360° 的鸟瞰图(BEV,Bird ’ s-Eye-View),有效解决了遮挡与透视的问题。同时,特斯拉也提出了将 2D 图像直接转换为 3D 矢量空间的占用网络(Occupancy Network)的早期概念。
在这之前,传统的方法是用卷积神经网络(CNN)分别处理每个摄像头的二维图像,再将其融合到 3D 环境。而 BEV+Transformer 实现了跨摄像头的特征 " 前融合 ",大大提升了感知能力。
这也使得特斯拉摆脱了对高精地图的依赖,仅凭车上的传感器实现更广泛的场景泛化能力。其后,特斯拉在 FSD Beta V11 版本中把 NOA(导航辅助驾驶)功能从高速公路扩展到城市道路。
中国的造车新势力和辅助驾驶供应商们迅速跟进了这一技术。但由于在神经网络算法上与特斯拉存在差距,且对于纯视觉路线还存在怀疑,它们早期普遍融合了激光雷达或 4D 毫米波雷达提供的信息。
2022 年— 2023 年,小鹏的 XNGP、蔚来在 NOP+、理想在 AD Max 3.0、华为的 ADS2.0 相继实现了自研的 BEV+Transformer 方案量产,并以此为利器,展开无图 NOA 的 " 开城 " 竞速。
范式转移:端到端
如果说 2021 年的 AI DAY 引发了感知技术变革,那么 2022 年的 AI DAY 则彻底打破了感知与规划的界限,推动了以 " 端到端 "(End-to-End)为核心的范式转移。
特斯拉在发布会上披露了 FSD Beta V12 的架构预览:用一个庞大的神经网络同时处理感知、规划,取代了工程师编写的 30 万行代码。升级后的占用网络(Occupancy Network)通过将 3D 空间划分为微小体素(voxel)来识别未知障碍物,从而实现了感知能力的越级提升。
中国的新势力们再次 " 摸着特斯拉过河 ",集体转向端到端架构。其中,小鹏更是毅然放弃激光雷达,全面转向纯视觉路线。
然而,出于对系统安全与成熟度的考量,小鹏和华为早期都采用了相对保守的" 多段式 " 端到端,将感知和规划模块分别用模型取代,而非完全打通。小鹏发布的 XBrain 架构中,感知采用 Xnet 网络驱动 BEV+Transformer 架构,XPlanner 模型负责规划。直到 2024 年中,小鹏才宣布向所有扶摇架构的车型推送 " 一段式 " 的端到端系统。
华为的 ADS 2.0 同样采用了两段式端到端(BEV 感知 +PDP 预测规划),并于 2024 年宣布在 ADS 3.0 上升级为 " 端到端 " 的架构,去掉 BEV 网络,以 GOD 网络负责感知,PDP 网络负责预决策规划。不过,有业内智驾高管曾在今年年中对 " 云见 Insight" 指出,华为当时的技术方案实质上仍属多段式。
一位自动驾驶行业的技术人员道出其中的挑战:早期中国新势力对模型的认知有限,多段式设计更易于保障安全。传统系统出了问题,工程师可以通过修改代码解决。但端到端模型是一个黑盒,上限更高,下限也更低。" 如果出了问题,都不知道怎么改。"
蔚来向端到端技术的转变配合着组织架构调整。2024 年 6 月,蔚来宣布将感知和规划合并为大模型团队,全力推进端到端研发。半年后,任少卿接管该部门。 2025 年 1 月,基于端到端架构的智能系统 Banyan 榕 3.1.0 正式推送。
理想在 2024 年发布了 " 端到端 +VLM" 双系统方案。端到端模型负责 " 快思考 ",处理大多数常规场景;VLM 模型负责 " 深思考 ",应对少数复杂情况。
智能驾驶芯片和方案供应商地平线更早提出了类似架构,今年 4 月发布了基于征程 6P 的 HSD 方案,采用一段式端到端 +VLM 架构。该方案计划于今年 11 月在奇瑞星纪元 ET5 上量产上车。
在 9 月的一次媒体交流会上,地平线副总裁、战略部、智驾产品规划与市场部负责人吕鹏把端到端系统的演化分为三代:
第一代:两段式端到端,感知和规划模块分开处理车辆的横纵向的信息,然后把任务拼接起来,整个体验比较割裂。
第二代:一段式端到端 + 重后处理。端到端系统直接输出的轨迹存在很多缺陷,因此后期需要用规则去修正横纵向信息,再结合到一起。
第三代:更彻底的端到端。感知信息输入,输出行驶轨迹。与前两代相比,响应更快,信息损失更少,横纵向协调性更好,最终驾驶体验更拟人。
在 4 月的媒体交流会上,地平线 CEO 余凯坦言:虽然各家都在极力宣传自己的方案领先,但在当时,国内还没有真正的一段式端到端。
自动驾驶车是 " 轮式 " 机器人
在端到端之前,自动驾驶行业主要跟在特斯拉后面 " 抄作业 "。但随着特斯拉不再披露技术细节,中国新势力们只能边追赶、边摸索。爆火的生成式 AI 和人形机器人行业成为了它们的新老师。
2023 年,ChatGPT 的成功验证了单一大型神经网络处理复杂多模态任务的能力。从模仿学习到强化学习的训练方式转变也延续到自动驾驶行业。VLA(Visual-Language-Action,视觉语言动作模型)、世界模型等机器人领域的研究也被引入自动驾驶。
VLA 最初被用于让机器人理解人类的语言指令并执行动作。2023 年,谷歌 DeepMind 发布的 RT2(Robotic Transformer 2)模型将海量图像、文本与机器人动作数据协同训练,形成了 VLA 模型。随后,开源模型 OpenVLA 应运而生,大大降低了 VLA 的研究门槛。
自动驾驶汽车常常被看作一个执行固定任务的 " 轮式机器人 ",通过理解地图、导航、人类语音指令等,控制方向盘、油门和刹车。特斯拉的端到端系统架构被认为应用了 VLA 的理念。
中国智驾供应商元戎启行是首个公开宣称将 VLA 技术应用于自动驾驶的公司。早在 2023 年 9 月,元戎启行就提出研发 " 感知决策一步到位 " 的端到端模型,并在 2024 年 4 月正式将其命名为 VLA,计划今年内量产。
但市场迅速变化。今年 3 月,理想突然宣布将其双系统方案切换为 VLA 方案,并赶在对手前面,在今年 8 月率先在理想 i8 上实现了量产。
小鹏计划今年三季度推送其 VLA 方案,比对手晚几个月,但在车端(Ultra 版)堆了 2200 Tops 算力,其中约 1200 Tops 用于辅助驾驶。同期,理想的 AD Max 算力为 700 Tops,蔚来的神玑 NX9031 芯片算力 1000 Tops。小鹏汽车 CEO 何小鹏预测,特斯拉的下一代硬件平台 AI 5 的算力将会在 2000 Tops — 4000 Tops 之间。
这场算力竞赛也蔓延到云端。特斯拉 2019 年就宣布构建 Dojo 算力集群,2024 年转向外购芯片后大量储备英伟达和三星的芯片,2025 年预计储备累计 8.5 万颗英伟达 H100。小鹏和理想也在云端算力上增加投入。小鹏表示其云端算力规模为 10 EFlops,理想称其超过 13 EFlops。
两家公司都在用云端算力研发更大参数量的基座模型。DeepSeek 的成功让车企看到了以可控成本自研基座模型的可能性。理想的基座模型起初用于智能座舱和手机 APP,由理想汽车智能空间 AI 负责人陈伟牵头研发,后延用到自动驾驶。
小鹏负责基座模型研发的正是现在的自动驾驶中心 1 号位刘显明。在今年 5 月的沟通会上,刘显明表示小鹏基座模型的参数量为 720 亿,是主流 VLA 模型的 35 倍,后续会通过后训练、强化学习、模型蒸馏等技术生成一个较小的模型(XVLA)再部署到车端。基于同一个基座模型的 VLM 模型也将在今年内部署到 Ultra 版的智能座舱中。
世界模型:从仿真到控车
在 VLA 之外,理想和华为选择了另一条路径:直接把世界模型用于车端实时控制。此前,世界模型主要被用于数据生成和仿真测试。
AI 行业对于世界模型的研究始于 2018 年两个 DeepMind 研究员的论文《World Models》。该模型让 AI 智能体能够通过 " 想象 " 进行规划和学习,再迁移到真实环境。
机器人仿真平台最早用世界模型或类似框架让虚拟机器人学习操作物体、导航及简单的抓取任务。通过在模型内部进行大量 " 想象 " 训练,减少真实交互次数。
2022 年开始,特斯拉通过占用网络构建 3D 空间的做法应用了世界模型的思路。理想和小鹏也随之将世界模型用于仿真测试和云端训练。
理想汽车智能驾驶副总裁郎咸朋在去年接受 " 云见 Insight" 访谈时表示,理想当时用世界模型搭建 " 考试系统 ",在仿真环境中测试研发成果。小鹏则用世界模型训练其 720 亿参数的基座模型,模拟车辆在不同位置和视角下的环境变化。
蔚来和华为对世界模型的应用更加激进。蔚来直接将世界模型部署到车端,命名为 NWM。副总裁任少卿阐述,NWM 能在行驶中每 0.1 秒生成 216 种可能的轨迹,并评估选出最优解。
华为今年 4 月发布的 WEWA 架构同样将世界模型用于实时控车。华为智能汽车解决方案 BU CEO 靳玉志视其为 " 通向自动驾驶的终极方案 "。
然而,这些前沿技术仍有待检验。有业内从业者表示,理想内部也在讨论将世界模型用于车端,但因其技术并不成熟,仍在研究阶段。另一位接近蔚来的人士则表示,蔚来的 NWM 模型尚未完全达到其宣传的预测能力,研发上仍有很长的路要走。
结语
术语原本是对技术的精确定义。回顾自动驾驶技术的演进,每一个术语的兴起都是行业的一次探索。
特斯拉早期的 " 黑话 " 因其开创性实践而被行业接纳,且用户体验始终领先。而当下的术语爆炸,很多时候是对未来愿景的提前消费。
更有甚者,故意用模糊的黑话去混淆技术本质,弥合与对手的差距。
当术语从定义本身变成营销热词,用户需要分辨的不仅是各家的技术差异,更是话语包装与现实体验之间的落差。
在这场技术与话语的双重竞赛中,最终的胜利者也许并不是最早提出新概念的公司,而是能将技术承诺转化为用户体验的那一个。
自动驾驶 " 黑话 " 手册
1. 规则 / 模型
辅助驾驶系统早期依赖规则(Rules),即工程师编写的指令代码,分为感知(Perception)、规划(Planning)和控制(Control) 三个模块。感知模块通过摄像头、激光雷达等传感器采集车辆周围环境信息;规划模块基于感知数据制定行驶策略,躲避障碍并不断优化驾驶轨迹;控制模块执行规划指令,通过线控系统控制车辆的方向盘、油门和刹车。
模型(Transformer)是通过海量数据训练出来的神经网络。它通过分析驾驶场景数据,自行学习其中的复杂规律,理解并归纳出各种交通状况的应对策略。在处理未见过的场景时,模型能够进行泛化推理,做出拟人化的决策。从依靠规则到由模型驱动,是自动驾驶系统演进的重要里程碑。
2. BEV+Transformer
特斯拉提出的视觉感知技术。BEV(Bird's Eye VIew,鸟瞰图)将车辆多个摄像头的 2D 图像投射到统一的 3D 俯视坐标系中,形成 360° 的周围环境感知。Transformer(模型)被用来将 2D 图像关联到 3D 的 BEV 空间,并建模远距离物体之间的空间关系。
3. OCC
OCC(Occupancy Network,占用网络)是用于 3D 环境感知的 AI 模型。它将车辆周围空间划分为无数微小的立方体(体素),通过判断每个体素是否被占用识别物体的存在。这种方法能有效识别出传统障碍物清单之外的未知物体,提升了自动驾驶系统应对 " 长尾问题 " 的安全冗余和泛化能力。特斯拉在 AI DAY 上提出了 OCC 技术,此后国内车企跟进自研。理想沿用了 OCC 的名字,小鹏命名为 XNet,华为命名为 GOD。
4. 前融合 / 后融合
两种多传感器数据融合策略。后融合是早期方案,指激光雷达、摄像头等传感器先各自独立识别目标,再将结果汇总决策。前融合是将不同传感器的特征合并,再交由 AI 模型进行同意识别。前融合能减少信息损失,做出更准确的判断。
5. 激光雷达 / 纯视觉
自动驾驶的两大感知路线。纯视觉路线依赖于摄像头捕捉到的画面,像人眼一样,但对光照条件有一定要求。激光雷达路线是在摄像头之外增加激光雷达作为补充,激光雷达能够通过发射激光束来精确测量物体的距离,在黑暗中行驶也不受影响。早期激光雷达的成本高昂,现在已经下降到 200 美元。4D 毫米波雷达的价格更低,常被当做激光雷达的 " 平替 "。
特斯拉坚决用户纯视觉路线,认为激光雷达和摄像头的数据可能不一致,造成系统决策冲突。理想今年起标配激光雷达,认为激光雷达能实现更好的主动安全功能。小鹏取消了激光雷达,用摄像头 +4D 毫米波雷达代替。华为和蔚来都在其高阶方案中搭载激光雷达,低阶方案用纯视觉。
6. 有图 / 无图
早期自动驾驶车依赖高精地图知晓道路结构信息,但高精地图的采集成本高,且受到地域影响,更新速度慢。" 无图 " 方案即不依赖高精地图的方案,通过车载传感器的实时感知来理解道路场景,泛化能力更强,但对车辆的感知和决策能力提出了更高要求。
7. FSD
FSD(Full-Self Driving,完全自动驾驶)是特斯拉的高阶辅助驾驶系统。特斯拉标配的辅助驾驶系统名为 Autopilot(AP),仅具备自适应巡航、车道保持功能。FSD 在基础版 AP 之上,增加了包括 NOA、信号灯识别、城市道路自动转向等在内的更全面功能。特斯拉通过 FSD 验证其纯视觉技术路线,并采用 " 购买即买断 " 或 " 订阅制 " 的方式向用户提供。
8. NOA
NOA(Navigate on Autopilot,导航辅助驾驶系统)是融合了导航的高阶辅助驾驶功能。车辆可根据设定的导航路线行驶,实现自动变道、超车、进出匝道等功能。根据应用场景可分为高速 NOA 和城市 NOA,高速路况相对简单,城市道路的交通参与者众多、场景更为复杂,因此对算法的要求更高。
特斯拉率先推出该功能并应用于其量产车型。国内车企也推出了相应功能,理想延续了 NOA 的名称,华为命名为 NCA(Navigation Cruise Assist,智驾领航辅助);小鹏名为 NGP(Navigation Guided Pilot,智能导航辅助驾驶),蔚来名为 NOP(Navigate on Pilo,领航辅助功能)。
9. 开城
车企将其城市 NOA 功能在某个城市内向用户开放。早期由于技术限制,车企往往要派研发人员到目标城市进行大量测试和适配,开城数量被视作展示技术实力的象征。但随着系统泛化性不断增强,开城的概念已经逐渐淡化。今天头部车企的辅助驾驶系统已经可以覆盖全国。
10. OTA
空中升级技术(Over-the-Air Technology)通过网络对车辆软件进行远程升级。它彻底改变了汽车的功能迭代方式,使汽车能够像手机系统一样,远程修复软件漏洞、优化现有功能。
11. CNN
CNN(Convolutional Neural Network)是一种专为图像识别与目标检测设计的深度学习模型,是计算机视觉的基石。在自动驾驶系统中,CNN 负责处理单个摄像头的图像,通过分析来自摄像头的视频流,识别路障、行人、交通标志和车道线等重要信息。
12. 端到端
端到端(End to end)即系统接收传感器信号后,经过思考和决策,直接输出行驶轨迹,控制方向盘和油门、刹车。特斯拉的 FSD V12 版本首次将端到端技术应用于辅助驾驶系统。它用一个人工智能模型取代传统的感知、规划、控制三大模块,避免了信息传递损失和人为规则的限制。
13. 端到端 +VLM
理想提出的将端到端模型和 VLM(Vision – Language Model,视觉语言模型)结合的技术架构。让端到端模型作为系统 1,VLM 作为系统 2,分别应对 95% 的日常驾驶场景和 5% 的复杂且未知的驾驶场景。但理想已在 2025 年 3 月将这套双系统方案切换为 VLA;地平线的 HSD 仍然采用该技术架构。
14. VLA
VLA(Vision-Language-Action,视觉 - 语言 - 动作模型)是一种将视觉感知、语言理解与物理动作控制关联起来的多模态 AI 模型。它通过在海量 " 图像 - 文本 - 动作 " 数据上进行协同训练,使机器能够根据人类的语言指令或对视觉场景的深层理解,来执行具体的物理动作。在自动驾驶中,VLA 被寄望于让车辆不仅能 " 看到 " 环境,还能 " 理解 " 场景语义,并做出相应的驾驶动作。
15. OpenVLA
一个在 VLA 领域具有影响力的开源项目。由加州大学伯克利分校、卡内基梅隆大学和麻省理工学院研究人员共同发起。该项目提供一个预训练好的 VLA 模型给社区免费研究,降低了学术界和工业界研究 VLA 的门槛,加速了该技术在机器人、自动驾驶等领域的应用。
16. 模仿学习 / 强化学习
模仿学习(Imitation Learning)是让 AI 通过观察和模仿专家行为来进行学习的训练方法。比如通过分析大量人类驾驶员的实车数据,学习其驾驶策略和技巧。优势是能快速学习到平滑、安全的驾驶风格,局限在于其性能上限受制于示范数据的质量,难以超越学习数据的平均水平。
强化学习(Reinforcement Learning)是让 AI 通过与环境互动,通过获得 " 奖励 " 或 " 惩罚 " 来自主学习最优策略的训练方法。它能发现人类未曾想到的、超越模仿学习上限的解决方案。
2016 年,Deepmind 公司使用模仿学习和强化学习研发的 AlphaGo 击败围棋冠军李世石。此后,AlphaGo 的升级版本 AlphaGo Zero 完全摒弃人类棋谱,使用强化学习从零训练,最终战胜 AlphaGo。
17. 预训练、后训练、基座模型
预训练(Pre-training)和后训练(Fine-Tuning)是大模型训练中的两种核心手段。预训练是在模型的初始阶段使用大量通用数据进行训练,让模型学习到通用的、基础的知识和规律。经过预训练获得的大型通用模型被称作 " 基座模型 "。
后训练是在预训练得到基座模型之后,针对特定的任务或数据进行再训练。将模型的通用能力对应到具体的任务需求,同时减少幻觉的产生。后训练阶段,为了让模型的行为与人类价值观和偏好保持一致的 " 素质教育 " 阶段被称作对齐训练(Alignment Training)。
18. 知识蒸馏
知识蒸馏(Knowledge Distillation)是一种模型压缩和迁移技术,2014 年由 " 深度学习教父 "Geoffrey Hinton、DeepMind 研究和深度学习负责人副总裁 Oriol Vinyals 和 DeepMind 首席科学家 Jeff Dean 提出。其核心思想是将一个庞大、复杂但性能优异的 " 教师模型 " 中所蕴含的知识,转移到一个更小、更高效的 " 学生模型 " 中。
在自动驾驶行业,小鹏、理想的 VLA 模型都引入了这一技术,先在云端训练超大参数模型,然后蒸馏为一个较小的模型,在车端部署。其公布的云端模型参数量分别为 72B、32B。
19. 云端算力 / 车端算力
云端算力指企业在数据中心构建的计算集群的算力,主要用于 " 训练 "AI 大模型,处理海量数据,强调并行计算能力。小鹏宣布其云端算力规模为 10 EFlops,理想为 13 EFlops。
车端算力指车上搭载的计算芯片的算力,负责在车端即时处理传感器数据、运行算法模型,强调低延迟和高可靠性。
20. Dojo
特斯拉构建的专门用于 AI 训练的超级计算机。其核心是特斯拉自研的 D1 芯片,2023 年 7 月正式投产。但由于效率、稳定性、开发生态不及英伟达 Cuda 等原因,特斯拉 2024 年转向外购芯片为主。2025 年,特斯拉计划花费约 30 亿至 40 亿美元购买英伟达的 H100 等硬件。
21. LLM
LLM(Large Language Model,大语言模型)是一种基于 Transformer 架构、在海量文本数据上训练出来的 AI 模型,拥有强大的语言理解、生成和推理能力。小鹏和理想的基座模型均基于开源的 LLM 模型训练而成。
22. 世界模型
世界模型(World Model)是一种让智能体在其内部对真实世界的动态规律进行建模和模拟的模型。世界模型被认为可以学会理解环境的物理规则和因果关系,从而预测未来可能发生的状态序列。
在自动驾驶行业,特斯拉率先应用世界模型辅助系统训练,理想用世界模型进行仿真和测试,蔚来和华为将世界模型应用到车端,试图通过世界模型推演周围交通参与者未来的可能轨迹,实现更具前瞻性的拟人化驾驶。蔚来将其系统命名为 NWM(NIO World Model),华为的系统名为 WEWA(World Engine – World Action)。
登录后才可以发布评论哦
打开小程序可以发布评论哦