智驾端到端，不容有失的一战

文｜三少爷

2023 年 8 月，马斯克在约架扎克伯格的路上，顺道直播了特斯拉基于端到端方案的 FSD V12，虽然中间有一次略显尴尬的接管，但是端到端还是迅速出圈，吸引了几乎所有从业人员的目光。

毕竟，大家之前都是把端到端拿来水论文、发 Paper、做 Demo，这是第一次，有车企将始终局限于学术圈的技术方案，工程落地到可以大规模量产推广的地步。

有特斯拉打样在前，2024 年，端到端迅速取代 " 无图 "，成为自动驾驶领域最为火热的词汇，没有之一。尤其随着本土智驾巨头华为和小鹏躬身入局，唱衰和质疑已经没有任何意义，端到端毋庸置疑是下一代技术路线。

端到端可以创造什么价值？

这个问题等价于：相较于传统的感知 - 决策 - 执行分模块方案，端到端有哪些不一样的特点，这些特点引发了哪些车企喜闻乐见的改变？

第一，节省人员成本。

在开发范式上，端到端方案将感知、决策模块进行了全面的神经网络化，相较于既存在神经网络又存在大量手工编码的分模块方案，端到端方案不需要同时配备软件编码人员和 AI 算法开发者这两个不同的群体，简化了对开发者的能力要求。

在分模块方案的团队协作中，码农需要具备一定的 AI 算法能力，AI 算法开发者需要具备一定的软件编程经验，双方才能很好地对接和交流；到了端到端范式下，技术能力比较对齐的开发者之间的交流难度大幅度降低，相应地，模型和算法的迭代速度和效率还会进一步提升。

图片来源：江淮汽车

当然，端到端的前提是功能的全面神经网络化，意味着底层是大算力 + 大数据的暴力美学，车企面临收集并标注海量数据以及建设 / 租用大量算力的挑战，于是需要增加算力上的投入。

但是相比人力，可能是为友商培养的高流动性资产；算力，则是大模型时代的固定资产（想想英伟达的价格多么坚挺），把钱花在哪里，答案不言而喻。

端到端带来的成本优势是有前车之鉴的。

根据最新的《马斯克传》，特斯拉的自动驾驶算法团队规模在两三百人左右，只有国内友商的几分之一。除了马斯克本人对行业顶尖人才的吸引能力特别强，以及特斯拉自动驾驶算法团队足够能干之外，最核心的原因就是特斯拉早早开始了自动驾驶系统的神经网络化，将对人力的要求转化成对算力的要求。在 2022 年 AI DAY 上，特斯拉公布 FSD 神经网络的参数规模高达 10 亿左右，代码却只有 30 万行。

图片来源：特斯拉

第二，相较于没有进化到端到端的神经网络，实现端到端的方案统一了感知和决策模块内部的多个小模型，可以进行大网的联合优化，不再需要针对每个模型进行单独训练和局部优化。这样可以以终为始，实现全局最优，推高系统性能的天花板。

图片来源：小鹏汽车

每个模块都有自己的 " 小九九 "，有寻求局部最优的诉求，只有在一张统一的网络下，才能做到确保整体利益的最大化。

第三，在将多个小网络组合成一张大网络的过程中，一些模型可以共享，一些重复的单元会被消除，从而节省计算资源。计算资源也是成本，过去几年英伟达 Orin 的价格一直居高不下，也没有任何一家车企敢要求它降价。既然降不了价，要么量产自研芯片，要么节约计算资源，能少用一颗就少用一颗。

端到端的进展

在端到端这条技术路线上，车企们都走到了什么样的阶段呢？

目前市面方案大致分为两个版本：感知一张网 + 决策一张网的分模块端到端，和感知决策一张网的全链路端到端。

图片来源：轻舟智航

如图所示，分模块端到端方案只传递动态目标、静态目标、车道线等目标级信息；而全链路端到端可以实现从感知到决策的特征级信息传递，从目标级到特征级，全链路方案的信息传递更加全面。

此外，在模型训练时，分模块端到端方案的感知和决策只能单独优化；而全链路端到端网络的输出误差可以从决策层反向传播至感知层，实现感知和决策的联合优化。

所以，全链路是分模块的进阶版本。

作为端到端技术的引领者，算力最强、数据最多、起步最早的特斯拉，毫无疑问走在所有友商的前面，根据 FSD（监督版）的推送说明，特斯拉已经推进到了全链路端到端的阶段。

国内方面，由于算力相对不足、数据相对较少、起步相对较晚，还没有任何一家车企实现分模块端到端方案的量产。

蔚来自动驾驶负责人任少卿最近在接受《钛媒体》采访时表示，" 感知模型化大家都没问题了，实际上，规控层的模型化，头部都没怎么做全。" ——做一下阅读理解，意思是头部厂商都已经实现了感知层的端到端，但决策层还未完全实现端到端。

其实，即便没有端到端狂潮，随着感知层技术路线向 BEV 和占用网络切换，头部厂商智驾系统的感知层已经逐步神经网络化，距离感知层的端到端只有一步之遥，但编码形式、规则驱动的决策层距离神经网络形式、数据驱动的端到端，有点遥远。

华为和小鹏最近的两次发布会印证了这个观点。

4 月 24 日华为汽车智能解决方案发布会上，华为宣布乾崑 ADS 3.0 将采取端到端感知（一张 GOD 大网）+ 端到端决策（一张 PDP 大网）的分模块端到端架构，预计将首发搭载在 8 月上市的享界 S9 上。

图片来源：华为

而在 5 月 20 日举行的 AI DAY 上，小鹏汽车宣布今年三季度实现全面无图化和端到端大模型量产上车。

在本文这个节点，华为、小鹏两家的分模块端到端方案还没有做到量产。可以推测，和蔚来一样，华为和小鹏实现了感知层的端到端，但决策层的端到端还没有完全实现。

至于还在全力打磨 BEV 和占用网络的传统车企，目前还没有实现感知层的端到端。

怎么评价端到端的水平？

今年年初，特斯拉推送了 Beta 版的 FSD V12.1，当时的系统表现不算亮眼，在部分场景下甚至不如之前的分模块方案。但是随着特斯拉在训练算力上的疯狂投入，模型按照每天迭代一次的速度飞速发展，到现在 FSD 从 Beta 版变身 Supervised，版本号进化到 V12.4，批评的声音越来越少。

前些天黄仁勋还公开盛赞了特斯拉在自动驾驶领域的遥遥领先。能让黄教主竖起大拇哥，主要是因为决策层转向端到端之后，实现了更加拟人的驾驶体验，这是端到端方案相较于传统分模块方案能做出最大差异化的地方。

编码形式、规则驱动的决策层泛化能力差，无法应对未曾编码过的长尾场景，很难实现顺畅丝滑的驾驶能力和主动自信的驾驶风格，神经网络形式、数据驱动的端到端决策泛化能力强，可以通过学习优秀人类司机的驾驶经验，自主应对之前未曾遇到过的长尾场景，无论是在复杂场景的应对上、通行效率上还是在拟人化体验上，（理论上）都具备更高的性能天花板。

所以，评判某家车企端到端方案，我们可以看，在人类可以轻松应对而之前的分模块方案无法应对的场景上，它是不是会有更好的表现；以及在之前就能覆盖的场景，它能不能更加拟人化。

至于能力差异到底是由什么决定的，数据量、算法框架、还是算力？最终其实还是要看体验。

鉴于只有特斯拉实现了端到端方案的量产，加上 FSD 尚未入华，所以具体实际表现到底如何，目前还无法判断。

写在最后

着眼现在，转向端到端可以帮助企业端降本增效，助力产品端提升系统性能的天花板；面向未来，端到端是将大模型引入自动驾驶系统中的先决条件，所以，为了实现最终无人驾驶的目标，转向端到端是必然的选择。

但是，值得注意的是，在端到端 FSD 性能大幅提升的背后，是特斯拉训练算力从去年 10 月的 10E 提高到今年一季度末的 35E（等效 35,000 张英伟达 H100），而且在从分模块端到端向全链路端到端进化的过程中，由于所有的功能需要同时训练，每条训练数据的子任务标签都需要重新标注，这又给数据的管理和自动标注带来了极高的要求。

正是基于如此巨大的困难，毫末智行总裁顾维灏在 2024 年的电动汽车百人会上曾表示，国内车企和智驾供应商需要几年时间才能完成向全链路端到端技术路线的切换。且早着呢！

宙世代

逗玩.AI

相关标签