雷锋网新智驾 16小时前
地平线副总裁兼首席架构师苏箐:未来每代产品将十倍提升,统一范式贯通L2-L4
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

12 月 8 日,在智能驾驶从 " 能用 " 的商业化突破迈向 " 好用 " 的规模化普及这一关键阶段,以 " 向高同行 " 为主题的 2025 首届地平线技术生态大会(Horizon Together 2025)于深圳应势召开。会上,地平线副总裁兼首席架构师苏箐深入剖析了自动驾驶行业的现状与未来趋势。

他指出,尽管 HSD 系统已实现量产,但行业仍面临智力和体力的双重挑战,尤其是处理复杂路况和极端场景的能力。苏箐高度评价 FSD V12 版本的重要意义,认为其开创了自动驾驶的新范式,填平了技术方向与落地实现之间的鸿沟。

他预测,未来三年将是自动驾驶系统优化的关键期,而非理论内核的重构期,期间行业将聚焦于现有系统的极致优化。同时,他强调新方法论将推动 L2 级自动驾驶的普及,并有望以低成本实现 L4 级系统的广泛部署,开启自动驾驶的双模式时代。

以下为苏箐的演讲正文内容:   

苏箐:首先,谢谢大家来听我说这些不一定有用的话。

大家都知道上个月我们 HSD 才刚刚量产,包括我在内,基本上整个团队都还在工程模式,没有切换到所谓的思想模式,所以今天讲的很多东西可能比较零碎,但确实是这几年在过程中的一些实实在在的感悟,看看对大家有没有用。

我特意放了这个小图标,如果大家看过去年我们的产品活动,我当时讲了很多,但今年实实在在做的过程中,虽然整体路径清晰,但也能看到前方还有更难的问题 —— 你知道这些问题肯定能解决,但今天该怎么解,还没有答案。所以坦率地说,我其实有点无话可说,确实是在这样的状态里。

我算是刚从 SOP 的压力中抽身,所以在讲自己的东西之前,想先对行业里所有从事这项工作的同仁们致敬、感谢。为什么?从行业外看,自动驾驶好像很简单:任何人学一年驾驶就能开好车,但对计算机来说,情况几乎是反向的 —— 越是人类觉得难的事(比如高等数学、逻辑分析),计算机越容易;越是人类与生俱来的基本技能,计算机越难掌握。开车已经很接近这种基本技能了,再比如在家煎个荷包蛋,从某种角度说,对计算机而言难度极高。所以绝大多数行业外的人,很难理解自动驾驶团队面临的困难和压力。但我们干了这么多年,太清楚了:这是智力和体力的双重压榨,过程极度痛苦。SOP 的时间节点就在那里,方法论摆在前面,车辆在路上每天都会遇到各种 corner case、hard case,我们没有选择的余地,所有 case 都必须处理 —— 这是稠密的物理世界里连续发生的事,这就是这个行业最痛苦的地方。

我们回头看过去几年的变化,很有意思。讲个小插曲:我刚准备加入地平线时,跟余凯博士聊过几次,当时明确跟他说,我不想再做自动驾驶了 —— 一是太痛苦,二是看不到希望。那个时代的自动驾驶,车开起来看似不错,但以真正人类司机的标准衡量,差距极大:很多 case 处理不了,行为也完全不类人,只是一台靠应激反应工作的机器。两三年前是这样,甚至到 2023、2024 年,整个行业也普遍有这种认知:它能用,但能不能变得像人类一样聪明、完全类人,大家都不确定 —— 这就是我当时的心态。

2024 年发生了一个很大的分水岭事件,我们得提一下。就是 FSD 的 V12,它非常非常关键,我知道现在舆论吵得凶,争论 FSD 是不是最强的,但这个问题不重要。重要的是,FSD 开创了一个全新的内核范式 —— 知道方向不对、知道正确方向,与真正把正确方向落地实现,中间隔着巨大的鸿沟和不确定性,而 FSD V12 的意义,就是填平了这段鸿沟。

为什么说这是一个分水岭事件?举一个例子,在原子时代,第一个发现核裂变是可能的,而且是能释放能量的,是德国科学家,当时这个实验结果出来以后,全世界所有从事量子物理的科学家们都认为是不可能的,但是迅速的实验复现证明这个观点是对的,是有结果的,然后又花了 N 年的时间,造出了第一颗原子弹。什么意思呢?大家会发现深度学习和神经网络就像当初的核裂变实验一样,它告诉你这个范式是可能的,能干什么。但是这个范式什么时候、以什么形式能够在自动驾驶里面,能把自动驾驶做到多好,在第一人做到之前,没有人知道 yes or no,也不知道百分比,而 V12 让大家看到了这个希望。奥本海默最重要的是证明了原子弹是可以造出来的。

从 CMU 第一个车队,到斯坦福的车队,再到 Waymo 的车队,实现了技术的跨越。CMU 车队当时是强依赖非视觉传感器的,那个时代还没有所谓的机器学习技术,那时候还不是深度学习,大量都是靠人工写代码写出来的,所以这是第一代;斯坦福车队我记得在第二次比赛就实现了超越,这是因为斯坦福车队引入了机器学习的技术,到 Google 的时候,得到了进一步发扬光大。这些背后是什么呢?你会看到过去的自动驾驶,在 2023、2024 年之前有两个问题,第一个问题就是深度学习技术只重构了感知部分,而在感知之后的部分,几乎还是规则时代的,它是一个革命革到一半的东西,这是第一点。

第二点,它遗留下来两个问题,第一,无图和有图背后是什么?背后是这个技术范式只解决了动态问题,没有解决静态问题,所以需要用地图补一补;第二,它革命革了一半,整个系统里面只有前半截是数据驱动的,后半截是规则的。我们都知道一个方法论重构,重构到一半的时候,它的效果可不是一半,它的效果可能是 20%、30%,你需要把后面的那一半革命完成,才能迎来整个新的时代。这就是整个端到端的意义所在。

但这件事情非常难,为什么难?第一,感知技术发展了非常多年才完全搞定数据驱动,而规控这个东西的整个理论是不成熟的,我觉得我们自己开发下来,到今天也是不成熟的,导致很多团队都 try 过,一轮需要花十几亿、几十亿这么多资金,然后这时候要不要接着 try 呢?大多数团队因为精神和钱的问题可能没有再继续 try 了,你如果还可以的话就继续 try,但它是非常不收敛的,任何一个噪声就会导致整个系统废掉,所以非常困难。这就是整个范式改变的巨大意义所在。

我们可以看一下这种变化对未来意味着什么?这个很关键,因为过去的历史已经是事实。

第一个,大家最近都很嗨,一段式也搞定了,各种乱七八糟的概念都跑出来了,是不是以后会进入一个大发展时代?坦白说,我要浇点冷水,人类是很奇怪的一种动物,人类在事情未发生时,完全不相信它会发生;但当事情发生后,又会认为它会持续发生,其实这两种情况都不对。大多数时候你看到它第一次发生,它是一定会的,但是发生完了之后,它就是整个时代或者是这个 cycle 的高点,它很可能是最后一波。大家回去看一下原子时代,我记得当年这件事情搞定以后,大家很激动,全世界都很激动,觉得这个东西会改变一切,但说实话,也就那回事。

为什么我老是提原子时代这件事?我个人感觉,对整个物理世界或者对人类来说,只有两件事情是重要的,一个是能源,一个是信息的变化或者计算,因为只有这两个东西是改变世界和制造世界的本质,其他的事情都是在这两个东西上面递增出来的一些附属产物,所以我们刚才说的原子时代就是能源,而人工智能或者 AGI 是信息。

这种重构会不会是一种常态?我们认为大概率不会。为什么呢?我们可以看到 2023、2024 年发生的这次变革,有两个前提条件:

第一,人工智能大概每二三十年会有一个轮回,大家干了这么多年,发现它还是有天花板的,咱们再来过,二十年之后再见。我们目前隐隐约约会看到这一代的深度学习技术,有一点碰到这个天花板的可能性了,我不能说一定是,但是有这种可能性,因为从大语言模型和其他领域的进展来看有这种可能性。

第二,整个 AD 过去革命革了一半,但这次是真革完了,已经是一段式革完的。如果我们希望再有这种巨大的内核重构,那就不是把深度学习从系统的一半平推到 100%,而是要改变内核的理论。我们都知道整个物理世界的演进,都是先有理论突破,然后到应用突破,就这么不断循环。但我们现在其实很不幸的是,还没有看到下一个理论突破的前置信号出现,这个东西出现以后,可能还需要 5 年、10 年、20 年才能变成应用的突破,所以我个人判断,很大概率未来三年是在现有的系统上做极致的优化,而不是一种理论内核的重构,所以大家别太嗨,又进入苦日子的阶段了。

第二个问题是,FSD、HSD 这样的系统出现的时候,对整个产业的路线意味着什么?这是我个人的看法。

首先还是回到三年以前我跟余凯博士的聊天过程,我终于又看到希望了,我觉得我们好不容易能用新技术把城市的 L2 做到好用类人了。今天大家看到的 HSD,其实只是一个新范式的第一个版本,我可以负责任地说,在未来的一年会有巨大的提升,因为新范式提升以后会有一个红利期,有巨大提升,这个系统会非常非常类人。这样的话,我们终于有机会把吹了这么多年的牛 —— 城区的 L2 放到车上了,我觉得余凯博士昨天有一个比喻非常好,它是新时代的自动挡。特别对,它是一辆车应该有的基本的东西,不是一个情绪价值,车为什么需要人去开?不需要,它可以自己开,人去监管一下,帮它一下就可以了。

我们认为 Urban L2 会迎来一个巨大的发展红利期,红利期的意思就是从几十万的车,到 20 万的车,再到 10 万的车,都非常好用。就像大家不会碰到 10 万级车辆的自动挡不如 30 万、50 万的好用,不会这样的,这就是计算机工业的好处,它的突破成本极其高,但是复制成本极其低。你今天看到再复杂的计算机,只要给它几年的时间,它就会跟白菜一样,它会把 10 万的车甚至更低成本的车变得一样好用,这个时代一定会到来。

第二,L2 跟 L4 是完全不一样的世界,L4 就拿 Waymo 来做典型案例,它为了拿到很好的 MPI,需要做很多很多其他额外的工作,比如搭载超豪华的传感器,比如用非常好的 HD Map 去解决静态缺陷问题,需要把 ODD 画得比较小,让整个 hard case 可控等,要做很多很多这样的事情,还要做很多其他辛苦的工作,把系统部署上去。这种方法你要是放到整个平坦的世界,这么玩显然是不 work 的,所以大家都知道这件事情是有问题的。但是新的范式到来以后,我们能看到方法论终于统一了,我们能看到当前的方法再做最多两到三年的工作,就有极大的机会把 MPI 干到 5 万、10 万的水平,同时还能保持类人,而且还能保持在所有的区域里面是可以自动泛化的。

我们自己这次开发过程还是挺快的,有一个环节跟过去比省了很多时间,就是各个城市的泛化,我们很高兴地发现,新的方法论落地后,我们在绝大多数城市测试后天然没有问题,只有极少数非常非常奇怪的、在整个系统分布之外的很小场景需要处理,这让这个过程省了很多时间,这对 L4 是个极大的好消息,我再也不需要在每一个 ODD 里面反复打磨了。我在搞定一个复杂城市的时候,大概率就搞定了整个国家的复杂城市,效率一下就上去了。因为 robotaxi 讲得再好,L4 讲得再好,本质是需要跟人类司机去比成本的,这是一切商业本质的源头。所以你在上面做所有高成本复制的时候,不是数量级降低成本的,而是一种线性递推的方法,这在商业上都是不 work 的。我们看到新方法论改变了这一点,导致的结果就是在未来短短几年内,用同样的开发范式,不但在 L2 上面能极大带来新的体验,同时能以极低的部署成本和几乎无限制的部署区域扩张速度,落地一个 L4 系统。而且它会以乘用车和 robotaxi 的双模式去部署,我一直不同意为什么 robotaxi 就只能是 robotaxi 呢?我也想用 L4 驾驶一辆乘用车,为什么不能?我认为每个人都想用合理价钱买一辆这样的车。无论是大玩具也好,是第二空间也好,还是个人能拥有的一个最贵的机器也好,它有自己独特的价值所在。其实我自己是比较社恐的,我是不愿意坐出租车的,还要跟司机讲两句话,感觉好烦,所以 robotaxi 对我来说是最好了。

另一个附带性的变化是什么呢?我们看到在 2023、2024 年以前,大家都觉得天花板就在那了,上不去了,那么大家就开始干另外一件事情,因为饭还得吃、工资还得发、事情还得做,就开始在这个空间里面做各种碎片功能,往上拼。我们可以把它想象成在一个二维空间里面把这个空间填满,以什么方式把它填满?2024 年之前大家的想法是这棵树已经种下去了,长这么高了,我再种一棵树,再种一棵树,各种奇奇怪怪的做法。而 2024 年之后不这样了,我们就种一棵树,让这棵树越来越高、数据量越来越大,你会很欣喜地发现在你不知道的时候它长出了新的能力。我们自己的车在这之前还从来没有做过靠边停车的功能,但是我们测试团队有一天很有意思,在跑老一个车道的时候,想试一下再过一个边道会怎么样,发现这辆车自己变道变过去了。这就是新的方法论和数据驱动的魅力,因为它从人类的稠密数据里面会学到一切能力,无论是好的还是坏的,当然我们需要把坏的处理掉,这就是新的方法论跟过去不一样的地方,过去的方法论你可以认为是加法,是人一个一个稀疏的能力点往上加。而新的方法论是减法,你需要把人类全集的所有数据里面,把不需要的减掉,这就是两个方法论本质的不同。

这至少会导致我们从现在开始会有两种完全不同的产品思路,一种是过去那种继续拼各种平行功能,一种是像我们和 FSD 这样,去把这棵树种得越来越大,越来越深,我们绝不去做一些零碎的功能,我要让这些功能慢慢给它时间,在这棵树上自己长出来。如果今天还没有到那个时间,我就选择不做它。这是我们的态度。

下一步我们应该做什么呢?这个其实也是我们自己未来一两年要做的事情,还是回到刚才那个基本假设,就是我们认为 AI 和 AGI 的基础理论在未来三到五年可能不会有全新的突破,可能是进入一个演进和优化的阶段,这是一个大的前提。有几件事情还是可以做的。

第一个事情,在大模型领域,大家隐隐约约会碰到 Scaling Law 的天花板,但是今天还没有发生,应该说刚刚开始。我们后面每一代芯片和每一代产品会坚持十倍算力提升、十倍模型容量,在这个模型往上叠。大家一定要记住,计算机工业的本质就是玩命堆算力,千万不要问一个问题就是 " 它有没有用?你需不需要?",如果各位想问这个问题的时候,你就回家把你的手机、计算机拿出来看看,你需不需要那个处理器,一定是需要的,因为芯片工业本质上是印刷工业,是不要钱的,只要给它时间。那么玩命堆算力,就是计算机工业里面最重要的基因和逻辑,任何时候都不要违背这件事情,只要违背这件事情就被历史淘汰了,因为它不要钱。所以我们只要简单且持续的坚持十倍提升。

第二个事情,我们会重投入 L4 这个节点,但不是以割裂的形式做这件事,而是以统一的开发范式、统一的传感器配置、统一的 ODD 区域去打通 L2 到 L4,我想大家可能已经不会在意这个概念了,你现在开的是 L2 的车,三年后买到的车已经是准 L4 系统了,是高概率会发生的。

第三个我最想强调的一点是,无论这个技术和行业千变万化,这种事情永远会发生,其实你能应对这件事情的时候,第一步不要应激,每几个月我们就突然说以前都不对,我们全改,这是不对的。你需要做的事情是把你自己公司的工程能力和组织能力不断强化,强化再强化,只有一个稳定的能承载这个工程的公司组织,才能应对一切变化,有新技术的时候能快速导入它,新技术导入之后看到一堆爆发的问题,你能有集团军的作战能力把它消灭掉,而且持续地去打磨那些难的问题,所以一个好的工程能力和一个好的组织能力,是一个公司至关重要的发展基座,我称之为工业母机,在应对整个不确定的世界的时候,这是唯一能确定的,并且应该持续投入的事情。

有人问我现在还抑郁吗?坦白说,还挺抑郁的,为什么呢?前段时间确实被量产压得不行,时间很紧,而且新范式不像大家看得这么美好,新范式会有新范式的问题,这么短的时间要解决掉。我们的工程团队确实非常辛苦,也非常给力,这么短的时间内把这么多问题都解决掉了,我觉得虽然我骂了他们很多,平时给他们很大压力,但是还是很感谢他们,他们是业内很了不起的一帮人。

第二,我们能看到应对这么多变化的时候,还有很多事情需要做。今天大家可能试过 HSD 了,觉得还不错,但是它已经达到人类司机的水平了吗?我觉得显然没有。我们公司自己内部的论坛里面,大家已经不再讨论绕行、选路这件事情了,他们在讨论后面有一个水坑,你该怎么办?讨论一些很奇奇怪怪的 case,昨天还有人在论坛里发了一个消息说,前面一个卡车跟你错车的时候,你是应该鸣笛等它还是应该绕过去?在讨论这种问题。我刚开始看到这种问题是有点恼火的,饭还没吃饱就开始想别的了,但是想想看这是一个好事情,大家认为系统的能力已经过关了,开始以人类的想法重新看待这个系统了,这是我们未来两到三年应该聚焦的。但这些问题极其难,我们知道有希望看到它被解决,但怎么解决,我今天还没有非常清晰的答案,但这件事情是我应该去做的。

但为什么我还比较焦虑呢?坦白说因为做这件事情成本非常高,做一轮试验可能十个亿,还不一定成功,这种事情是很恐怖的,但是必须要做。

第二个问题,就是我对现状满意吗?接下来的计划是什么?

坦白说很难说满意还是不满意,你要说 SOP 的表现是不是达到我的基本预期,我觉得算是,但是我觉得我们自己做自动驾驶的这帮人本质的目的是做一个能替代人类司机的机器,这才是我们所有工作的意义,否则这件事情没有意义。从这个维度来讲,我觉得还有很多很多工作需要去做。

未来的计划,我们希望在未来两到三年,让大家看到 HSD 这套乘用车系统体验有一个巨大的进步,有一个质的飞跃,这是一定会发生的。第二,我希望在未来几年我们能把一个 L4 级别的车以同样的价格在用户无感的情况下送到你的手上,这是我们期望对行业能做到的,虽然很难,但是我觉得这是我们所有人辛苦了这 20 年做这一行的意义所在。

谢谢大家!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 苏箐 计算机 自动驾驶系统
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论