2022 年从华为转投地平线的苏箐,这几年少有公开言论。12 月 8 日他作为首席架构师,在首届地平线技术生态大会上的讲演,相当罕见。与总是 " 赢赢赢 " 相比,讲出当前的技术困难,并从技术发展脉络的角度,对未来进行一番预测(对不对另说),还是很有含金量的。这场讲演里面,他的高管身份淡了,项目工程师的色彩更浓厚。大家可能都更想听点业内对于自动驾驶的真话,尽管这些话里 " 赢 " 的成分太少。

芯片公司开始做算法
事后有很多人认定苏箐的讲演底色是悲观的。更准确地说,他在技术必然性的乐观和 " 工程地狱 " 的悲观之间摇摆。其乐观在于,技术路径已经非常确定,暂时找不到比 Transformer 注意力机制更好的标准算子(因此他将特斯拉 FSD V12 称之为 " 奥本海默时刻 ");悲观性在于,还要做那么多苦工。发现 " 端到端 " 的喜悦,很可能是这几年工程创新的顶峰。接下来要不断收敛定义,做技巧性优化。
看上去 " 优化 " 似乎没什么技术含量。其实不然,如何设计高效的注意力机制,处理传感器(主要是摄像头)产生的海量 Token。这是各家公司第一个技术分野。考虑到处理 Token 的目标,都是捕获时空长距离依赖关系,在端到端的旗帜下,视频流转化为最适合 Transformer 理解的连续向量,技术挑战性一直被低估。
光学畸变、光线变化、阴影估算、多相机时空戳精确同步、将视频流编码为空间和语义的神经表达,都是非常考校技术实力的部分。苏箐所谓 " 做苦工 ",不仅是要处理这些技术问题,更主要是在 SOP 期限压力下,做出堪用的、可供商业化部署的一揽子解决方案。这些工作现在属于 Soc 公司的 " 菜 ",因为通过定制化计算单元(NPU、ISP),可能比纯软件方案更高效地解决以上难点。
这恰恰是以前属于华为、Momenta 这类供应商,以及蔚小理等新势力的技术护城河范围。但现在芯片公司开始做算法,业内的智驾供应链,又开始发生微妙且重要的变化。
地平线就做了 HSD(Horizon SuperDrive),对应特斯拉的 FSD。这意味着芯片公司从 Tier2,升级为 Tier1,与其他方案解决商(比如博世、大陆、电装等)结成生态伙伴,由他们基于芯片公司的芯片和感知算法开发标准软件,对车企交付。
可以预料,芯片公司成为完整的智驾方案 Tier1,只是时间问题。芯片公司自己就成为智驾生态的中坚。跨国 Tier1 高兴没多久,就将迎来更多的对手。
对于那些不愿意投入上千人做算法的中小车企、跨国车企,则是空前的利好。他们也有可能做出与巨无霸型智驾供应商掰手腕的产品了,如果后者不能再领先一步的话。
到头来,可能会导致所有的智驾供应商,都致力于垂直整合智驾供应链,从 Soc 到软件,从传感器到执行机构一把抓。那么,会不会出现智驾供应商与车企抢着当 " 链主 " 的局面?大概率不会,因为有能力自己垂直整合的车企,往往不会直接采购整体智驾方案。
这是苏箐在演讲中并未明言、但反复暗示的最大的观点。地平线在产业中的野心,绝不是解决好车载算力就完事的。

世界模型可能是 L4 的必要但不充分条件
一段式端到端的特点,就是从感知到输出控制信号之间是黑盒子,大家不放心。加交通规则约束兜底是普遍做法。但只要使用规则,就有写不完的规则。有人提议 " 软约束 ",即给推理出来的行车方案,在训练中引入评估模型(基于物理规则),这就更像人类的 " 因果关系 " 思考模式,比粗暴裁剪输出优雅多了。但这部分算法,大概尚未闭环。而且这样造成一些 VLA 方式的 " 慢思维链 " 变得更慢了。
世界模型被看成是与 VLA 对立的的方案。其实两者并不冲突。世界模型(WM)本质上是短时(大概 2、3 秒)预测模型。在 L2 向 L4 过渡阶段,WM 的作用是存疑的。
现在看,在 L2 阶段,WM 的核心价值在于减少误刹、提升舒适性。其关键在于,通过对物理世界的模拟,预测出多个交通参与者意图活动的可能结果。这就又回到因果预测,模型需要理解场景中的因果关系。有些是概率极高、甚至确定的(比如绿灯会催动车流、车辆行人看见红灯会停),但无法预测不理智的莽撞行为。后者才是发生事故的主要诱因。
在 L3/L4 中,WM 必须升级为可长时程推演和 " 反事实思考 " 的认知模型。苏箐的 " 自动泛化 " 梦想,大概依赖于此。真正的瓶颈在于,WM 与后续的决策规划模块仍是 " 两张皮 "。在很多架构中,WM 预测了结果,端到端再进行代价计算,这里面存在信息延误和误差积累。有人主张,让 WM 多干点活,不仅预测,还要评估各个行为分支的好与坏。这样做可能产生更多的代价。
苏箐与业内有些公司的看法一致,即没有 WM,L4 没有可能。但仅有 WM,仍然解决不了极端场景下的安全降级策略、实时性与稳定性的平衡。WM 看上去更适合当一个训练 " 引擎 ",安全驾驶不应该由其兜底。

L4 缺工具,L3 需要设定新规则
在中美科技与产业界,大家一股脑地都去投资大模型," 玩命堆算力,不要问有没有用 "。这种疯狂投入在商业上是否划算,取决于一个规律——算力成本增加,与性能提升,存在大致的线性比值。但大家到有点隐约觉得,快触碰到 " 天花板 " 了,即投资效能在下降。
这其实也正常,算力可以堆,但是高质量数据并非无限。获取极端场景数据越来越困难,意味着训练效果也下来了。虽然训练的 " 规模化 " 一直有效,但追求训练效率,就必须设计更好芯片与协同算法。这就又回到了芯片公司的强项。
现在监管批准了少数 L3 量产车型上路,但要在特定路线和特定工况下使用。L3 与 L2 最大的区别,是谁来兜底。而厂家兜底的前提,仍然是用户有效接管(依靠数据盒子判断)。但如果不清晰划定接管条件。L3 和 L2 又有什么区别。
目前,L2 强调的是统计意义上的安全(多少亿公里的事故率),L4 必须追求逻辑意义上的安全(证明通常意义上的场景都安全),后者必须要有新的验证、测试和仿真技术。而 L3 则需要智驾系统证明自己的安全边界。苏箐所谓 " 平滑过渡 ",大概率是从体验出发的,但在 L3 阶段,如果无法逾越责任归属问题,那么过渡到 L4,就成了空话。
当然,相比技术上责任归属,用户同样在意商业责任归属。保险公司推出 " 技术责任险 ",由主机厂埋单。而智驾方案供应商则将算法、芯片与安全里程承诺打包出售给主机厂,从而实现层层承诺,将用户从兜底责任中解脱出来。

这样做的结果,就是实力强且规模大的智驾供应商,迅速瓜分掉主机厂订单。即更具垂直整合能力、掌握大笔资源(投资云算力、组建超大算法研发团队和芯片硬件研发团队)的供应商,将毫无悬念地拿到少数几张幸存者资格证。
这样一来,自动驾驶商业模式收敛,经历的时间将很短,甚至远比 L2 到 L4 过渡时间要短得多。至于是否 " 平滑 ",只能由幸存者负责阐释。


登录后才可以发布评论哦
打开小程序可以发布评论哦