钛媒体 18小时前
自动驾驶派系之争,四大技术路线的博弈与融合
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 极智 GeeTech

当 Waymo 的 2500 辆 Robotaxi 在旧金山湾区、洛杉矶、凤凰城、奥斯汀、亚特兰大五大城市的街头自如穿梭,自动驾驶行业俨然已叩响规模化商业化的大门。

然而,在车队扩张的热闹表象之下,自动驾驶领域的技术流派分歧仍未消弭。纯视觉与多传感器融合的感知路线该如何抉择?系统架构该坚守模块化还是拥抱端到端?在 AI 大模型赋能下,VLA 与世界模型又谁能定义自动驾驶的 " 灵魂 "?

这些悬而未决的争议,正悄然左右着自动驾驶的未来走向,也让这场技术路线之争充满了更多看点。

纯视觉与多传感器融合的路线之争

感知是自动驾驶的基石,而 " 如何让车辆看见世界 ",则是行业内对峙多年的核心议题,两大技术阵营的较量可追溯至 2004 年。

当年,美国国防高级研究计划局(DARPA)在莫哈韦沙漠发起挑战赛,以 200 万美元奖金吸引了数十支顶尖高校与科研机构团队,试图攻克车辆环境感知难题。

最终,卡内基梅隆大学、斯坦福大学等团队采用的激光雷达方案脱颖而出,其生成的高精度 3D 点云图,为早期自动驾驶技术发展奠定了核心路线,这一方案也被谷歌旗下的 Waymo 继承并持续深耕。

但激光雷达方案存在致命短板——高昂的成本。一套激光雷达系统在当时造价高达 7.5 万美元,这在当时注定其只能走小规模精英化路线,难以适配大规模商业化的需求。

十年后,特斯拉扛起了纯视觉路线的大旗,给出了截然不同的解题思路。其核心逻辑是 " 人类靠双眼和大脑就能开车,机器也应如此 "。

2014 年,特斯拉 Autopilot 系统问世,搭载 Mobileye 视觉方案,确立了以摄像头为核心的感知路径。2016 年,马斯克公开宣称 " 激光雷达是徒劳的 ",将纯视觉路线推向行业焦点。

特斯拉通过 8 个环绕式摄像头模拟人类视野,依托深度学习算法从二维图像中重建三维驾驶环境。这一方案的优势极为显著:成本极低,可支撑大规模量产;更关键的是,量产车辆能收集海量真实路况数据,形成 " 数据飞轮 ",反哺算法持续迭代,实现 " 越用越强 " 的闭环。

不过,纯视觉方案的局限性也十分突出。摄像头属于被动传感器,性能高度依赖环境光照,在逆光、眩光、黑夜、大雨、大雾等复杂场景下,感知能力会大幅衰减,远不及激光雷达的稳定性。

以激光雷达为核心的多传感器融合阵营则认为,在可见的未来,机器智能难以复刻人类基于经验的常识与直觉,恶劣环境下必须依靠激光雷达等硬件冗余,来弥补软件算法的不足。

简言之,纯视觉路线将技术压力全部集中于算法,赌的是 AI 智能化的突破。多传感器融合则更侧重工程落地的安全性,选择的是经过验证的稳妥方案。

目前,Waymo、小鹏、蔚来等主流车企与自动驾驶公司,均站在多传感器融合阵营,在他们看来,安全是自动驾驶不可逾越的红线,而硬件冗余是保障安全的核心途径。

值得一提的是,两条路线并非完全割裂,正呈现相互融合的趋势:纯视觉方案开始引入更多类型的传感器补充感知能力;多传感器融合方案中,视觉算法的地位也持续提升,成为理解场景语义的关键核心。

激光雷达与毫米波雷达的互补博弈

即便在多传感器融合阵营内部,也存在一场关于传感器选型的细分争议:毫米波雷达成本仅数百元,而早期激光雷达动辄数万美元,为何车企仍愿为激光雷达投入高额成本?

激光雷达(LiDAR)可通过发射激光束并测算返回时间,构建出超高精度的 3D 点云图像,能精准解决其他传感器难以应对的极端场景(Corner Case)。其角分辨率极高,可清晰识别行人姿态、车辆轮廓,甚至路面微小障碍物。

在 L4/L5 级商业自动驾驶领域,激光雷达是唯一能同时满足高精度感知与静态物体检测的传感器,为了实现基础自动驾驶功能与安全冗余,这笔成本堪称车企必须支付的 " 入场券 "。

但激光雷达并非完美无缺。激光本质是红外光,波长极短,当雨滴、雾滴、雪花、烟尘等颗粒的尺寸与激光波长接近时,会引发激光散射与吸收,产生大量 " 噪声 " 点云,严重影响感知精度。

4D 毫米波雷达则恰好能弥补这一短板,其具备全天候工作能力,在恶劣天气下可凭借强穿透性,率先探测前方障碍物并输出距离、速度数据。不过,毫米波雷达的回波点极为稀疏,仅能形成少量点云,无法像激光雷达那样勾勒物体轮廓与形状,还可能因电子干扰出现 " 幽灵识别 " 的误判。低分辨率的缺陷,决定了它只能作为辅助传感器上车,无法成为感知核心。

由此可见,激光雷达与 4D 毫米波雷达并非替代关系,而是形成了 " 常规场景靠毫米波雷达控成本,复杂场景靠激光雷达保安全 " 的互补逻辑,不同车型会根据定位采用差异化配置:L4 级 Robotaxi 与豪华车型,通常采用 " 激光雷达为主、毫米波雷达为辅 " 的策略,不计成本堆砌传感器以追求极致安全与性能上限;L2+、L3 级量产经济型车型,则以 " 摄像头 + 毫米波雷达 " 为基础,仅在车顶等关键位置配备 1-2 颗激光雷达,打造高性价比的感知方案。

车企围绕传感器的选型争议,本质是一场以最低成本实现最高安全的技术探索与商业博弈。未来,各类传感器的融合将进一步深化,催生出更多元化的感知搭配方案。

端到端与模块化的架构对决

如果说传感器是自动驾驶的 " 眼睛 ",那算法架构就是其 " 大脑 ",而 " 大脑 " 的构建模式,正经历模块化与端到端的激烈对决。

长期以来,自动驾驶系统普遍采用模块化设计,将完整驾驶任务拆解为感知、预测、规划、控制等独立子任务。每个模块各司其职,配备专属算法与优化目标,如同一条分工明确的流水线。

这种架构的优势十分明显:可解释性强、支持并行开发、便于调试维护。但它的缺陷也同样致命——局部最优不等于全局最优,各模块在信息传递过程中,会对原始数据进行简化与抽象,导致大量关键信息在层层流转中丢失,最终制约系统的整体性能上限。

2022-2023 年,以特斯拉 FSD V12 为代表的 " 端到端 " 模型横空出世,彻底颠覆了传统架构范式。这一方案的灵感源于人类驾驶学习逻辑:新手司机不会先钻研光学原理与交通规则,而是通过观察教练操作直接习得驾驶技能。

端到端模型摒弃了人为的模块划分,通过学习海量人类驾驶数据,构建起庞大的神经网络,可直接将传感器输入的原始数据,映射为方向盘转角、油门开度、刹车力度等终端驾驶控制指令。

与模块化架构相比,端到端模型全程无信息损耗,性能上限更高,还能大幅简化开发流程;但其 " 黑箱 " 特质也带来了严峻挑战,一旦发生事故,工程师难以追溯问题根源,无法判断是算法误判还是数据缺陷,后续优化更是无从下手。

端到端模型的出现,推动自动驾驶从 " 规则驱动 " 转向 " 数据驱动 ",但 " 黑箱 " 风险让众多重视安全的车企望而却步,且海量训练数据的需求,也只有具备大规模车队的企业才能满足。

为此,行业衍生出折中方案—— " 显式端到端 ",即在端到端模型中保留可行驶区域、目标轨迹等中间输出,力求在性能突破与可解释性之间找到平衡。

VLA 与世界模型的智能定义之争

随着 AI 发展,新的战场在大模型内部开辟。这关乎自动驾驶的灵魂,它应该是辅助驾驶的思考者,还是执行者?

世界模型信奉 " 先建模、再决策 " 的逻辑,更追求对驾驶场景的深度认知与过程可控,也被称为认知派。

该路线认为,自动驾驶系统要像人类驾驶员一样,先在 " 大脑 " 中构建出周围环境的数字化虚拟模型,再基于这个模型模拟不同驾驶策略的潜在结果,最终筛选出最优方案。它强调 AI 需先理解世界的运行规律,再结合传统自动驾驶模块完成决策,将大模型的认知能力与成熟的工程控制方案结合,规避纯算法决策的幻觉风险。

VLA(视觉 - 语言 - 动作模型)信奉能力 " 涌现 ",追求结果最优,被称为端到端的终极形态。该流派主张只要模型足够大、数据足够多,AI 就能自己从零开始学会驾驶的一切细节和规则,无需预先构建显性的环境模型,最终其驾驶能力会超越人类和基于规则的系统。它直接将传感器输入的视觉信息、环境语言描述与终端控制动作绑定,实现从感知到执行的一站式决策。

围绕 VLA 与世界模型的争议,本质是自动驾驶智能决策逻辑的路线分歧,也延续了模块化与端到端方案的核心辩论。

从可解释性来看,VLA 存在着难以溯源的黑箱困境。如果一辆搭载 VLA 功能的车辆发生了一次急刹车,工程师几乎无法追溯原因:是因为它把阴影误判为坑洞?还是它学到了某个人类司机的不良习惯?这种无法调试、无法验证的特性,与汽车行业严格的功能安全标准形成了根本性冲突。

世界模型的核心是 " 先构建环境认知模型,再分步推演决策 ",其决策链路本就分为 " 感知 - 建模 - 规划 - 控制 " 等明确模块,每个环节都有独立的输出和可监测的运行状态,因此具备全程可分解、可分析、可优化的特质。

世界模型与 VLA 的核心差异之一就是可溯源性,其模块化的决策链路能让工程师精准定位问题环节。如果遇到复杂路况,工程师可以清晰看到完整决策过程:传统感知模块识别到未知物体、世界模型将其建模为 " 被风吹动的塑料袋 ",并模拟其运动轨迹,规划模块据此决定 " 无需紧急刹车,仅轻微减速避让即可 "。即便发生事故,也能精准界定是建模环节的疏漏,还是规划模块的判断失误。

除了可解释性的两极分化,训练成本与数据需求也是车企犹疑不决的核心原因之一。

VLA 需要海量的 " 视频 - 控制信号 " 配对数据,即输入一段 8 摄像头同步视频,必须输出对应的方向盘转角、油门开合度、刹车力度等实时控制信号。这类数据不仅采集难度大,且标注制作成本极高,仅少数拥有大规模车队的企业能够支撑。

世界模型的优势则在于数据来源的广泛性,它可先利用互联网规模的 " 图像 - 文本 "" 环境 - 规则 " 等多模态数据完成预训练,构建起基础的世界认知框架,再通过真实驾驶数据和仿真场景数据进行微调,既能降低数据采集成本,也能通过仿真推演补足极端场景的数据缺口。

回顾自动驾驶的派系之争,不难发现,这些技术博弈从未以某一方的完全胜利告终,而是在碰撞中不断融合,走向更高层次的技术统一:激光雷达与视觉正整合为多模态感知系统,实现全场景精准感知;模块化架构开始吸纳端到端的优势,平衡性能与可解释性;AI 大模型则为所有系统注入认知智能,推动自动驾驶向更高阶进化。

那些曾困扰行业的技术谜题,或许没有绝对标准答案,但每一次争议与探索,都成为自动驾驶技术迭代的重要注脚,持续推动着这一赛道向前迈进。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 激光雷达 传感器 特斯拉 waymo
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论