AI Agent颠覆了端到端了吗？

今年智驾竞争年初还以 " 平权 " 的名义如火如荼，监管介入后迅速转入低调。技术层面貌似没有太大动静，实则不然。去年很多厂家还在费力地跟 " 端到端 " 的节奏，原因是前一步的规控没做好 / 压根没做。

这几个月，已经有些科技企业和主机厂试图用 AI Agent（智能体）做自动驾驶，声称能规避端到端的弊端。当然，这些做法也没大声嚷嚷。一个是监管因素，另一个可能是 AI Agent 才刚刚起步。

端到端的长尾能力，为什么不行

经过一年多的商业化落地，端到端 +VLM（视觉语言大模型）在长尾场景中表现不如期待，背后的原因是决策短视。在《消失的前车》中我们曾经讨论过，端到端往往以单帧画面、单步动向作为决策依据，缺乏对未来数秒内连贯的规划能力，没有形成 " 策略序列 "。这一点上不如人类。其实无须长尾，就一个简单的左转，端到端也是只考虑下一秒动作，没有完整的通过路口的规划。之所以实际动作看上去还算连贯，是由多个 " 下一秒动作 " 串起来。一旦中间出岔子，需要改变计划的时候，系统就缺乏应变能力。

背后还有一个原因，就是端到端的感知是被动的。模型训练阶段就固定接收低维度文本指令（如速度、导航信息）和完整视觉信息。对图像的关键细节缺乏关注，形成视觉忽视。到底什么才被认定为 " 关键细节 "，是人类驾驶的核心技能。

比如等待左转的经典场景：左转灯刚亮，右侧人行横道远端晃过一团影子。电光火石间，人马上就察觉到存在两个不合理之处：一个是人行横道方向正处于红灯，另一个即便在人行道上，这个速度也绝对不是行人。只有注意到 " 异常 "，才会及时刹车。多半是外卖电动车顺人行横道闯红灯抢行。

如果只注重信号灯、交通规则和前一秒的画面，就不会有制动决策。端到端的无依托左转向来有问题，就是因为处理不了这种复杂场景。

对于不确定又很关键的视觉信息，人类司机的处理方式，通常都是 " 再看一眼 " 或 " 凑近点看 "。如果情况紧急则采取保守策略。

显然，人类应对长尾的行为，包含了策略序列和主动感知两个重要能力。

世界模型的合成数据，两种大模型训练效果不同

有些企业就想用 AI Agent 的方式来解决解决长尾问题。在线互动上，智能体已经获得广泛应用。想想打银行客服电话，对面是谁接起电话。智能体不止能当客服和电子助手，在线教学、客户专业支持、数据库助手……看上去智能体似乎更胜任与人类互动。在车端，智能体也首先用于座舱互动。

将其作为聊天助手，其引擎通常就是 LLM（大语言模型）。如果搭建 VLA（语言 - 视觉 - 行为大模型），即从思考范式上成为一个驾驶智能体（模拟司机），是不是能够更好地解决长尾问题，让智驾具备 L3 能力呢。

两者都需要大模型训练、蒸馏和车端转移小模型。不过，两者区别几乎体现在所有环节。端到端为了应对长尾，需要大量实车数据。世界模型生成的合成数据，用于端到端训练效果不好。

简单说，合成数据可以扩充样本，但是没办法解决 " 零样本泛化 " 的问题。比如我们用各种 " 鬼探头 " 合成数据训练端到端大模型，感觉练得也挺好的，结果一上路，碰到一辆驴车，又懵了。长尾是无穷无尽的，非结构性场景最好由认知推动，由数据推动的端到端训练效果不理想。模拟考经常得高分，一上正式考场就考砸。

Agent 可以玩命用世界模型训练。合成环境对现实物理模拟很粗糙，但 Agent 可以通过视觉轨迹奖励，优化决策。与端到端的被动视觉不同，Agent 通过多次主动视觉 - 动作的反馈，探索合理策略。这和人思维模式很像了，面对陌生场景，用保守方法（低速跟前车，随时改变策略）试错。而不是像端到端那样的内部黑箱。

看和听的能力

主动视觉有两个特征，一个是 " 对齐 "，另一个是自动调整权重。调权重很容易理解，在雨雪雾天气里面，激光雷达和摄像头都会受到强干扰，而且这些干扰很难用滤波手段去除。这个时候，如果降低摄像头感知权重，提升毫米波雷达权重，将减少误判。人也是如此，黑暗的环境下，人虽然不能像蝙蝠那样发出超声波探路，但不由自主 " 竖起耳朵 " 专注于声音，同时降低视觉敏感度。

而 " 对齐 " 也是人类的核心技能。面对一幅画面或者动态图，如果有人说，找找画面里面的 " 半个苹果 "，你还会关注每个细节吗？显然不，你只会快速扫描整幅图，去找那个符合语言特征的玩意。顺便说一句，驾驶当中，交通标志标线、各种画面、人类口语，都是 " 大语言 "。

这就是语言和图像的 " 对齐 "。一句话一般只与画面中特定细节对应。如果提供一个长文本，任何受过基础教育的人，也是迅速找到与图画描述有关的词句。然后和画面特定位置建立映射。Agent 也具有这个能力，即建立了跨模态语义匹配与融合能力。

一辆车如果由 AI Agent 驾驶，人可以随时发号施令：" 跟住前面第二辆红车，别管眼前这辆白的 "。系统自己会选择 " 一组 " 合理策略执行这道模糊的命令。

想做到这一点，需要完成视觉语言的基座训练（主要练 " 对齐 "），思维 - 动作后训练（其中关键是扩散模型，持续预测轨迹和环境，以便调整），强化训练（包含刚才说的奖励模型）。这些训练完成之后，能在车端运行的 AI Agent 也就有了。

内化规则

和端到端需要另加规则兜底不同，AI Agent 可以内化规则，就通过奖励函数学习的方式。比如让行救护车、消防车等，Agent 计算 " 让行代价 = 延误时间✖️急迫系数 "、" 不让行风险 = 事故概率✖️伤亡可能性 " 等量化规则，而非依赖一堆条件语句。

AI Agent 的核心突破在于，分层推理将数据转化为可交互的知识，其训练过程更接近人类驾驶员的经验积累模式——在理解规则的基础上通过实践优化策略。也因为同样原因，人可以与 AI Agent 互动，参与驾驶。这是 " 人机共驾 " 的高级阶段，不是通过控制权交接，而是用语言就能互动和干预。

语言映射和决策 - 行为多次反馈机制，与人开车的方式也很类似。与端到端相比，强学习的 AI Agent 更像人，其推理结果和行为模式都可以验证和反推，与端到端不同。

两者暂时各擅胜场

说了这么多 AI Agent 的优点，是不是说它可以一脚将端到端踢开，成为智驾主流？AI Agent 有个很大的缺点——决策时间长，都是秒级的。对于一些紧急情况，显然不行。因此有些企业试图让端到端主导 99% 的 L2 场景，即轻量化思考；只有 1% 左右的长尾场景，由 AI Agent 来完成复杂博弈。后者的思维链也不能太长，最多三四层。再长的话人受不了，就像临门一脚思考人生一样诡异。

当然这是实验性质的。两种架构融合在一起，才有商业化部署的价值（比如云端协同）。如果能为世界模型开发出高保真物理引擎，强化学习可能训练出同时具备精准控制和复杂博弈能力的时敏型驾驶模型。

这需要解决三个问题：逻辑链的实时性瓶颈、神经符号系统保障决策的可解释性、跨场景认知迁移机制。

当前条件下，端到端方案仍是 L2 量产的最优解。虽然没摸到其能力边界，但有能力登上 L3 高台阶的，大概率是 AI Agent，只要解决其思考时长问题。而复杂泊车等非时敏型场景，现在 AI Agent 就已经解决得很好。

自动驾驶的核心矛盾，一直都是无限场景空间与有限训练资源的对抗。端到端方案更倾向于通过实车数据提升数据利用效率，AI Agent 则通过决策范式以降低数据依赖。两者关系如同内燃机与电动机——短期并存满足不同场景需求，长期催生融合新架构。或者还有一种可能，就是其中一种解决自身瓶颈，从而取代对方。看长期的话，AI Agent 更有希望做到这一点。

宙世代

一起剪

相关标签