破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为

自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中 " 长尾分布 " 和 " 稀疏性 " 难题，对抗性场景生成成为了一种高效的仿真测试手段。

然而，现有的方法面临经典 " 跷跷板 " 难题：要么生成的场景极具攻击性但物理上不真实，要么过于保守而失去了测试价值，难以触及系统的长尾失效边界。

更关键的是，传统方法通常只能学习一个固定的权衡点，一旦训练完成其行为模式即被固化。若需调整测试的难度或者适配不同的被测算法，往往需要重新训练模型，限制了测试效率和灵活性。

针对这些问题，近日被ICLR 2026接收的工作SAGE（Steerable Adversarial scenario GEnerator）提出了一种全新的范式：将可控对抗生成重构为多目标偏好对齐问题。SAGE 借鉴了 LLM 中多目标偏好对齐的思想，通过测试时权重插值，实现了在无需重新训练的情况下，推理阶段对生成场景的 " 攻击性 " 和 " 真实性 " 进行连续、实时的操控。

为什么需要 " 可操控 " 的生成？

在自动驾驶对抗测试领域，研究团队通常希望生成的对抗轨迹既能诱发失效，又符合人类驾驶习惯和物理规律。然而现有的主流方法通常将多个目标线性加权优化，存在两点局限：

1. 目标冲突导致模式坍塌：攻击性与真实性目标本质上是梯度冲突的。传统的线性标量法往往导致模型坍塌到极端解，容易陷入为了攻击而无视物理规律的局部最优。

2. 缺乏推理时灵活性：在闭环训练中 Agent 的能力是动态进化的。初期需要简单的场景教学，后期需要极端的场景压力测试。固定模型无法满足动态课程学习的需求。

△ 图 1：现有对抗生成方法的局限性（左）与 SAGE 框架（右）。核心方法

SAGE 的核心思想是不再试图训练一个完美的单一模型，而是特征空间训练偏好流形，并通过权重插值查询中间状态。

阶段一：离线对齐——层次化分组偏好优化

为了让模型学会理解 " 什么是好的对抗场景 "，研究团队利用预训练的运动生成模型作为基座，进行偏好优化微调。

为了解决多目标冲突的问题，团队提出了一种离线对齐算法HGPO（Hierarchical Group-based Preference Optimization）。不同于传统的 DPO，HGPO 通过分层设计将硬约束与软约束解耦，并采用分组采样：

1. 分层设计：将地图合规性视为硬约束，攻击性和拟人化视为 " 软偏好 "。

2. 分组采样：

a. 可行性优先：任何符合地图约束的轨迹优于违规轨迹。

b. 可行域内择优：在符合约束的集合中，比较奖励得分高低。

分层设计避免了模型在优化过程中为追求高回报而破坏可行性，提高了样本效率。通过 HGPO，研究团队分别得到两个专家模型：一个最大化攻击性，一个最大化真实性和合规性。

阶段二：在线可控——测试时权重融合

在微调完成后，SAGE 不需要在推理时重新训练。相反，直接在权重空间连接这两个偏好 " 端点 " 的路径上进行线性插值：

用户只需要调整偏好系数就能获得一个新的混合模型，生成处于两者风格之间的场景。通过一次离线训练即可得到覆盖从 " 保守 " 到 " 激进 " 的连续生成谱系，近似完整的 Pareto 前沿。

为什么权重插值是有效的？

直觉上，对两个神经网络的参数直接求平均会破坏模型的非线性结构导致性能崩塌。为什么在 SAGE 中这种做法不仅有效，甚至比直接混合输出结果更好？

研究团队引入了线性模式连通性（Linear Mode Connectivity, LMC）理论来解释这一现象。

由于两个专家都是从同一个预训练模型微调而来的，它们位于参数空间中同一个 low-loss basin。LMC 理论指出，连接这两个专家的线性路径上，模型依然保持低 loss。研究团队进一步证明：当 reward landscape 在插值路径上呈现凹性，权重插值就优于输出混合。

△ 图 2：LMC 经验证据以及权重空间的偏好向量控制。实验验证

研究团队在 Waymo Open Motion Dataset （WOMD）上进行了大量的实验与讨论。

开环生成性能

在生成质量上 SAGE 展现出了显著的优势。SAGE 在保证高攻击成功率的同时，大幅降低了地图和物理违规率，并且生成的轨迹更加连贯、符合运动学约束。

△ 图 3：SAGE 控制的对抗车辆能够执行变道加塞等符合人类逻辑的高风险博弈行为。

△ 图 4：SAGE 生成多类对抗行为。

可控性上，在测试时仅调节偏好系数即可实现在 Pareto 前沿上连续控制生成的行为模式。

△ 图 5： ( a ) SAGE 生成的 Pareto 前沿显著优于其他方法。 ( b ) 碰撞率和真实性连续且单调可控。

△ 图 6：通过调节对抗性权重，SAGE 产生的轨迹从自然驾驶行为过渡到对抗行为。闭环训练效用：更鲁棒的自动驾驶策略

研究团队将 SAGE 集成到闭环强化学习训练中，利用其可操控性设计了双轴课程学习策略，同时控制对抗强度和频率。

△ 表 3：不同对抗训练方法得到的驾驶策略性能对比。

基于 SAGE 训练的 Agent 在安全性、任务完成度和舒适度上均取得了最佳平衡。这种 " 循序渐进 " 的对抗训练方式有效缓解了灾难性遗忘，让 Agent 既能处理极端 Corner Case，又不会在正常驾驶中变得过度保守。

总结

SAGE 将可控对抗场景生成视为测试时偏好对齐问题。通过引入偏好优化和权重空间插值，实现了零成本测试时操控，仅需一个标量即可遍历从 " 保守 " 到 " 激进 " 的行为谱系。

SAGE 不仅为自动驾驶的安全验证提供了可控测试工具，也为如何灵活控制生成模型的行为提供了一个通用的框架。未来研究团队将探索将这一范式扩展到更复杂的场景和更多样化的目标。

论文题目：

ICLR 2026 | SAGE：测试时偏好对齐实现自动驾驶 " 可操控 " 对抗场景生成

作者：

Tong Nie, Yuewen Mei, Yihong Tang, Junlin He, Jie Sun, Haotian Shi, Wei Ma, Jian Sun

单位：

香港理工大学，同济大学，麦吉尔大学

论文链接：

https://openreview.net/forum?id=lYNsZdKn5R

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签