盖世大学堂舱驾、行泊一体系列知识讲解

自 2020 年开始，BEV 感知技术在自动驾驶领域崭露头角，其核心优势在于实现全方位环境感知，有效弥补了传统单目摄像头的局限，通过多传感器融合与高级算法，显著提升了车辆在复杂路况下的感知精度与安全性。

一、BEV 感知的业界现状（一）智驾方案的发展与 BEV 感知的兴起

自动驾驶技术不断发展，BEV 感知在其中扮演着愈发重要的角色。在 2020 年之前，L2 辅助驾驶系统主导着自动驾驶市场，其功能主要包括自适应巡航（ACC）、自动紧急刹车（AEB）和车道保持辅助（LKA）等。这些功能主要聚焦于车辆前方的感知，通过单颗前置摄像头即可满足需求，此时对车辆周身 360 度感知的需求并不强烈，BEV 感知的应用场景较少。

随着技术的进步，高速 NOA 和城区 NOA 等具备更高级功能的系统逐渐出现，这些系统增加了自主超车、无保护左转等功能，对车辆的纵向和横向控制提出了更高要求。为实现这些功能，传感器布局从单一的前视摄像头转变为 360 度环视布局，以获取车辆周身的动静态信息，满足复杂场景下的感知需求，这推动了 BEV 感知的发展。

（二）BEV 感知的技术演进

在 BEV 感知概念明确之前，从 2D 图像感知结果转换到 3D 空间的过程主要基于规则或半规则的方法。这些方法依赖平面假设、相机内外参以及相机之间的匹配关联关系，将车道线或动态物体转换到车辆坐标系（VCS）空间，但存在诸多问题。例如，平面假设在上下坡等场景中不成立，导致测距误差；相机抖动会影响转换的准确性；跨视角检测的一致性差，给下游应用带来困难。

在泊车场景中，早期采用 IPM（逆透视变换）全融合方案，基于平面假设将图像逆投影到地面并拼接成 2D 图进行感知，但该方案对车辆抖动敏感，依赖后处理。而 BEV 中融合方案则在特征层面进行融合，输出直接在 3D 空间，具有更好的一致性，但网络学习难度较大。

特斯拉是 BEV 感知的重要推动者，其坚持纯视觉路线，硬件配置多年未变，如 Hardware 3.0 升级到 4.0，摄像头配置基本稳定。特斯拉的 BEV 感知网络效果出色，关键在于其强大的数据闭环能力。其网络结构包含 backbone、空间融合模块、时序融合模块和任务 head，采用 transformer 结构进行空间融合，利用 Spatial RNN 进行时序融合，并通过 Rectify 层对相机外参归一化，提升感知性能。

（三）数据标注与行业差距

数据标注是 BEV 感知发展中的关键环节。在传统感知中，标注在图像空间进行，简单且成本低。但 BEV 感知的输出在 3D 空间，标注难度显著增加，尤其是动态重建，纯视觉方案下的难度更高。

特斯拉采用自动标注为主、数据仿真为辅的标注方式，利用庞大的车队构建影子模式，收集车辆与驾驶员操作的差异数据，实现高效的数据采集和闭环。相比之下，国内主机厂和软硬件供应商虽也在积极开展 BEV 感知模型和数据闭环系统的研发，但在基础设施等方面与特斯拉仍存在较大差距，整体处于追赶阶段。

二、关键的 BEV 感知任务（一）BEV 感知网络的基础模块

BEV 感知网络主要包含空间融合和时序融合两个关键模块。空间融合负责将 2D 图像像素空间的检测结果转换到 VCS 空间，保证测距精度；时序融合则融合前后的持续信息特征，对静态物体的重建进行增强，为动态物体的跟踪、预测等任务提供基础，还能利用历史信息进行补遮挡操作，实现类似基于 AI 的 slam 建图功能。

（二）BEV 空间融合的方法

1. IPM 方法：IPM（逆透视变换）方法假设地面是平面，基于底层几何的可逆性，将图像上的像素点对应到平面上，计算效率较高。然而，该方法存在明显局限性，它对地面平坦和目标接地有严格要求，一旦不满足，如遇到非平面地面或空中目标，畸变会很严重，远距离感知效果也较差，有效范围通常在三五十米左右，因此更适用于泊车等近距离场景。

2. Depth 方法：Depth 方案是一种自底向上的方法，通过预测每个像素的深度或深度分布，将图像特征反投到 3D 空间，从而获得 3D 特征和 BEV 空间的 feature。这种方法能得到稠密的 BEV 表达，但在 3D 检测时通常需要 NMS（非极大值抑制）后处理，存在超参数优化困难和无法端到端的问题。此外，其基于单目深度估计的泛化性和性能有限，有效距离也在 50 米左右，计算量较大，目前应用相对较少。

3. Transformer 方法：Transformer 方法是当前的主流方案，它是一种自顶向上的方案，通过 query 和 attention 机制直接从全局信息预测动态或静态结果。该方法具有诸多优势，如易于实现端到端、便于多传感器融合、可将地图信息融入网络以扩大感知范围和精度等。

Transformer 方法根据 query 的密集程度分为 sparse query 和 dense query 两种。sparse query 计算量较小、效率高，适合检测类的稀疏任务，如动态物体检测；dense query 有稠密的中间态表示，可进一步进行特征提取和数据增强，更适合语义分割等任务，但计算量较大，受感知范围限制。在实际应用中，dense query 方法更为通用，但在平衡感知距离和精度时面临挑战，需要谨慎选择 BEV 空间的分辨率。

（三）BEV 时序融合的方法与作用

BEV 时序融合最初用于解决遮挡问题，通过利用历史信息，使网络能够判断被遮挡物体的存在。在端到端的自动驾驶系统中，不同阶段（如 tracking、prediction 和 planning）都需要时序信息。例如，tracking 需要时序上的关联来跟踪目标物体，prediction 则依赖当前及历史信息预测未来物体的轨迹和状态。

实现 BEV 时序融合的主流方法主要有三类。Dense BEV 方法，如 BEVFormer 中的方案，根据车辆不同时刻的 pose，利用内外参直接将 feature 投影过去并累积；Perspective 方法会在每个 cell 中取点，将其投影到历史帧中，获取采样点的 feature 并拼接；Object-centric 方法以物体为中心，预测物体上的点，采用物体跟踪的方式融合 feature。从 Dense BEV 方法到 Perspective 方法再到 Object-centric 方法，处理的点逐渐减少，处理效率逐渐提高。

宙世代

一起剪

相关标签