为了摆脱高精度地图，华为给车开了天眼

本文字数：1413 字

阅读时间：8分钟

上期我们聊到了，自动驾驶中 L2+CNN 的解决方案，整个解决方案的基础是感知白名单。在这个名单里的，车就能认出来，不在这个名单里的，车就不认识。因为这种特性，车可能会忽略掉侧翻的货车、躺地上的行人，引发交通事故。对于城市 NOA 所需要的识别、感知能力来说，这肯定是不够的。也正是因为如此，在领航辅助驾驶功能下，我们才需要高精度地图来补齐能力。

编辑｜秦志聪

那有没有一种办法，让车即使不认识前方的障碍物是什么，也能知道它会不会影响行车安全，然后决定是碾过去还是绕开来呢。有，最终形态很多人可能也听过，叫 BEV+Transformer+ 占用网络。

我们来一个个说，首先是 BEV，所谓的 BEV，其实就是鸟瞰视角，有点类似于我们打游戏时候的那种 2.5D 的上帝视角。依靠车上的那几个不同角度的摄像头，拼凑或者说推测出的这么一个视角。怎么做的呢？我们就拿这个盆栽和水杯打个比方，这是一个摄像头看到的画面，这是另一个摄像头拍到的画面，在脑海里能不能想象有这两个东西位置关系的俯拍画面呢？相信对大家来说不难，这个想象中或者推测出的俯拍画面，就是 BEV，鸟瞰视角。

好，那难度增加一下，当有这么几个不同视角的道路画面时，我们能不能想象出这段道路的 BEV 呢？有点难了吧，为啥，因为画面里的东西太多，太复杂了，我们人类比较擅长于联想、思考，但是不擅长感知和记忆这么复杂的东西。车呢恰恰相反，在那么多传感器的帮助下，它很擅长感知和记忆，但是不那么擅长联想和思考。

要为车赋予这种能力，就需要给车像人一样的思考能力，一个神经网络架构 Transformer。具体这个神经网络架构怎么运作的我们以后单独开一个系列来讲。这里我们自己看结论，结论就是经过 Transformer 的处理后，可以很方便的将各个传感器感知到的外界特征，汇总到 3D 空间上，形成鸟瞰视角。更近一步的，还可以加上时间戳，预测物体下一步的行驶轨迹，变成 4D 的，动态的。

至于占用网络那就更好理解了。把一个复杂的图像用一个个二维空间的小方块来表示叫像素化，比较极端的例子是马赛克。同样的操作，我们放在三维世界里会怎么样呢？如果实在想象不出来，可以回想一下游戏 " 我的世界 "。这种操作叫体素化。把物体的几何外表转换成最接近那个物体的一个个小方块。从这就有俩分支出来了，倔强的特斯拉用的摄像头来形成占用网络，华为呢还加上了激光雷达的辅助。激光雷达我们知道，发射激光撞到物体后再反射回来，很直接的就能生成点云图，也就很方便形成一个直观的占用网络。

为什么我们需要一个上帝视角的占用网络呢？这是因为几何特征是所有物体的共有特性，换句话说，就算车不知道前头那是辆侧翻的货车，但是也知道这玩意它有体积它不动它挡路了它不能撞，它是个障碍物。从而做出决策，停车或者条件合适的情况下绕过去。这种不知道是啥也能检测它是障碍物的能力叫通用障碍物检测。

以华为为例，融合了 BEV，实现了通用障碍物检测之后，就算这个物体不在感知白名单里，也能达到 99.9% 的识别率，最小能识别 30 × 30 厘米大小的物体，摆脱了白名单的限制之后，识别的类型无上限。

目前实现了无图 NOA 功能的几家基本上都是这套思路，细微之处可能有些不一样。直到这个时候，我们才算一定程度上摆脱了高精度地图的依赖。它的落地产品大家也可以体验下，华为的 ADS2.0 就是，前段时间我们在北京晚高峰的时间段试了下，感兴趣的小伙伴们可以找来看看。

宙世代

智慧云

相关标签