水滴汽车 03-27
为了摆脱高精度地图,华为给车开了天眼
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文字数:1413 字

阅读时间:8分钟

"

上期我们聊到了,自动驾驶中 L2+CNN 的解决方案,整个解决方案的基础是感知白名单。在这个名单里的,车就能认出来,不在这个名单里的,车就不认识。因为这种特性,车可能会忽略掉侧翻的货车、躺地上的行人,引发交通事故。对于城市 NOA 所需要的识别、感知能力来说,这肯定是不够的。也正是因为如此,在领航辅助驾驶功能下,我们才需要高精度地图来补齐能力。

编辑|秦志聪

那有没有一种办法,让车即使不认识前方的障碍物是什么,也能知道它会不会影响行车安全,然后决定是碾过去还是绕开来呢。有,最终形态很多人可能也听过,叫 BEV+Transformer+ 占用网络。

我们来一个个说,首先是 BEV,所谓的 BEV,其实就是鸟瞰视角,有点类似于我们打游戏时候的那种 2.5D 的上帝视角。依靠车上的那几个不同角度的摄像头,拼凑或者说推测出的这么一个视角。怎么做的呢?我们就拿这个盆栽和水杯打个比方,这是一个摄像头看到的画面,这是另一个摄像头拍到的画面,在脑海里能不能想象有这两个东西位置关系的俯拍画面呢?相信对大家来说不难,这个想象中或者推测出的俯拍画面,就是 BEV,鸟瞰视角。

好,那难度增加一下,当有这么几个不同视角的道路画面时,我们能不能想象出这段道路的 BEV 呢?有点难了吧,为啥,因为画面里的东西太多,太复杂了,我们人类比较擅长于联想、思考,但是不擅长感知和记忆这么复杂的东西。车呢恰恰相反,在那么多传感器的帮助下,它很擅长感知和记忆,但是不那么擅长联想和思考。

要为车赋予这种能力,就需要给车像人一样的思考能力,一个神经网络架构 Transformer。具体这个神经网络架构怎么运作的我们以后单独开一个系列来讲。这里我们自己看结论,结论就是经过 Transformer 的处理后,可以很方便的将各个传感器感知到的外界特征,汇总到 3D 空间上,形成鸟瞰视角。更近一步的,还可以加上时间戳,预测物体下一步的行驶轨迹,变成 4D 的,动态的。

至于占用网络那就更好理解了。把一个复杂的图像用一个个二维空间的小方块来表示叫像素化,比较极端的例子是马赛克。同样的操作,我们放在三维世界里会怎么样呢?如果实在想象不出来,可以回想一下游戏 " 我的世界 "。这种操作叫体素化。把物体的几何外表转换成最接近那个物体的一个个小方块。从这就有俩分支出来了,倔强的特斯拉用的摄像头来形成占用网络,华为呢还加上了激光雷达的辅助。激光雷达我们知道,发射激光撞到物体后再反射回来,很直接的就能生成点云图,也就很方便形成一个直观的占用网络。

为什么我们需要一个上帝视角的占用网络呢?这是因为几何特征是所有物体的共有特性,换句话说,就算车不知道前头那是辆侧翻的货车,但是也知道这玩意它有体积它不动它挡路了它不能撞,它是个障碍物。从而做出决策,停车或者条件合适的情况下绕过去。这种不知道是啥也能检测它是障碍物的能力叫通用障碍物检测。

以华为为例,融合了 BEV,实现了通用障碍物检测之后,就算这个物体不在感知白名单里,也能达到 99.9% 的识别率,最小能识别 30 × 30 厘米大小的物体,摆脱了白名单的限制之后,识别的类型无上限。

目前实现了无图 NOA 功能的几家基本上都是这套思路,细微之处可能有些不一样。直到这个时候,我们才算一定程度上摆脱了高精度地图的依赖。它的落地产品大家也可以体验下,华为的 ADS2.0 就是,前段时间我们在北京晚高峰的时间段试了下,感兴趣的小伙伴们可以找来看看。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

华为 联想 激光雷达 神经网络 传感器
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论