程里对话王亮：纯视觉方案是趋势，百度自动驾驶如何越跑越快？

作为纯视觉高阶智驾方案的头部玩家，百度智能驾驶始终坚持算法、算力的深耕和投入。在与车云的专访中，百度智能驾驶首席研发架构师、技术委员会主席王亮表示：" 由于标注采集的数据需要更强的算力去迭代，其算法也更具挑战，因此需要大量的人才储备，纯视觉并非所谓的低成本方案，但随着算力、数据以及模型的不断增强，纯视觉方案会越跑越快。"

程里：从 2016 年开始，你做无人驾驶到现在近九年时间，觉得有哪些变化？

王亮：最开始我们内部有两种意见，一边是以工程师背景出身的，他们就比较倾向学 Google 的激光雷达，我们要顶一个 64 线的 " 大花盆 "，就可以跑很好，Google 也是这么做的。然后另一边有科研学术背景的，就倾向于用视觉为主，当时跟以色列那家 Mobileye 公司的理念比较一致。

我当时还是个 " 小朋友 "，所以我在中间也参与一些讨论，其实从内心我是觉得应该选视觉，因为感觉这个东西它能走得更远，能让车开得更聪明，我在当时还做了一个 PPT，一页是一个小孩在奔跑，然后另一页是一个盲人拿着拐杖在地上走。当时马斯克还没有说这个拐杖的理论，我记得当时就有这个感觉吧。后来我们也算做了一个正确的决定，在那个时候先以激光雷达为主，跑起来。原因是视觉还是太难了，如果你那时候砸视觉的话，其它所有的模块都受你的影响，没有办法上路迭代，激光雷达很快我们就能上路跑闭环了，然后你的决策规划、其它的模块都可以跟着一起做，我觉得当时是一个正确的选择。

程里：纯视觉方案你觉得现在处在怎样一个阶段？

王亮：这点我还是挺有感触的，当时 2016 年在探讨技术路线的时候，最后我们选了激光雷达，然后一做就做了两三年，但是到后来，特别是 2017、2018 年开始，百度也要探索商业化，很多市场给我的声音就是只有视觉是有商业化前景的，因为当时的激光雷达确实还比较贵。2019 年的时候我们说干脆向 Mobileye 学习，我们把激光雷达去掉，纯用视觉跑，磕磕绊绊做了三年发现还不错，已经能在一些复杂场景做闭环了，接管率也不高。从 2020 到 2022 年我们发现这个技术有很大的变革，整个 Transformer BEV 这套架构就替换了我们之前基于单摄像头，用传统 Deep Learning 算法再做一个环式拼接的方式给颠覆掉了。所以当时我们内部也有讨论说，我们原来做得还不错，积累也是够的，是不是要切过去。切过去就意味着把之前的推倒再重新去做。后来大家技术 Leader 在一起判断觉得我们还是要推翻过去的，要去拥抱 Transformer BEV，所以我们开始得比较早。那到 2023 年 11 月份，我们客户的极越 01 量产，我们已经能做到应该是中国唯一、世界唯二在中国这么复杂的城市道路领航辅助驾驶是把激光雷达去掉的，这个我觉得个人的成就感和团队的成就感还是存在的。

现在我觉得我们已经进入了一个良性的轨道，后续的迭代像大模型时代我们的模型算力、我们的数据，加上我们整个模型的参数规模在不断地增强，我觉得视觉会越跑越快，还是一个非常正确的选择。

程里：似乎现在行业都在往纯视觉的方向走，包括小鹏、包括华为。

王亮：我觉得趋势会是这样，但是大家现在除了百度和极越之外的车型上，只要能支持城市 NOA 的至少搭载一颗激光雷达，而且大家可以看到这个市场上激光雷达的线数还在增加，我觉得大家会有这个意识，但是真正转纯视觉还要看决心，你敢不敢真的把它切掉、戒掉，然后经过长时间的深蹲再反弹这个过程。我觉得决心层面我还没有看到像百度这么坚决的企业来做这件事情。但是大家多少在讨论中，觉得方向没有错，意识到以后再降低成本的空间可以从激光雷达挤出来，而且视觉是足够的。

程里：那你感觉上如果我们现在完全把激光雷达拿掉，跟华为、小鹏相比，我们带给用户的体验有明显的优势吗？

王亮：我去不同地方体验过您刚才说到的这几家友商，我觉得在体验上是不输他们的，甚至比很多搭载激光雷达的友商体验还好，当然我们还有很多工作要做，不断地去精进技术，像一些极端光照我们目前的做法是先识别它，先退出，可能会对连续性有一点点影响，但能保障安全性。那后续我们通过对图像 ISP 的一些处理，包括数据的补充，我觉得也不是问题，也能越做越好，所以目前像我刚才讲的处在一个在加速进入轨道、加速迭代速度这么一个阶段。

程里：那相比激光雷达来讲我们应该有成本的优势？

王亮：很多人问纯视觉是不是一个低成本方案。我觉得首先在车端，消费者是受益的，因为他可以少花几千，甚至上万块钱去同样享受到体验一样好的高阶领航辅助驾驶功能，但是对供应商、对百度来说，其实背后投入是更大的，因为激光雷达不需要那么多的数据和那么大的模型，但图像不一样，我们需要标注采集大量的数据，背后需要大量的算力去迭代它，而且因为算法更难也需要更多的人才，所以百度为这件事情投入的成本其实是很高的。

程里：纯视觉方向继续往下走的话，你觉得我们什么时候能真正走到 L4？

王亮：如果是战略意图放在这，我们需要尽快地去实现这个技术，确实还需要一些时间去真正做到马斯克吹的那种全无人这个比较难，但我觉得加以一些辅助，比如激光雷达一点的辅助、远程云代驾的一些辅助，加上一些高精地图相对在限定区域里面，L4 目前基本已经能看到，我觉得实现的曙光已经到了。

昨天百度的 IDG 负责人王云鹏也讲了，我们在武汉已经覆盖了 770 多万人口，形成了当地出行的一个核心力量，大家出去打车选萝卜快跑是很正常的一个事情，我觉得已经到了，不需要为了一个技术方案跟它死磕，非要等纯视觉。

当然目前我觉得激光雷达作为冗余的补偿，加上很强的视觉能力和高精地图的补充，我觉得已经可以做到很多限定区域的 L4 级别应用。如果是一个对无人的要求非常高的情况下，有些冗余总比没有好那么一点，当然因为无人驾驶出租车的商业模式是这个车会为你带来收入，其实成本可以接受得稍微高一些，像我们的智驾产品把成本稍微降下来一点，保证日常通行人坐在座位上的辅助驾驶功能，视觉是一个非常好落地的场景和方案，对用户来说也是更经济的一个方案。

程里：所以完全的无图和无激光雷达达到 L2+ 是完全 OK 的？

王亮：大家说无图其实都有点不准确，或者说有歧义，因为至少你是需要一个导航地图的，导航地图里面还是有很多的道路信息，包括现在称作无图的一些友商方案，像在一些困难的路口等等，大家都有一些措施去弥补完全无图的缺失的，所以我觉得叫轻图比较准确一点。只要你不对图有过分的要求，成本可控，有图会让智驾更加安全。

程里：其实整个智能驾驶行业在这几年变化很快，发展速度也很快，你觉得接下来一两年还会有哪些进展？

王亮：大模型时代很多东西都被重构重写了，大家注意力还是应该放在用户体验、用户真实的获得感，现在这个阶段大家做得还不错，进展也很快，但是真正让用户把智驾变成你买车的头部考虑因素现在还做不到，我觉得应该聚焦把用户体验做好，把一些体验上的瑕疵，一些对安心感有影响的问题尽快的解决，至于怎么解决大家可能会有不一样的选择，但目的是一致的，让智驾尽早的做体验的跨沟，从创新者、小众进入到大众群体，趋势就会更快的起来。

程里：百度第一个合作伙伴是极越，跟极越已经上车了，那接下来还会有其它车型或者其它品牌吗？

王亮：我们确实是一个 Tier 1 的业务，早期我们的优先级是跟极越一起把体验真正的打磨好，利用百度 AI 方面的优势，做到用户从敢用到习惯用，最后会觉得离不开。我们的定位就是智能化的供应商，所以我们一定是打开门做生意的。

程里：这几年智驾行业的各个企业都在发展，那到目前为止百度还有哪些优势？

王亮：首先是积累的优势，百度的壁垒是将很多看似 ROI 不高的单个技术点、基础设施有机的组合起来，形成的一种壁垒和难以超越的优势。

程里：哪些基础设施？

王亮：比如数据、仿真，包括我们的高精地图、百度导航地图。为什么这么多人说无图，谁还愿意长时间的投入去做一份地图？这个成本是极其高的。包括我们从 2013 年开始做自动驾驶积累的测试步骤、工具链，包括我们整个复杂的系统，里面不只是一个 Transformer，还有很多的组件有机的组合起来，包括自动驾驶的人才积累，我觉得都是壁垒。

程里：您在百度 11 年，觉得这个公司在技术团队纬度上有怎样的特点？

王亮：首先从我们的 CEO Robin ( 李彦宏 ) 一路下来，大家真的有一些星辰大海的追求，知道什么是未来会发生的，技术应该怎么去做，比如我对比下来，百度不止是技术人员，包括管理者、产品人员，在整个氛围下对大模型技术的理解、认知，远远领先于其它公司。所以首先是有很强的技术视野，同时用技术去改变世界的愿景特别强烈，它确实能有很多的空间去发挥，然后自己的认同感也会比较强。

我就知道你 " 在看 "

宙世代

智慧云

相关标签