10 月 29 日,小米在发布会上表示 10 月 30 日在全国范围内部署城区 NOA。而 " 端到端 " 将在 11 月底内测,12 月底推送先锋版。其实,今年夏天开始," 端到端 " 智驾就成了业内最火的概念。就在小米发声前一周,理想汽车也刚刚宣布了自己的端到端进程。
小米还在疯狂赶工中的 " 端到端 ",是 " 一段式 "(感知和规控合为一体),还是 " 两段式 "(感知和规控模块分开,中间嵌入人工接口),目前没有公开信息。不过,9 月份小米将原来 " 感知 " 和 " 规控 " 两个二级部门合并为 " 端到端算法与功能部 "。组织架构的变化,暗示小米至少将 " 一段式 " 作为目标。
截至目前,已经有十几家主机厂和供应商,声称上马或者即将上马 " 端到端 ",以至于这个概念,从新鲜到滥俗,只花了不到 1 年时间。不管有没有,都得说有。看如今的流量打法,嘴上输了就等于 " 输阵 "。闽南人说 " 输人不输阵,输阵歹看面 "。对潜在受众和自家团队构成士气打击,不是小事。
一段式端到端示意图
" 一段式 " 和 " 两段式 ",双方旗鼓相当
目前,声称已部署 " 一段式 " 端到端的供应商,只有 Momenta。智己、广丰、埃安,作为 Momenta 的客户,宣布同期部署。就在 10 月 28 日举办的品牌智能驾驶技术日上,智己汽车宣布 IM AD 3.0 完成从 " 最像人 " 到 " 有直觉 " 的进化,迈入 " 直觉 " 智驾新时代。
而表示 " 即将 " 部署 " 一段式 " 的品牌,则包括理想、小米、商汤科技、元戎启行等。" 两段式 " 主机厂和供应商似乎数量更多,目前有小鹏、极氪、极越、魏牌蓝山、鸿蒙智行等。
而宝骏作为大疆的用户,不但部署了卓驭 + 宝骏云海,还特意标明为 " 中算力两段式端到端 "。
至于华为的鸿蒙系,客户包括问界、享界、智界、岚图、阿维塔、方程豹、广汽传祺。东风猛士、尊界也宣布了与华为合作的信息,但迄今尚无 " 端到端 " 部署规划。华为的态度,暂时未将 " 一段式 " 作为目标。而且,华为也不认为 " 两段式 " 是通往 " 一段式 " 的过渡形式。
除此之外,奇瑞、长安启源、地平线、轻舟智航等,虽然规划了端到端,但未说明形式。
到现在为止,端到端领域,看似支持 " 两段式 " 品牌略多于 " 一段式 "。如果将同一供应商技术来源的,都视为一个品牌,两者几乎旗鼓相当。
在实现高等级自动驾驶诸多技术路径当中,端到端值得尝试,很可能不是唯一路径,甚至不是最优路径。
我们曾提到过,时髦的 " 端到端 " 智驾,走到哪一步了" 两段式 " 的优势在于,人工接口信息可观测,但感知输出的白盒状态,就意味着信息过滤后存在损失。
而 " 一段式 " 和 " 两段式 " 相比,理论上前者信息丢失少,上限应该比较高。但鉴于 " 一段式 " 可解释性更差,到底突破什么下限,大家都没底。因此所有厂商,不管做的是 " 一段式 " 还是 " 两段式 ",无一例外都设置了兜底规则(rule-based)。这也意味着 " 两段式 " 同样存在不可解释的部分。
数据需求决定部署规模
虽然 " 端到端 " 的参数量只相当于中模型,在一枚英伟达 Orin-X 上就能跑起来,貌似消耗算力不多。但背后必须有大数据和大模型支持。数据的门槛不仅是对绝对数量的要求,对于数据的分布和多样性要求也极高,而且还要求是 100% 的好数据(合规最优操作)。
主机厂自研,和由供应商推动,最大的区别不是技术本身,而是数据获取能力。后者理论上能获得多个品牌的产品数据,数据量更大。
有人表示," 一段式 " 端到端应部署在 20 万元以上中高端车上。现在没有迹象表明," 一段式 " 就比 " 两段式 " 需要更大的车端算力和更强的感知能力(比如有无激光雷达)。将端到端能力作为入门级和高配区分的一个维度,有可操作性,但同时其演化规律又要求更大的数据量,即尽量扩大部署规模。两者要求背离。
何去何从,需要掂量一下。当前端到端的竞争主轴并非现实商业利益,而是尽快迭代起来,形成明显的使用价值。由此可见,即便实地部署了 " 一段式 " 端到端,迭代到可用、好用,群众满意的地步,也需要长期投入。
算力大比拼
不可否认," 一段式 " 模型,设计源头就比 " 两段式 " 难度更大,调参回路更长、落地流程也更艰难一些。
AlexNet 多层神经网络
设计一个可工作的神经网络(模型)需要很多人类智力资源,训练它更复杂。神经网络的每一个子网络,都涉及归一化、偏差、非线性输出,校正回归等一堆问题。而且多层网络让这些问题的复杂度上升了维度。
训练促使模型从出生到成熟,训练的本质是定量分析。如果用 5000 万个 clips(视频片段)训练模型 20 轮,相当于分析 1B 个 clips。训练中心算力直接决定系统迭代速度。
训练系统
而算力还用于推理计算,可以将其理解为自动化标注。以前人工标注的速度慢,但精度高。推理计算的标注精度低,需要反复刷标提高精度。特斯拉计划将后台算力推高至 100E(1EFOLPs=10^18 次浮点计算)。根据 ChatGPT 的经验,训练量达到一定量级,也许会出现大语言模型的 " 涌现 " 现象。是否需要与其相当的狂野算力,任何人都没有经验,也没人宣称,多少后台算力就够了,包括特斯拉自己。
只要想自己搭建训练和推理系统,买算力卡的费用绝对省不了。考虑到英伟达 H100,甚至阉割版 H800/A800,包括同样能力的 AMD,对中国禁售措施越来越严格,各家如何搭建算力,是一个很有意思的问题。
4 月份的时候,特斯拉在 Q1 财报会议上透露将 AI 训练集群扩展到 35000 块 H100 算力卡。而同期国内能买到 1000 块算力卡的厂家,都是凤毛麟角。
华为的昇腾 910B(按照性能最强的 910 Pro B),性能据说和 H100 的算力差不多。但最紧要的并非峰值算力,而是 FLOP 利用率。英伟达的算力卡 FLOP 利用率出了名的低(FP8 模型 35% 左右)。而昇腾系列的问题是产能供不应求,一块昇腾 910 ProB 一度炒至 28 万元。
假设国内企业的模型设计水平,与特斯拉相当,而昇腾系列算力卡优于英伟达一倍以上(这一点存疑),那么想达到特斯拉 FSD V12 的水平,至少也需要 1 万块以上 910B 算力卡。
江湖传闻,910B 的 2023 年出货量大概 50 万块,这些卡被谁买走了,缺乏信源。基于众所周知的原因,华为对高制程芯片的生产细节讳莫如深。
算力中心
种种迹象表明,能够攒起万块以上算力卡的主机厂和供应商,国内一只手就能数过来。远不像场面上人手一份 " 端到端 " 那么花团锦簇……
如果这是一场看不见上限的军备竞赛,不考虑成本的话显然越高越好。显然,国内厂商中间,华为确定有能力跟一下,其他主机厂和模型供应商都需要买卡。如果训练相当于挖矿,英伟达被定位 " 卖铲子的 ",那么华为一面卖铲子,一面也自己动手挖矿,因此获得了额外的算力供应链优势。
算力比拼正在演化为各家投资力度竞赛,没有取巧之机。
登录后才可以发布评论哦
打开小程序可以发布评论哦