当前,智能驾驶辅助技术快速普及,新能源车型智驾渗透率持续走高,模型、数据、训练节奏全面升级,算力已然成为车企竞争的核心焦点。行业正从 L2+ 逐步向 L3、L4 乃至 L5 阶段演进,技术路线也从传统模型过渡到端到端、VLA 及世界模型,对算力规模、数据体量、集群调度能力提出断崖式提升,同时行业还面临数据挖掘、标注、路测验证三大现实难题。
2026 年 6 月 17 日,在第九届智能驾驶与出海大会上,华为技术有限公司智驾解决方案专家黄梓亮介绍到,华为依托昇腾 AI 打造全栈算力底座,凭借自研芯片、服务器、超节点集群构建多层次算力产品矩阵,通过架构创新、芯片迭代实现高性能与高稳定性。凭借 Driving SDK、工具链及大模型能力,覆盖数据处理、模型训练、仿真、端侧部署全流程,并已落地多个实践案例,为智能汽车大模型发展筑牢算力根基。
黄梓亮|华为技术有限公司智驾解决方案专家
以下为演讲内容整理:
智能驾驶业务趋势
随着技术的快速发展,新能源智驾渗透率将达到 95%,由此带来了一系列新变化。模型参数已演进至 B 级,训练数据规模提升至 PB 级 / 天,采集模式与采集规模均发生了显著变化,训练节奏不断加快,逐步演进至天级。头部厂商的智驾效果处于领先地位,华为乾崑智驾 ADS 与特斯拉 FSD 在算力方面投入巨大,引领着整个技术的演进。
图源:演讲嘉宾素材
从智驾发展趋势与车企自研战略来看,当前仍处于 L2+ 至 L2.9 阶段,未来 1-5 年有望突破 L3,5-10 年可实现 L4,L5 的真正落地预计需要 20 年。在自动驾驶的演进过程中,算力与智驾团队的投入是关键所在,也是车企自研战略选择的重要考量因素。
智驾的持续演进,在算力规模、网络性能及训推效率方面的需求均实现了显著提升。从 E2E 到 VLA 世界模型,技术路线发生了根本转变。E2E 以模仿学习为核心,当前训练规模为万卡,数据量达百 PB 级,万卡 AI 调度能力下单任务最大可达 6000 卡。而 VLA 以理解能力为核心,已扩展至 10 万卡、EB 级数据量,10 万卡算力调度极具挑战性。
在智驾数据处理流程中,高效的数据挖掘、标注与验证是智能驾驶数据闭环的基础。当前主要面临三大挑战。一是数据挖掘。海量数据的理解与生成依赖多模态大模型,而多模态大模型又对高性能、稳定、可靠的 AI 算力平台提出了更高要求。二是数据标注。传统手工数据标注的准确性与一致性较差,已无法满足端到端智驾算法的需求。三是路测验证。路测难以覆盖危险场景,部分极端工况需具备高性能仿真场景生成能力,以提升整体测试覆盖率。
智驾大算力集群的建设与使用,对架构效率、调度及生态提出了更高要求。集群规模从百卡、千卡扩展至万卡,训练效率随之提升,模型参数从百万级发展至十亿级、千亿级。多元算力方面,不同架构的 NPU 与 GPU 需实现统一调度,以提高整体效能。此外,在开源开放层面,新模型、新算子需更快速地适配,充分发挥其性能。
华为 AI 能力
昇腾 AI 聚焦算力底座,打造开放领先的 AI 基础软硬件。对标友商,昇腾 AI 在以下方面具备优势:一是友好支持业界开源社区与项目;二是构筑与昇腾亲和的自研应用工具链,进行应用使能并全量开源。CANN 架构对标 CUDA 架构,自去年起已全面开源开放,助力客户与伙伴充分释放底层深层硬件能力。华为始终坚持硬件变现,做软件旨在帮助用户用好硬件。昇腾产品形态丰富,持续创新演进,为车企构筑算力底座。
集群层面,我们有 Atlas 900 A3,同时具备更大规模的 Atlas SuperCloud 超节点。训推服务器方面,我们有 Atlas 800I A3 和 Atlas 800 A2,均可支持大模型训练及多模态推理。视觉推理方面,我们有 Atlas300I A2 推理卡,其算力在各领域均处于领先水平。
从芯片到系统再到集群,我们重新定义了整个计算架构,打造系统级竞争力,实现算力规模领先。芯片架构上,通过面积换算力、堆叠换能力,实现算力与功能的领先。系统架构上,打破以 CPU 为中心的传统,改变了传统主从式计算架构。集群创新上,以整个数据中心为一台计算机,集成华为在网络、计算、存储、液冷等方面的硬件工程能力,实现大规模算力落地的应用领先。
昇腾芯片基于自研 NPU,一年一迭代,匹配智驾性能与应用需求。2026 年发布的 950 系列,支持低精度数据格式训推,提升上量能力,支持 SIMD+SIMT,提升互联带宽。2027 年将推出 960,2028 年将推出 970,持续提升算力、内存带宽和内存容量,提升训练 / 推理性能。
昇腾 NPU 始终保持架构领先,从 " 矩阵 + 向量 " 演进至 " 矩阵 + 向量 + 线程 +CCU",匹配 AI 特征的快速发展,为智驾提供更优性能。智驾大模型训练涉及复杂多维并行,昇腾可提供超大带宽,降低通信开销。
强化学习涉及多模型多阶段,唯有超节点大规模算力方能满足带宽与显存要求。相比传统节点,新超节点在训推吞吐效率上可提升至传统集群的 3 倍以上,成本节省 50%。
智能汽车 AI 解决方案
从基础设施层到计算能力,再到 L0 基础大模型、L1 智驾大模型,直至智驾研发工具链,华为在核心业务流程中全面赋能智驾业务场景。通过提供工具 SDK,以易用工具助力开发与迁移。借助盘古模型赋能及 2012 专家库支持,在场景理解、多模态检索、预标注、仿真场景、数据处理等场景中,效率均提升至 60%。
计算能力方面,通过全自研、自主可控的昇腾 AI 芯片,华为为自动驾驶提供澎湃计算能力。通过集成华为 ICT 数字中心赋能,实现功能可拓展与快速适配,覆盖智驾、具身智能及重工领域,打破数据与 AI 资源管理边界。
在智驾训练、标注、脱敏、云端辅助端推理的全业务流程中,昇腾 AI 算力可支持多模态理解推理与传统模型推理,适配 VLA 大模型参数量持续增大的需求,支持多模态生成推理。云端推理层面,支持多模态理解生成,参数规模可达千亿级。
数据处理方面,昇腾推理支持主流大模型,在云助端数据挖掘与标注上实现开箱即用。数据标签提取、数据标注、云助端等多场景,均依托 MindIE 等主流推理引擎,做到开箱即用。同时已适配 Qwen、Intern 等 30 家多模态理解与生成模型,性能可达 50 至 60,高于友商。
模型训练方面,我们推出了昇腾智驾开发套件 Driving SDK,诚邀各方共建创新生态。Driving SDK 基于昇腾 NPU 构建,涵盖 50+ 主流大模型和 50+ 主流算子,可实现极致简易的应用。Driving SDK 覆盖主流感知规控及 E2E 算法,典型模型性能持平 / 优于业界。此外,全面支持主流多模态大模型,为智驾 VLA、数据闭环提供训练加速。统一部署方面,通过格式转换,昇腾可兼容不同端侧车端软硬件,支持昇腾到昇腾、昇腾到地平线、昇腾到黑芝麻、昇腾到英伟达等多种部署方案。
实践案例
基于大规模集群支持千亿级参数、40 天长稳训练,95% 的故障可在 10 分钟内快速恢复。通过全栈故障模式库,95% 的故障可实现分钟级感知,三级故障快恢策略下,70% 的场景可原地无感恢复,支持无感断点续训,持续提升效率。
我们完成了数据服务、标注服务、仿真服务,覆盖多模态数据融合、海量数据处理、大模型助力高效标注及大模型 3D 仿真重建。在云助端场景中,面向潮汐车道理解、标记牌识别、异形车位识别等任务,时延敏感场景可做到小于 1 秒,时延不敏感场景可做到 1-5 秒,实测数据约 1.5 秒。此外,助力乾崑智驾打造完整数据闭环系统,提供业界领先的智能驾驶体验。
今年 4 月,我们发布的 ADS 5 采用 WEWA2.0 架构,本质为面向自动驾驶 AI 智能体的世界引擎,包含世界模型与行为模型。云端世界引擎引入多智能体博弈强化学习,从单车博弈演进至群体博弈,学习效率提升 10 倍。车端世界行为模型引入安全风险场,首创防御性驾驶,碰撞风险降低 50%。
华为提供 60 EFlops 集群算力规模,训练数据达 10 亿公里,迭代频次仅需 4 天。依托超 10 万卡超大规模集群及全栈 AI 技术、全栈模型与算子库,通过稳定架构支撑市面 170 万辆车智驾发放稳定运行。同时助力外部客户打造高性能、高可用智驾多元平台。
面对客户的国产化算力储备 2000PFLOPS 及集群训练稳定性要求,我们实现每月一次 MTTR 小于 10 分钟。针对定位难、数据分析难等问题,通过智驾生成整体解决方案,提供 A3 超节点及存储产品线 SFS Turbo 数据存储,最终实现客户 VLA 及行泊一体模型的训练。
(以上内容来自华为技术有限公司智驾解决方案专家黄梓亮于 2026 年 6 月 17 日 -18 日在第九届智能驾驶与出海大会发表的《构筑智能汽车大模型的算力根基》主题演讲。)


登录后才可以发布评论哦
打开小程序可以发布评论哦