华为：构筑智能汽车大模型的算力根基

当前，智能驾驶辅助技术快速普及，新能源车型智驾渗透率持续走高，模型、数据、训练节奏全面升级，算力已然成为车企竞争的核心焦点。行业正从 L2+ 逐步向 L3、L4 乃至 L5 阶段演进，技术路线也从传统模型过渡到端到端、VLA 及世界模型，对算力规模、数据体量、集群调度能力提出断崖式提升，同时行业还面临数据挖掘、标注、路测验证三大现实难题。

2026 年 6 月 17 日，在第九届智能驾驶与出海大会上，华为技术有限公司智驾解决方案专家黄梓亮介绍到，华为依托昇腾 AI 打造全栈算力底座，凭借自研芯片、服务器、超节点集群构建多层次算力产品矩阵，通过架构创新、芯片迭代实现高性能与高稳定性。凭借 Driving SDK、工具链及大模型能力，覆盖数据处理、模型训练、仿真、端侧部署全流程，并已落地多个实践案例，为智能汽车大模型发展筑牢算力根基。

黄梓亮｜华为技术有限公司智驾解决方案专家

以下为演讲内容整理：

智能驾驶业务趋势

随着技术的快速发展，新能源智驾渗透率将达到 95%，由此带来了一系列新变化。模型参数已演进至 B 级，训练数据规模提升至 PB 级 / 天，采集模式与采集规模均发生了显著变化，训练节奏不断加快，逐步演进至天级。头部厂商的智驾效果处于领先地位，华为乾崑智驾 ADS 与特斯拉 FSD 在算力方面投入巨大，引领着整个技术的演进。

图源：演讲嘉宾素材

从智驾发展趋势与车企自研战略来看，当前仍处于 L2+ 至 L2.9 阶段，未来 1-5 年有望突破 L3，5-10 年可实现 L4，L5 的真正落地预计需要 20 年。在自动驾驶的演进过程中，算力与智驾团队的投入是关键所在，也是车企自研战略选择的重要考量因素。

智驾的持续演进，在算力规模、网络性能及训推效率方面的需求均实现了显著提升。从 E2E 到 VLA 世界模型，技术路线发生了根本转变。E2E 以模仿学习为核心，当前训练规模为万卡，数据量达百 PB 级，万卡 AI 调度能力下单任务最大可达 6000 卡。而 VLA 以理解能力为核心，已扩展至 10 万卡、EB 级数据量，10 万卡算力调度极具挑战性。

在智驾数据处理流程中，高效的数据挖掘、标注与验证是智能驾驶数据闭环的基础。当前主要面临三大挑战。一是数据挖掘。海量数据的理解与生成依赖多模态大模型，而多模态大模型又对高性能、稳定、可靠的 AI 算力平台提出了更高要求。二是数据标注。传统手工数据标注的准确性与一致性较差，已无法满足端到端智驾算法的需求。三是路测验证。路测难以覆盖危险场景，部分极端工况需具备高性能仿真场景生成能力，以提升整体测试覆盖率。

智驾大算力集群的建设与使用，对架构效率、调度及生态提出了更高要求。集群规模从百卡、千卡扩展至万卡，训练效率随之提升，模型参数从百万级发展至十亿级、千亿级。多元算力方面，不同架构的 NPU 与 GPU 需实现统一调度，以提高整体效能。此外，在开源开放层面，新模型、新算子需更快速地适配，充分发挥其性能。

华为 AI 能力

昇腾 AI 聚焦算力底座，打造开放领先的 AI 基础软硬件。对标友商，昇腾 AI 在以下方面具备优势：一是友好支持业界开源社区与项目；二是构筑与昇腾亲和的自研应用工具链，进行应用使能并全量开源。CANN 架构对标 CUDA 架构，自去年起已全面开源开放，助力客户与伙伴充分释放底层深层硬件能力。华为始终坚持硬件变现，做软件旨在帮助用户用好硬件。昇腾产品形态丰富，持续创新演进，为车企构筑算力底座。

集群层面，我们有 Atlas 900 A3，同时具备更大规模的 Atlas SuperCloud 超节点。训推服务器方面，我们有 Atlas 800I A3 和 Atlas 800 A2，均可支持大模型训练及多模态推理。视觉推理方面，我们有 Atlas300I A2 推理卡，其算力在各领域均处于领先水平。

从芯片到系统再到集群，我们重新定义了整个计算架构，打造系统级竞争力，实现算力规模领先。芯片架构上，通过面积换算力、堆叠换能力，实现算力与功能的领先。系统架构上，打破以 CPU 为中心的传统，改变了传统主从式计算架构。集群创新上，以整个数据中心为一台计算机，集成华为在网络、计算、存储、液冷等方面的硬件工程能力，实现大规模算力落地的应用领先。

昇腾芯片基于自研 NPU，一年一迭代，匹配智驾性能与应用需求。2026 年发布的 950 系列，支持低精度数据格式训推，提升上量能力，支持 SIMD+SIMT，提升互联带宽。2027 年将推出 960，2028 年将推出 970，持续提升算力、内存带宽和内存容量，提升训练 / 推理性能。

昇腾 NPU 始终保持架构领先，从 " 矩阵 + 向量 " 演进至 " 矩阵 + 向量 + 线程 +CCU"，匹配 AI 特征的快速发展，为智驾提供更优性能。智驾大模型训练涉及复杂多维并行，昇腾可提供超大带宽，降低通信开销。

强化学习涉及多模型多阶段，唯有超节点大规模算力方能满足带宽与显存要求。相比传统节点，新超节点在训推吞吐效率上可提升至传统集群的 3 倍以上，成本节省 50%。

智能汽车 AI 解决方案

从基础设施层到计算能力，再到 L0 基础大模型、L1 智驾大模型，直至智驾研发工具链，华为在核心业务流程中全面赋能智驾业务场景。通过提供工具 SDK，以易用工具助力开发与迁移。借助盘古模型赋能及 2012 专家库支持，在场景理解、多模态检索、预标注、仿真场景、数据处理等场景中，效率均提升至 60%。

计算能力方面，通过全自研、自主可控的昇腾 AI 芯片，华为为自动驾驶提供澎湃计算能力。通过集成华为 ICT 数字中心赋能，实现功能可拓展与快速适配，覆盖智驾、具身智能及重工领域，打破数据与 AI 资源管理边界。

在智驾训练、标注、脱敏、云端辅助端推理的全业务流程中，昇腾 AI 算力可支持多模态理解推理与传统模型推理，适配 VLA 大模型参数量持续增大的需求，支持多模态生成推理。云端推理层面，支持多模态理解生成，参数规模可达千亿级。

数据处理方面，昇腾推理支持主流大模型，在云助端数据挖掘与标注上实现开箱即用。数据标签提取、数据标注、云助端等多场景，均依托 MindIE 等主流推理引擎，做到开箱即用。同时已适配 Qwen、Intern 等 30 家多模态理解与生成模型，性能可达 50 至 60，高于友商。

模型训练方面，我们推出了昇腾智驾开发套件 Driving SDK，诚邀各方共建创新生态。Driving SDK 基于昇腾 NPU 构建，涵盖 50+ 主流大模型和 50+ 主流算子，可实现极致简易的应用。Driving SDK 覆盖主流感知规控及 E2E 算法，典型模型性能持平 / 优于业界。此外，全面支持主流多模态大模型，为智驾 VLA、数据闭环提供训练加速。统一部署方面，通过格式转换，昇腾可兼容不同端侧车端软硬件，支持昇腾到昇腾、昇腾到地平线、昇腾到黑芝麻、昇腾到英伟达等多种部署方案。

实践案例

基于大规模集群支持千亿级参数、40 天长稳训练，95% 的故障可在 10 分钟内快速恢复。通过全栈故障模式库，95% 的故障可实现分钟级感知，三级故障快恢策略下，70% 的场景可原地无感恢复，支持无感断点续训，持续提升效率。

我们完成了数据服务、标注服务、仿真服务，覆盖多模态数据融合、海量数据处理、大模型助力高效标注及大模型 3D 仿真重建。在云助端场景中，面向潮汐车道理解、标记牌识别、异形车位识别等任务，时延敏感场景可做到小于 1 秒，时延不敏感场景可做到 1-5 秒，实测数据约 1.5 秒。此外，助力乾崑智驾打造完整数据闭环系统，提供业界领先的智能驾驶体验。

今年 4 月，我们发布的 ADS 5 采用 WEWA2.0 架构，本质为面向自动驾驶 AI 智能体的世界引擎，包含世界模型与行为模型。云端世界引擎引入多智能体博弈强化学习，从单车博弈演进至群体博弈，学习效率提升 10 倍。车端世界行为模型引入安全风险场，首创防御性驾驶，碰撞风险降低 50%。

华为提供 60 EFlops 集群算力规模，训练数据达 10 亿公里，迭代频次仅需 4 天。依托超 10 万卡超大规模集群及全栈 AI 技术、全栈模型与算子库，通过稳定架构支撑市面 170 万辆车智驾发放稳定运行。同时助力外部客户打造高性能、高可用智驾多元平台。

面对客户的国产化算力储备 2000PFLOPS 及集群训练稳定性要求，我们实现每月一次 MTTR 小于 10 分钟。针对定位难、数据分析难等问题，通过智驾生成整体解决方案，提供 A3 超节点及存储产品线 SFS Turbo 数据存储，最终实现客户 VLA 及行泊一体模型的训练。

（以上内容来自华为技术有限公司智驾解决方案专家黄梓亮于 2026 年 6 月 17 日 -18 日在第九届智能驾驶与出海大会发表的《构筑智能汽车大模型的算力根基》主题演讲。）

宙世代

一起剪

相关标签