8大国产AI芯片火速适配DeepSeek-V4！华为百度阿里全吻上来了

云巨头、服务器厂商密集支持，DeepSeek 赢麻了。

作者 | 程茜

编辑 | Panken

芯东西 4 月 24 日报道，刚刚，华为昇腾直播解读 DeepSeek-V4 技术，并披露昇腾 950 性能表现。截至发稿，华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥真武、天数智芯8 家国产 AI 芯片品牌和英伟达均已适配 DeepSeek-V4。

▲昇腾 950 性能表现（图源：昇腾 CANN 直播截图）

此外，华为云、腾讯云、PPIO、用友、联想智能云、天翼云息壤、云工场科技等云服务商，宁畅、长江计算、百信、昆仑技术等服务器企业，郑州人工智能计算中心等算力服务提供商、快手万擎等 MaaS 平台，都第一时间宣布适配或上架 DeepSeek-V4 模型服务。网易智企、万格智元、极光、网易有道旗下 Agent 产品宣布接入 DeepSeek-V4。

▲截至发稿，官宣支持 DeepSeek 模型的 AI 芯片企业（芯东西制表）

根据 DeepSeek-V4 技术报告，其并细粒度专家并行（EP）方案同时在英伟达 GPU 和华为昇腾 NPU 上完成验证，相比非融合基线在通用推理场景中实现1.50-1.73 倍加速，在对延迟敏感的强化学习推演和高速 Agent 服务场景中最高可达1.96 倍。

▲ DeepSeek-V4 技术报告

据 DeepSeek 公众号披露，受限于高端算力，目前 DeepSeek-V4-Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，其价格会大幅下调。

▲ DeepSeek 官方文章

DeepSeek-V4 模型采用 FP4+FP8 混合精度训练，在脱离英伟达生态背景下，其大概率是基于深度定制的内部格式。网友猜测，该模型依托华为昇腾 950 超节点集群完成训练，从侧面印证华为底层算力架构与低精度混合训练技术，已具备支撑万亿级大模型的能力。

▲ DeepSeek 在 Hugging Face 上的模型卡

智源研究院众智 FlagOS 社区在 8 款 AI 芯片上适配 DeepSeek-V4 时，实现了三大技术突破：支持 8 种以上芯片的全算子替代、解除张量并行最多单机 8 卡限制、支持从 "FP4+FP8 混合精度 " 到 BF16 的精度转换。

截至今日收盘，AI 算力板块股价大涨，在 A 股，海光信息以8.2%的增幅领涨、寒武纪增幅为2.23%，在港股，天数智芯的涨幅达到 9.54%。

▲ AI 算力板块股价变化

01.

华为昇腾首发适配

支撑 DeepSeek-V4 毫秒级推理、超高并发推理

首发适配 DeepSeek-V4 后，华为昇腾今日 16 点开启了 " 基于 CANN 的训推优化实践 " 直播。在直播中，华为相关研发人员提到其基于 CANN 进行了全链路优化：

1、昇腾 950 超节点支撑 DeepSeek V4 毫秒级推理，背后有三大黑科技

昇腾 950 超节点实现 DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低时延推理。这得益于昇腾 950 代际底层架构的三大升级：

首先是原生精度加速，其全面支持 FP8、MXFP8、MXFP4 等数据格式，在保证模型精度的同时，可实现内存占用降低 50%+，计算能力翻倍。

其次是稀疏访存优化，针对 MoE 模型的离散访存特征，他们通过大幅提升硬件级稀疏访存能力，解决了专家路由过程中的带宽瓶颈。

最后是Vector 与 Cube 共享 Memory，其采用创新存储架构设计，实现了向量单元（Vector）与矩阵单元（Cube）的 Memory 共享，消除大量片上数据搬运开销，降低了端到端推理时延。

根据华为官方信息，昇腾 950 超节点还从基础器件、协议算法到光电互联，实现了系统级突破，支持用户以 64 卡为步长按需扩展，可实现8192 卡无收敛全互联，提供业界最大 Scale Up 能力。

华为与 DeepSeek 联合定义了昇腾超节点架构，专门解决大模型超长上下文推理的时延高、吞吐低、成本贵三大痛点，同时能做到万卡级大规模扩展，并靠 NAND SSU 做低成本大容量 KV Cache，支撑 4K～1M 全长度长序列应用。

2、昇腾同步开源 DeepSeek-V4 复杂稀疏注意力 +mHC 续训实现

华为昇腾通过 TorchTitan-NPU 插件与 Autofuse 自动融合技术协同，实测模型吞吐量最高达到 1100 tokens/p/s，实现模型训练性能开箱即优。

这得益于以下三大维度的系统级优化：

极简分布式并行架构：突破传统复杂的混合并行设计，采用超节点亲和的大 EP+ 纯 FSDP 的极简并行切分策略。

▲并行策略

原生 " 入图 " 与自动融合：TorchTitan-NPU 深度适配 torch.compile 机制，使能训练入图技术，依托 Inductor+AutoFuse（基于 Ascend C 的 Codegen 后端）实现端到端的 Vector 算子自动融合，为整网带来高达 31.8% 的开箱即用性能收益。

稀疏 Attention 高效融合算子：针对稀疏注意力等复杂结构，开发 SparseAttnSharedkv、LightningIndexer 等多个高效的 NPU 融合算子，释放芯片稀疏算力。

3、推昇腾 PyPTO 编程范式，让大模型算子开发轻量化

此外，昇腾 CANN 还推出 PyPTO 编程范式，解决自定义算子开发门槛高、周期长的痛点。该范式提供完善的 Python API，使开发者能够以符合 Python 习惯的语法进行算子开发。

PyPTO 编程范式有四大特点：

首先是高效的算子开发，PyPTO 依托内置高级编译优化，可自动完成流水编排与内存管理，使开发者无需关注硬件细节而专注于计算流表达，实现DeepSeek-V4 新一代模型算子开发周期可缩短至天级。

其次是高性能 Kernel 自动生成，针对 Attention、Compressor、mHC 等复杂逻辑算子，PyPTO 可自动生成高度优化的 Kernel，避免开发者手动处理繁琐的同步与数据搬运，缩短从算法验证到部署落地的开发周期。

▲融合 Kernel

第三是PTO ISA 虚拟指令集跨代兼容，PyPTO 基于 PTO 虚拟指令集（PTO ISA），实现了对硬件新特性的 " 零感适配 "，针对不同代际芯片统一指令接口，同一套算子代码可在不同代际芯片上的兼容实现。

其借助毕昇编译器的 VF（Vector Fusion）自动融合能力，可在 micro kernel 级别实现更优融合。

最后是TileLang 社区生态，TileLang-Ascend 是 TileLang 针对华为昇腾平台深度优化的实现，分别对应 Tilelang-Ascend 的 Expert 和 Developer 开发模式，提供 AscendC 基础指令和 PTO AS 两种对接层次，为各种编程前端语言和编译器提供多层开放接口。

DeepSeek-V4 模型相关实现已在 TileAI 开源社区正式发布，后续将持续推进性能优化与功能迭代。

02.

4 家国产 AI 芯片

官宣适配 DeepSeek-V4

DeepSeek-V4 模型发布后，寒武纪、华为昇腾、海光信息、摩尔线程火速官宣适配，拉开国产 AI 芯片支持 DeepSeek 系列模型的大幕。

1、寒武纪

寒武纪基于vLLM 推理框架完成对 DeepSeek 最新开源模型 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 适配，适配代码已开源到 GitHub 社区。

2、华为

华为昇腾超节点全系列产品支持 DeepSeek-V4 系列模型。基于 DeepSeek-V4-Pro 模型，在 8K 输入场景，昇腾 950 超节点可实现 TPOT 约20ms时单卡 Decode 吞吐 4700TPS。DeepSeek-V4-Flash 模型，8K 长序列输入场景下可实现 TPOT 约10ms时单卡 Decode 吞吐 1600TPS（注：上述 Benchmark 数据均基于 Offine 推理模式采集，不包含 Serving 调度和框架负载均衡影响）。

基于昇腾 A3 64 卡超节点结合大 EP 模式部署，DeepSeek-V4-Flash 模型，8K/1K 输入输出场景，基于 vLLM 推理引擎可实现 2000+TPS 的单卡 Decode 吞吐。针对 DeepSeek V4-Pro 模型，昇腾 A3 正同步支持推理部署，性能持续优化中。

3、海光信息

海光 DCU同步完成对 DeepSeek-V4 的 Day0 适配，其中，DTK（异构计算平台）可为 DeepSeek-V4 提供完整的软件生态支撑，DAS（人工智能基础软件系统）集成超 2000 个算子，提高 DeepSeek-V4 微调与推理性能，DAP（人工智能应用平台）内置知识库引擎、智能体编排引擎等高阶模块，可将 DeepSeek-V4 便捷集成到主流 AI 平台。

4、摩尔线程

摩尔线程联手智源众智 FlagOS 社区，在旗舰级AI 训推一体全功能 GPU MTT S5000上，实现对新一代大模型 DeepSeek-V4-Flash 的 Day-0 极速适配，并完成全量核心算子的深度优化与部署支持。

DeepSeek-V4 模型首次采用 "FP4+FP8" 混合精度策略，当前国内主流 AI 芯片仍普遍以 BF16 为主。摩尔线程具有原生 FP8 支持优势，能够高效承载 DeepSeek-V4 的精度设计。摩尔线程与 FlagOS 社区正持续推进拥有 1.6T 旗舰模型（1.86 万亿参数）的 DeepSeek-V4-Pro 在 MTT S5000 上的迁移适配工作。

03.

8 大芯片全量适配

拆解三大黑科技

智源研究院众智 FlagOS 社区宣布将对 DeepSeek-V4 模型进行全量适配，目前其已完成 DeepSeek-V4-Flash 在 8 款以上 AI 芯片上的全量适配与推理部署，包括海光、沐曦、华为昇腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等芯片，正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配。

这背后，智源研究院实现了三大技术突破：

1、支持 8 种以上芯片全算子替代

本次 DeepSeek-V4-Flash 的适配，全球最大的 Triton 单一算子库 FlagGems 实现了模型推理链路中全部算子的替代。在 40 个主流模型上，推理任务算子覆盖度达到 90%~100%，能完整支持 DeepSeek-V4-Flash 的全部计算需求。这意味着彻底脱离 CUDA 算子依赖、无需芯片厂商逐一适配、新算子即时可用。

2、独立并行策略，解除张量并行最多单机 8 卡限制

FlagOS 团队对 o_group 张量并行改动有：

（1）独立的并行策略：独立于已有的张量并行通信组之外，为 o-group 单独构建所需要的张量并行通信组，确保其他模型结构张量并行切分超过 8 的情况下，o-group 的张量并行在 8 以内。

（2）参数转换调整：对 o_group 相关的参数进行对应单独的张量并行切分处理。

（3）覆盖面扩展：这一优化能够将 DeepSeek-V4-Flash 在单独采用张量并行策略下，把可运行芯片范围从 " 仅限单机 80GB 以上显存的个别高端卡 " 扩展到 " 多机 64GB/32GB 的更多主流国产芯片 "。

3、支持 "FP4+FP8 混合精度 " 到 BF16 的精度转换

DeepSeek-V4 模型采用 FP4+FP8 混合精度训练，但当前所有国内非英伟达 AI 芯片都未能支持 FP4+FP8 混合精度，只有摩尔线程原生支持了 FP8，其余依然以 BF16 为主。

FlagOS 完成了从 FP4 到 BF16 的完整精度转换，将 FP4 量化权重转换为 BF16 格式；FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径；经过标准评测集验证，BF16 版本与 FP4 原生版本在核心能力指标上保持对齐，确保精度转换不引入业务层面的效果损失。

FlagOS 推出了 FP8 和 BF16 两种适配版本，让 DeepSeek-V4-Flash 不再是 " 只有最新英伟达卡才能跑 " 的模型，而是真正可以部署在 FP8 及 BF16 生态的主流国产芯片上。

智源研究院公布的数据显示，经 GPQA_Diamond、AIME 等评测集验证，FlagOS 适配后的 DeepSeek-V4-Flash，在语言理解、复杂推理、代码生成、数学计算等核心能力上，可与 CUDA 原生版本对齐。

DeepSeek-V4-Flash 安装部署指引：

https://github.com/flagos-ai/DeepSeek-V4-FlagOS

04.

结语：DeepSeek-V4 的里程碑时刻

国产顶级大模型 + 国产高端算力深度绑定

万众期待的 " 国产大模型之光 "DeepSeek-V4 正式亮相后，多款国产高端芯片率先完成适配与深度兼容。这也意味着，国产顶级大模型与本土高端算力矩阵实现了全栈深度绑定与协同。

此次华为等国产芯片厂商与 DeepSeek 联合，在技术协同迭代、规模化产业落地、本土生态共建三大维度，都具有里程碑意义。此举有望打破英伟达长期主导的垄断生态，推动国内 AI 国产软硬一体、自主可控产业链发展。

宙世代

一起剪

相关标签