
云巨头、服务器厂商密集支持,DeepSeek 赢麻了。
作者 | 程茜
编辑 | Panken
芯东西 4 月 24 日报道,刚刚,华为昇腾直播解读 DeepSeek-V4 技术,并披露昇腾 950 性能表现。截至发稿,华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、百度昆仑芯、阿里平头哥真武、天数智芯8 家国产 AI 芯片品牌和英伟达均已适配 DeepSeek-V4。

▲昇腾 950 性能表现(图源:昇腾 CANN 直播截图)
此外,华为云、腾讯云、PPIO、用友、联想智能云、天翼云息壤、云工场科技等云服务商,宁畅、长江计算、百信、昆仑技术等服务器企业,郑州人工智能计算中心等算力服务提供商、快手万擎等 MaaS 平台,都第一时间宣布适配或上架 DeepSeek-V4 模型服务。网易智企、万格智元、极光、网易有道旗下 Agent 产品宣布接入 DeepSeek-V4。

▲截至发稿,官宣支持 DeepSeek 模型的 AI 芯片企业(芯东西制表)
根据 DeepSeek-V4 技术报告,其并细粒度专家并行(EP)方案同时在英伟达 GPU 和华为昇腾 NPU 上完成验证,相比非融合基线在通用推理场景中实现1.50-1.73 倍加速,在对延迟敏感的强化学习推演和高速 Agent 服务场景中最高可达1.96 倍。

▲ DeepSeek-V4 技术报告
据 DeepSeek 公众号披露,受限于高端算力,目前 DeepSeek-V4-Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,其价格会大幅下调。

▲ DeepSeek 官方文章
DeepSeek-V4 模型采用 FP4+FP8 混合精度训练,在脱离英伟达生态背景下,其大概率是基于深度定制的内部格式。网友猜测,该模型依托华为昇腾 950 超节点集群完成训练,从侧面印证华为底层算力架构与低精度混合训练技术,已具备支撑万亿级大模型的能力。

▲ DeepSeek 在 Hugging Face 上的模型卡
智源研究院众智 FlagOS 社区在 8 款 AI 芯片上适配 DeepSeek-V4 时,实现了三大技术突破:支持 8 种以上芯片的全算子替代、解除张量并行最多单机 8 卡限制、支持从 "FP4+FP8 混合精度 " 到 BF16 的精度转换。
截至今日收盘,AI 算力板块股价大涨,在 A 股,海光信息以8.2%的增幅领涨、寒武纪增幅为2.23%,在港股,天数智芯的涨幅达到 9.54%。

▲ AI 算力板块股价变化
01.
华为昇腾首发适配
支撑 DeepSeek-V4 毫秒级推理、超高并发推理
首发适配 DeepSeek-V4 后,华为昇腾今日 16 点开启了 " 基于 CANN 的训推优化实践 " 直播。在直播中,华为相关研发人员提到其基于 CANN 进行了全链路优化:

1、昇腾 950 超节点支撑 DeepSeek V4 毫秒级推理,背后有三大黑科技
昇腾 950 超节点实现 DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低时延推理。这得益于昇腾 950 代际底层架构的三大升级:
首先是原生精度加速,其全面支持 FP8、MXFP8、MXFP4 等数据格式,在保证模型精度的同时,可实现内存占用降低 50%+,计算能力翻倍。
其次是稀疏访存优化,针对 MoE 模型的离散访存特征,他们通过大幅提升硬件级稀疏访存能力,解决了专家路由过程中的带宽瓶颈。
最后是Vector 与 Cube 共享 Memory,其采用创新存储架构设计,实现了向量单元(Vector)与矩阵单元(Cube)的 Memory 共享,消除大量片上数据搬运开销,降低了端到端推理时延。
根据华为官方信息,昇腾 950 超节点还从基础器件、协议算法到光电互联,实现了系统级突破,支持用户以 64 卡为步长按需扩展,可实现8192 卡无收敛全互联,提供业界最大 Scale Up 能力。
华为与 DeepSeek 联合定义了昇腾超节点架构,专门解决大模型超长上下文推理的时延高、吞吐低、成本贵三大痛点,同时能做到万卡级大规模扩展,并靠 NAND SSU 做低成本大容量 KV Cache,支撑 4K~1M 全长度长序列应用。
2、昇腾同步开源 DeepSeek-V4 复杂稀疏注意力 +mHC 续训实现
华为昇腾通过 TorchTitan-NPU 插件与 Autofuse 自动融合技术协同,实测模型吞吐量最高达到 1100 tokens/p/s,实现模型训练性能开箱即优。
这得益于以下三大维度的系统级优化:
极简分布式并行架构: 突破传统复杂的混合并行设计,采用超节点亲和的大 EP+ 纯 FSDP 的极简并行切分策略。

▲并行策略
原生 " 入图 " 与自动融合:TorchTitan-NPU 深度适配 torch.compile 机制,使能训练入图技术,依托 Inductor+AutoFuse(基于 Ascend C 的 Codegen 后端)实现端到端的 Vector 算子自动融合,为整网带来高达 31.8% 的开箱即用性能收益。
稀疏 Attention 高效融合算子: 针对稀疏注意力等复杂结构,开发 SparseAttnSharedkv、LightningIndexer 等多个高效的 NPU 融合算子,释放芯片稀疏算力。
3、推昇腾 PyPTO 编程范式,让大模型算子开发轻量化
此外,昇腾 CANN 还推出 PyPTO 编程范式,解决自定义算子开发门槛高、周期长的痛点。该范式提供完善的 Python API,使开发者能够以符合 Python 习惯的语法进行算子开发。
PyPTO 编程范式有四大特点:
首先是高效的算子开发,PyPTO 依托内置高级编译优化,可自动完成流水编排与内存管理,使开发者无需关注硬件细节而专注于计算流表达,实现DeepSeek-V4 新一代模型算子开发周期可缩短至天级。
其次是高性能 Kernel 自动生成,针对 Attention、Compressor、mHC 等复杂逻辑算子,PyPTO 可自动生成高度优化的 Kernel,避免开发者手动处理繁琐的同步与数据搬运,缩短从算法验证到部署落地的开发周期。

▲融合 Kernel
第三是PTO ISA 虚拟指令集跨代兼容,PyPTO 基于 PTO 虚拟指令集(PTO ISA),实现了对硬件新特性的 " 零感适配 ",针对不同代际芯片统一指令接口,同一套算子代码可在不同代际芯片上的兼容实现。
其借助毕昇编译器的 VF(Vector Fusion)自动融合能力,可在 micro kernel 级别实现更优融合。
最后是TileLang 社区生态,TileLang-Ascend 是 TileLang 针对华为昇腾平台深度优化的实现,分别对应 Tilelang-Ascend 的 Expert 和 Developer 开发模式,提供 AscendC 基础指令和 PTO AS 两种对接层次,为各种编程前端语言和编译器提供多层开放接口。
DeepSeek-V4 模型相关实现已在 TileAI 开源社区正式发布,后续将持续推进性能优化与功能迭代。
02.
4 家国产 AI 芯片
官宣适配 DeepSeek-V4
DeepSeek-V4 模型发布后,寒武纪、华为昇腾、海光信息、摩尔线程火速官宣适配,拉开国产 AI 芯片支持 DeepSeek 系列模型的大幕。
1、寒武纪
寒武纪基于vLLM 推理框架完成对 DeepSeek 最新开源模型 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 适配,适配代码已开源到 GitHub 社区。
2、华为
华为昇腾超节点全系列产品支持 DeepSeek-V4 系列模型。基于 DeepSeek-V4-Pro 模型,在 8K 输入场景,昇腾 950 超节点可实现 TPOT 约20ms时单卡 Decode 吞吐 4700TPS。DeepSeek-V4-Flash 模型,8K 长序列输入场景下可实现 TPOT 约10ms时单卡 Decode 吞吐 1600TPS(注:上述 Benchmark 数据均基于 Offine 推理模式采集,不包含 Serving 调度和框架负载均衡影响)。
基于昇腾 A3 64 卡超节点结合大 EP 模式部署,DeepSeek-V4-Flash 模型,8K/1K 输入输出场景,基于 vLLM 推理引擎可实现 2000+TPS 的单卡 Decode 吞吐。针对 DeepSeek V4-Pro 模型,昇腾 A3 正同步支持推理部署,性能持续优化中。

3、海光信息
海光 DCU同步完成对 DeepSeek-V4 的 Day0 适配,其中,DTK(异构计算平台)可为 DeepSeek-V4 提供完整的软件生态支撑,DAS(人工智能基础软件系统)集成超 2000 个算子,提高 DeepSeek-V4 微调与推理性能,DAP(人工智能应用平台)内置知识库引擎、智能体编排引擎等高阶模块,可将 DeepSeek-V4 便捷集成到主流 AI 平台。
4、摩尔线程
摩尔线程联手智源众智 FlagOS 社区,在旗舰级AI 训推一体全功能 GPU MTT S5000上,实现对新一代大模型 DeepSeek-V4-Flash 的 Day-0 极速适配,并完成全量核心算子的深度优化与部署支持。
DeepSeek-V4 模型首次采用 "FP4+FP8" 混合精度策略,当前国内主流 AI 芯片仍普遍以 BF16 为主。摩尔线程具有原生 FP8 支持优势,能够高效承载 DeepSeek-V4 的精度设计。摩尔线程与 FlagOS 社区正持续推进拥有 1.6T 旗舰模型(1.86 万亿参数)的 DeepSeek-V4-Pro 在 MTT S5000 上的迁移适配工作。
03.
8 大芯片全量适配
拆解三大黑科技
智源研究院众智 FlagOS 社区宣布将对 DeepSeek-V4 模型进行全量适配,目前其已完成 DeepSeek-V4-Flash 在 8 款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片,正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配。
这背后,智源研究院实现了三大技术突破:
1、支持 8 种以上芯片全算子替代
本次 DeepSeek-V4-Flash 的适配,全球最大的 Triton 单一算子库 FlagGems 实现了模型推理链路中全部算子的替代。在 40 个主流模型上,推理任务算子覆盖度达到 90%~100%,能完整支持 DeepSeek-V4-Flash 的全部计算需求。这意味着彻底脱离 CUDA 算子依赖、无需芯片厂商逐一适配、新算子即时可用。
2、独立并行策略,解除张量并行最多单机 8 卡限制
FlagOS 团队对 o_group 张量并行改动有:
(1)独立的并行策略:独立于已有的张量并行通信组之外,为 o-group 单独构建所需要的张量并行通信组,确保其他模型结构张量并行切分超过 8 的情况下,o-group 的张量并行在 8 以内。
(2)参数转换调整:对 o_group 相关的参数进行对应单独的张量并行切分处理。
(3)覆盖面扩展:这一优化能够将 DeepSeek-V4-Flash 在单独采用张量并行策略下,把可运行芯片范围从 " 仅限单机 80GB 以上显存的个别高端卡 " 扩展到 " 多机 64GB/32GB 的更多主流国产芯片 "。
3、支持 "FP4+FP8 混合精度 " 到 BF16 的精度转换
DeepSeek-V4 模型采用 FP4+FP8 混合精度训练,但当前所有国内非英伟达 AI 芯片都未能支持 FP4+FP8 混合精度,只有摩尔线程原生支持了 FP8,其余依然以 BF16 为主。
FlagOS 完成了从 FP4 到 BF16 的完整精度转换,将 FP4 量化权重转换为 BF16 格式;FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径;经过标准评测集验证,BF16 版本与 FP4 原生版本在核心能力指标上保持对齐,确保精度转换不引入业务层面的效果损失。
FlagOS 推出了 FP8 和 BF16 两种适配版本,让 DeepSeek-V4-Flash 不再是 " 只有最新英伟达卡才能跑 " 的模型,而是真正可以部署在 FP8 及 BF16 生态的主流国产芯片上。
智源研究院公布的数据显示,经 GPQA_Diamond、AIME 等评测集验证,FlagOS 适配后的 DeepSeek-V4-Flash,在语言理解、复杂推理、代码生成、数学计算等核心能力上,可与 CUDA 原生版本对齐。

DeepSeek-V4-Flash 安装部署指引:
https://github.com/flagos-ai/DeepSeek-V4-FlagOS
04.
结语:DeepSeek-V4 的里程碑时刻
国产顶级大模型 + 国产高端算力深度绑定
万众期待的 " 国产大模型之光 "DeepSeek-V4 正式亮相后,多款国产高端芯片率先完成适配与深度兼容。这也意味着,国产顶级大模型与本土高端算力矩阵实现了全栈深度绑定与协同。
此次华为等国产芯片厂商与 DeepSeek 联合,在技术协同迭代、规模化产业落地、本土生态共建三大维度,都具有里程碑意义。此举有望打破英伟达长期主导的垄断生态,推动国内 AI 国产软硬一体、自主可控产业链发展。



登录后才可以发布评论哦
打开小程序可以发布评论哦