新突破！国产算力成功完成万亿级大模型全参数训练

快科技 6 月 9 日消息，据媒体报道，日前，深圳河套学院 AI 训练平台项目团队联合哈尔滨工业大学（深圳）、深圳市大数据研究院、华为 GTS（全球技术服务）等多家单位，围绕国产算力大模型训练开展联合攻关。

仅用一个月时间，项目团队便基于昇腾 910C 国产算力集群，成功实现 DeepSeek-V4-Pro 的全参数续训练与 SFT（监督微调）稳定运行。训练累计完成超过 1500 步，模型训练 MFU（模型算力利用率）超过 30%，关键训练算子效率提升约 14%。

这是业界首次由第三方机构基于国产算力集群完成的 DeepSeek-V4-Pro 全参数后训练工程实践，标志着国产 AI 基础设施正从推理部署和轻量化微调迈向超大模型的全参数后训练新阶段。

DeepSeek-V4-Pro 是一款拥有 1.6 万亿参数的 MoE（混合专家）开源旗舰模型，采用了 CSA+HCA 混合稀疏注意力、mHC 连接等创新机制。相比上一代 DeepSeek-V3/R1，它对国产训练框架提出了全方位的 " 极限挑战 "。

经过联合攻关，项目已在千卡级昇腾 910C 国产算力集群上实现了 DeepSeek-V4-Pro 全参数后训练的稳定运行。

模型迭代超过 1500 步，全程无迭代跳过或 NaN 异常。关键训练算子效率较初始版本提升约 14%，最终 MFU 稳定达到 34.9%，单步训练时间稳定在 27 秒。团队同步打通了 DeepSeek ‑ V4 ‑ Flash 的全参数续训练与 SFT 完整链路。

本次成果并非单次演示，而是具备可复现、可工程化交付的万亿级 MoE 模型国产算力稳定训练能力。项目已完成工业级自动化运筹建模场景的闭环验证，证明国产算力能够在短周期、低成本下完成行业大模型的专项增强训练。

技术层面，项目实现了三大突破：一是成功构建了覆盖权重、梯度、激活、优化器状态的分布式承载方案，实现数据并行、张量并行、流水并行与专家并行的协同工作；二是优化了 MoE 路由与稀疏注意力算子，建立了专家负载均衡机制，有效缓解通信拥堵与负载失衡；三是构建了全指标可视化的长稳监控体系，在多日连续训练中未出现一次 Loss 失控或 NaN 值。

在能力验证环节，项目设计了一项 " 硬核 " 实验——增强大模型的数学建模能力。团队搭建了一条 SFT 建模数据生产工作流，产出 3000 条高质量数学建模任务 SFT 样本，覆盖 4 类目标任务与 3 种问题形态。

训练结果显示：模型 LM Loss 收敛至 0.2056，MTP 1 Loss 收敛至 0.2538，梯度曲线平稳。Benchmark 评测表明，模型四项核心指标全面提升，其中 ORGEval WL 提升超过 5 个百分点，复杂推理与建模能力显著增强。

宙世代

一起剪

相关标签