华为盘古 Ultra-MoE-718B-V1.1 正式开源并开放下载

IT 之家 10 月 16 日消息，今年 9 月，华为盘古 718B 大模型凭借不堆数据、专注思考的训练哲学，在 SuperCLUE 榜单中一举冲至开源模型第三，成为业界焦点。

华为官方昨日宣布，openPangu-Ultra-MoE-718B-V1.1 正式在 GitCode 平台开源，模型权重与技术细节全面公开。

硬件要求：Atlas 800T A2 ( 64GB,>=32 卡 ) ，支持裸机或 Docker 部署。

特色功能：通过 / no_think 标记切换快慢思考模式，支持多轮工具调用。

华为官方介绍称，openPangu-Ultra-MoE-718B-V1.1 是基于昇腾 NPU 训练的大规模混合专家（MoE）语言模型，总参数规模达 718B，激活参数量为 39B。该模型在同一架构下融合了 " 快思考 " 与 " 慢思考 " 两种能力，实现更高效、更智能的推理与决策。

在 9 月最新 SuperCLUE 榜单中，openPangu-718B 稳居开源模型总榜第三，在数学推理、科学推理、代码生成等六大核心维度均表现优异。尤其值得关注的是，其幻觉控制项得分高达 81.28，甚至超过部分闭源巨头，凸显出其在输出可靠性上的技术优势。

相比上一版本 openPangu-Ultra-MoE-718B-V1.0，V1.1 在 Agent 工具调用能力上显著增强，幻觉率进一步降低，模型的综合表现与稳定性也全面提升。

华为采用了业界先进的 Multi-head Latent Attention ( MLA ) 、Multi-Token Prediction ( MTP ) 以及高稀疏比混合专家架构，并在此基础上引入多项创新设计，以实现更优的性能与训练效率：

Depth-Scaled Sandwich-Norm 与 TinyInit：通过改进层归一化结构和参数初始化方式，显著提升模型训练的稳定性与收敛速度。

基于 EP-Group 的负载均衡策略：优化负载均衡损失函数，有效增强专家路由的分布均衡性，提升专家特化与协同能力。

本次开源的 V1.1 版本在多个关键维度实现显著提升：

综合能力优化：在 MMLU-Pro、GPQA 等高难度测评中，快慢思考双模式成绩全面超越 V1.0；

幻觉率大幅降低：通过 " 批判内化 " 机制，幻觉率从 V1.0 的 10.11% 降至 3.85%（快思考模式）；

工具调用能力增强：升级 ToolACE 框架，在 Tau-Bench 等多工具协同任务中表现亮眼；

首推 Int8 量化版本：显存占用减少约一半，吞吐提升 20%，精度损失不足 1%。

IT 之家附官方地址：

模型地址：

https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1

Int8 量化版本：

https://gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8

宙世代