单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

智东西

作者 | 陈骏达

编辑 | 漠影

在刚刚过去的 7 月份，国产模型迎来一波重磅开源。与以往不同的是，本次国内大模型玩家们开源模型的参数量成倍增长，达到数千亿乃至万亿级别。这不仅显著提升了国产模型的能力上限，也为各行业智能化转型提供了新一代强大的智能基座。

然而，随着模型体量不断攀升，对应的基础设施正面临前所未有的挑战。传统集群架构在通信效率、I/O 性能和系统扩展性等方面逐渐暴露出瓶颈，已难以满足当前开源模型的部署需求。

在这样的背景下，各类 " 超节点 " 方案应运而生。作为面向大模型的新一代基础设施架构，超节点通过在单系统内部集成更多 GPU 资源，并显著优化节点间的通信性能，有效突破了传统架构在大规模分布式计算中的性能瓶颈。

昨日，浪潮信息正式发布了其面向万亿参数大模型的超节点 AI 服务器—— " 元脑 SD200"。得益于浪潮信息自研的多主机低延迟内存语义通信架构，SD200 在单机内集成 64 路加速计算芯片，单机支持 DeepSeek、Qwen、Kimi、GLM 四大国产顶级开源模型同时运行，以及多智能体实时协作与按需调用。

浪潮信息一直是开放计算生态的积极推动者，本次其此次推出的超节点方案采用了 OCM+OAM 的开放架构设计，兼容多款本土 GPU 芯片与大部分主流 AI 框架，目前已率先实现商用。

在国产开源模型奋力追赶智能上限之际，浪潮信息的开放超节点，有望成为承载万亿参数模型的重要底座之一。

一、厂商竞相追逐超节点，开放架构需求凸显

在探讨 " 超节点 " 对行业所带来的深远影响之前，我们有必要先厘清这一技术诞生的背景。

首先，模型规模的持续膨胀正在逼近现有硬件的承载极限。大模型加速迈向万亿参数规模，同时上下文长度不断扩展，直接推高了推理过程中的键值缓存（KV Cache）需求。显存与带宽，正成为压在 AI 基础设施之上的两座大山。

与此同时，随着大模型加速进入千行百业，推理型负载成为主流计算模式，而推理是一种高度通信敏感的计算过程。以 Qwen3-235B 模型为例，若要实现 100 tokens/s 的解码速度，单个 token 需完成多达 188 次的 All-to-All 通信，且每次通信的延迟必须控制在 53 微秒以内。

更不容忽视的是，Agentic AI 的兴起正在进一步拉高对计算系统的需求。具备自主规划、多模态感知与连续执行能力的智能体，在执行任务时生成的 token 数量往往是传统模型的数十倍甚至上百倍，动辄需要处理数十万乃至数百万 token。

算力基础设施面临的上述三大关键挑战，使其走到升级重构的临界点。为了支撑万亿参数级模型的高效运行，构建高度集成、低延迟、高带宽的 Scale-Up（纵向扩展）系统，即通过构建一个更大的高速互连域、形成 " 超节点 "，成为现实的技术选择。

通过构建超低延迟的统一显存空间，Scale-Up 系统能将万亿级模型参数及激增的 KV Cache 整体容纳于单一高速互连域内，保障了多芯片间高效协同执行，显著减少跨节点通信开销，从而大幅提升吞吐速度并降低通信延迟，实现降本增效。

AI 算力需求侧的变化，正驱动供给侧的厂商们争相布局前沿的 Scale Up 方案。2024 年，英伟达在 GTC 大会上提出 SuperPod 的概念；今年，国内厂商的方案更是将超节点引入大众视野。

当前，业界在超节点技术方案的选择上，存在多种路径。在浪潮信息看来，超节点要根据客户应用需求来选择技术路线，要给客户提供更多算力方案的选择，核心策略是 " 开放架构 "。

基于开放架构设计的超节点，能够支持多样化芯片、开放 AI 框架及主流开发工具，在保障高性能、低延迟的同时，实现跨平台的良好兼容与灵活扩展，推动 AI 基础设施真正走向开放、可持续的发展路径。

二、单机运行四大开源模型，全面支持主流框架

昨日，浪潮信息在 2025 开放计算技术大会上正式发布元脑 SD200 超节点 AI 服务器。作为开放计算领域的重要风向标，该大会一向聚焦推动算力基础设施的开放与协同，而 SD200 正是这一理念的典型体现。

SD200 基于 OCM（开放算力模组）与 OAM（开放加速模块）两大架构打造。OCM 标准由中国电子技术标准化研究院发起，浪潮信息、百度等 18 家算力产业上下游企业共同参与编制。

该架构围绕 CPU 和内存进行解耦设计，具备高度模块化与标准化优势，支持系统供电、管理、风扇等组件的独立升级与更换，大幅提升了服务器的灵活性与可维护性。同时，OCM 支持 " 一机多芯 "，可快速适配 Intel、AMD、ARM 等多种计算平台。

OAM 则由开放计算项目（OCP）社区推动，是专为高性能计算与 AI 加速场景设计的开放模块标准。

该架构统一了加速卡的尺寸、电气接口和散热设计，使来自不同厂商的 GPU、NPU 等 AI 加速器可在同一系统中协同运行，并通过高速互联技术实现加速卡之间的低延迟直连，有效满足大模型训练与推理对带宽的极致要求。

浪潮信息将 OCM 与 OAM 架构有机融合，为业界提供了一种开放的超节点技术架构。

不过，光有 " 开放 " 的特性，仍不足以让一款开放超节点方案获得广泛采用，性能同样至关重要。

在开放计算技术大会现场，浪潮信息副总经理赵帅晒出了 SD200 超节点在真实部署环境下实现的性能。在经过软硬件的系统协同优化后，SD200 超节点满机运行 DeepSeek R1 全参模型推理性能提升比为 370%，满机运行 Kimi K2 全参模型推理性能提升比为 170%。

SD200 超节点配备高达 4TB 的显存，能够同时容纳 DeepSeek、Qwen、Kimi、GLM 等多个旗舰级开源模型。赵帅称，这样的显存配置具备前瞻性，不仅可满足当前万亿级模型的部署需求，甚至为未来可能出现的 2 万亿、3 万亿参数模型预留了充足空间。

然而，在打造这一方案时，浪潮信息并未一味追求技术堆叠，而是更注重实际落地的可行性。正如浪潮信息赵帅在发布会后与智东西等媒体交流时所提到的——客户的核心诉求是 " 能否快速部署、快速上业务、上应用 "。

基于这一判断，SD200 在使用便利性上进行了优化设计。例如，采用风冷散热，企业无需改造机房，即可灵活部署；在互连方案上，则选择了更为成熟稳健的全铜电互连，提升了系统稳定性，同时降低了终端用户的运维复杂度和成本。

此外，SD200 超节点还全面兼容当前主流的开源大模型计算框架（如 PyTorch，已支持 2200+ 算子），可实现新模型的无缝迁移与 "Day 0" 上线，为企业构建 AI 应用提供了即开即用的基础平台。

三、软硬协同优化实现性能突破，揭秘开放超节点背后创新

这样一套开放超节点方案背后，是浪潮信息在融合架构和软硬件协同方面长达十余年的深厚积累。

赵帅分享道，自 2010 年起，浪潮信息持续推进融合架构演进，从最初的供电、散热等非 IT 资源的整合，到存储、网络等资源池化，再到最新融合架构 3.0 系统实现了计算、存储、内存、异构加速等核心 IT 资源彻底解耦和池化。

这沉淀下来的芯片共享内存数据、统一编址技术、池化、资源动态调度等技术，在今天的超节点系统中得以延续和应用，显著提升了系统的适配速度与商用效率。

此外，浪潮信息并非单纯的硬件厂商，其在大模型领域同样具备深度布局——早在 2021 年即发布首个中文巨量模型 " 源 1.0"，其参数规模达 2457 亿，并持续在模型训练、推理优化和软硬件协同方面积累经验。这些能力也为 SD200 这样的超节点方案提供了坚实基础。

为突破万亿大模型的带来的显存压力，SD200 超节点基于浪潮信息自主研发的开放总线交换（Open Fabric Switch）技术，首创多主机三维网格系统架构（3D Mesh）。在这一架构下，64 颗本土 GPU 能够以高速、低延迟的方式实现互连。

更进一步，SD200 通过 GPU 虚拟映射等底层创新，解决了多主机环境下统一编址的难题，将显存统一地址空间扩增 8 倍，显存容量达 4TB，配合 64TB 系统内存，为超大模型提供了充足的 KV 缓存资源。

这意味着，不论是在模型训练还是推理过程中，开发者都能像调用单机 GPU 一样，灵活调度整个系统中的算力与显存资源，极大简化了工程复杂度。实测结果表明，在推理过程常见的小数据包通信场景中，全规约（All Reduce）性能表现优异，显著提升计算与通信效率。

在系统层面，浪潮信息围绕万亿参数大模型计算密集、通信敏感的特性，构建起一整套软硬协同优化的系统方案，将 64 卡超节点的算力潜能释放到极致。

一方面，浪潮信息开发了智能总线管理系统，可实现超节点 64 卡全局最优路由的自动创建与管理。该系统不仅支持灵活拓扑切换，还能根据业务负载动态进行资源切分与调度，为不同类型的大模型任务提供定制化的算力编排能力。

针对 All Reduce、All Gather 等典型通信算子的不同数据包规模，系统设计了细粒度、多层级的通信策略，进一步压缩通信路径的延迟。

此外，SD200 还引入了开放的 PD 分离框架，将预填充 - 解码（Prefill-Decoder）环节解耦，支持异步 KV Cache 高效传输，并允许针对不同模型并行需求制定差异化策略，兼顾性能与兼容性。这一设计不仅提升了系统性能，也保障了对多元算力架构的适配能力，加强了计算与通信之间的协同优化。

通过软硬协同系统创新，SD200 成功实现了纵向扩展，帮助本土 AI 芯片突破了性能边界，在大模型场景中展示出优异的性能表现。

结语：开放超节点，带动产业链协同创新

在赵帅的分享中，智东西感受到了浪潮信息对 " 以应用为导向 " 的坚持。作为系统厂商，他们与终端客户的距离更近，也更能体会到实际应用场景的痛点。也因此，赵帅称，超节点架构本质上是系统化思维的产物，它不是某一个点的突破，而是在现有技术、生态和成本约束下，从系统层面去打破芯片本身的性能边界，最大化用户价值。

超节点的发展也为中国本土产业链提供了发展机遇——高速连接器、线缆、板材、电源等上下游产业链厂商，都有望这个过程中找到属于自己的突破点。这不仅能加速成本下降和技术普惠，更推动了智能基础设施的 " 平权化 "。

放眼未来，赵帅认为，AI 数据中心正从 " 机柜级密度革命 " 迈向 " 数据中心级系统工程挑战 "，算力密度将持续攀升，能源供给、冷却方式和系统管理也随之进入全面革新期。

从芯片到架构，从系统到生态，技术演进注定不会是一条单线道路，而是多路径的协同创新。在这场关于未来的集体奔赴中，唯有持续开放、拥抱合作，才能构筑真正普惠、可持续的智能算力基石。

宙世代

一起剪

相关标签