浪潮信息刷新AI推理天花板！智能体产业化竞赛给出高分答卷，8.9毫秒Token生成速度、1元/百万Token

智东西

作者 | 程茜

编辑 | 漠影

智东西 9 月 29 日报道，在 9 月 26 日的 2025 人工智能计算大会上，浪潮信息连破两项纪录，让智能体产业化门槛一降再降！

一个是国内大模型最快 Token 生成速度：基于元脑 SD200 超节点 AI 服务器，DeepSeek R1 大模型 Token 生成速度仅需 8.9 毫秒；另一个是百万 Token 成本首次击破 1 元，基于其最新发布的元脑 HC1000 超扩展 AI 服务器。

而这两大突破的价值，正契合智能体商业化产业化落地的本质逻辑——

如今，具备自主学习、决策与执行能力、能独立完成复杂任务的智能体，已成为大模型规模化落地的核心载体，其产业化比拼的正是三大核心能力：场景适配能力、交互速度、成本控制。

模型能力能否精准匹配行业真实需求、交互速度是否满足实时场景要求、Token 成本能否支撑盈利闭环，最终实现从技术可用到商业可持续的跨越，成为智能体产业化的关键桎梏。

在这背后，算力体系的革新至关重要。当前 GPU 主导的计算模式与通用架构面临挑战，正逐渐在能效比和成本效益上触及瓶颈，因此业界亟需重新审视并设计 AI 计算系统，发展 AI 专用架构以突破瓶颈。

浪潮信息通过软硬件协同设计与深度优化，已经在持续推动 AI 计算架构的创新与突破上拿出了阶段性重磅成果。

一、直面智能体产业化落地挑战！浪潮信息发力底层架构革新之路

最近爆火的智能体将生成式 AI 的应用潜力推至新的高度，从为用户提供 AI 工具和助手，到多智能体协同创造价值的未来图景正在缓慢展开。

一方面，从语言到图像、音视频、3D 各类模型连番刷新性能天花板，模型参数从百亿、千亿向万亿飙升，海量数据、后训练阶段算力投入的综合作用下，AI 展现出通过学习人类知识具备泛化智能的 " 涌现 " 能力。

这正是智能体诞生的基础，其可以根据需求、用户预设的目标学习人类知识主动决策、规划、执行，甚至实现自主迭代进化。

另一方面 DeepSeek 通过算法创新降低大模型门槛，开源生态繁荣，为智能体生态繁荣奠定了基础。

这一趋势下，智能体产业化的三大核心要素被清晰推至台前：模型能力决定智能体应用上限、交互速度决定智能体产业化价值、Token 成本决定智能体盈利能力。

具体来看，模型能力决定了智能体在具体场景中能解决什么问题、解决到什么程度：首先综合性能可以对标甚至超过闭源模型的开源模型是重要支撑；其次具体到不同场景，每个模型推理、交互、垂直领域知识精准度，决定其能否做到在不同场景可用。

交互速度决定智能体解决问题的速度：不同于此前用户与聊天机器人的交互场景，用户对时延的感知并不敏感，最初 GPT-3.5 每秒生成速度仅为 40 个 token，彼时已经可以满足用户的阅读体验，但这放到智能体交互层面远远不够。

智能体在金融等对时延要求较高的领域，往往需要其响应速度降至毫秒级别，也就是说，即使模型能力再强，慢响应也会让其失去实用价值。

最后是成本，Token 成本决定智能体盈利能力，Token 成本直接对应企业的算力消耗成本，成本与定价差额决定智能体毛利率，若 Token 成本过高，企业也会陷入卖得越多、亏得越多的困境。

然而当下推理模型的思考过程会产生成千上万个 Token，智能体在执行复杂任务的中间环节也会产生大量中间文本 Token。根据 Reddit 的数据，当前使用 AI 辅助编程的开发者平均每月会消耗 1 千万到 5 亿 Token，相比一年前暴涨 50 倍，目前企业部署一个智能体平均每月的 Token 成本大概是 1000 到 5000 美元。主流模型的 Token 成本居高不下，这对于其产业化是不小的瓶颈。

因此，随着大模型参数规模扩大、应用场景复杂化，单纯依靠堆算力、堆成本的粗放模式，已难以平衡智能体的性能、速度与盈利需求，从计算架构层面实现技术突破成为适配三大要素、推动智能体产业化落地的最优路径，这也是浪潮信息在布局的方向。

二、从速度到成本双重突破，树 AI 服务器性能与成本新标杆

在这样的产业背景下，浪潮信息作为全球算力基建核心供应商，其此次连破两个国内纪录的硬件产品，就是最好的例证。

首先是浪潮信息元脑 SD200 超节点 AI 服务器，在此之上 DeepSeek R1 的 Token 生成速度只需 8.9 毫秒，既实现国内大模型最快 Token 生成速度，也标志国产 AI 服务器 Token 生成速度迈入 10 毫秒时代。

基于其独创的多主机 3D Mesh 系统架构，该服务器单机实现了 64 路本土 AI 芯片的高速统一互连，单机可承载 4 万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用。

生成速度极致压缩的背后，SD200 还实现了极低通信延迟、整机高可靠性设计、超线性扩展的推理性能。

SD200 达到业界最低通信延迟为 0.69 微秒，其采用极致精简的协议栈，包括物理层、数据链路层、事务层 3 层，原生支持 Load/Store 等 " 内存语义 "，基础通信延迟达到百纳秒级，同时 Open Fabric 原生支持由硬件逻辑实现的链路层重传，采用分布式、预防式的流控机制，从而实现稳定可靠通信。

为了保证整机高可靠适应超节点的大规模商业化应用，其系统硬件层面通过全铜缆电互连、短距紧耦合传输，实现每十亿小时故障率是传统光模块互连方案的 1/100，基础软件层通过创新 GPU 故障信息转储、跨域故障关联定位等关键技术，实现全方位故障可观测、全自动故障隔离、极速故障恢复，业务软件层通过构建业务故障预测模型实现推理响应不中断。

SD200 还通过面向超节点创新优化的通信库、PD 分离策略、动态负载均衡等技术，将通信耗时控制在 10% 以内，实现了 Deepseek R1 671B 最高 16.3 倍的超线性扩展率。

与此同时，为了进一步提升 SD200 的易用性，浪潮信息使其兼容 CUDA 生态，对 PyTorch 算子全覆盖，一键迁移典型应用等。

此外，基于多元开放的超节点计算平台、异构融合的软件栈，浪潮信息还将与生态合作伙伴共同构建全场景智能体应用，共同塑造超节点智算应用 " 北京方案 "。

其次是元脑 HC1000 超扩展 AI 服务器，推理成本首次击破 1 元 / 每百万 Token。

浪潮信息首席 AI 战略官刘军透露，全面优化降本和软硬协同增效是 HC1000 实现百万 Token 1 元成本高效生产力的关键路径。其核心是浪潮信息创新设计的 DirectCom 极速架构以及全对称系统拓扑设计。

DirectCom 架构每计算模组配置 16 颗 AIPU，实现单卡成本降低 60% 以上，每卡分摊系统成本降低 50%，其采用直达通信设计、计算通信 1:1 均衡配比，实现全局无阻塞通信；全对称系统拓扑设计支持灵活的 PD 分离、AF 分离方案，最大化资源利用率。

HC1000 还支持超大规模无损扩展，实现从 1024 卡到 52 万卡的不同规模系统构建，计算侧通过 DirectCom 和智能保序机制，网络侧支持包喷洒动态路由，深度算网协同实现推理性能相比传统 RoCE 提升 1.75 倍。

这两大硬件一方面拉高交互速度保障实时场景响应效率；另一方面推动 Token 成本持续触底，为智能体规模化落地提供关键硬件支撑。

三、浪潮信息的算力前瞻逻辑：跟随应用、算法发展布局

当我们剖析浪潮信息两大硬件背后的黑科技会发现，其核心底座是底层基础设施在系统架构、互联协议、软件框架等关键点上进行的协同创新。

智能体产业化已成为行业共识，全球知名市研机构 IDC 的报告预测，中国企业级智能体应用市场规模在 2028 年保守估计将超过 270 亿美元。

然而当前以 GPU 为核心的计算模式与通用计算架构正面临严峻挑战。

一方面，通用计算架构的优势在于其广泛的场景兼容性，但其痛点是为适配多元需求而预留的冗余设计，往往导致特定场景下算力效率难以突破；另一方面，专用架构聚焦单一领域的性能极致优化，像为 AI 训练量身打造的等，受限于应用场景的狭窄性，难以形成跨领域的生态规模。

综合来看，计算产业的每一次跨越式发展，本质上都是在通用架构的普适性与专用架构的高效性之间寻找动态平衡，使其在场景需求、技术迭代等方面实现互补，契合当下的产业发展需求。

因此，这一时间节点，随着 AI 计算需求呈指数级增长，行业亟需全面转向效率导向，重新审视并重构 AI 计算系统。

我们可以从浪潮信息的布局中，观察到其对计算架构底层创新的诸多思考。

刘军透露，他们追求计算架构创新的原则是跟随应用和算法发展的方向，以应用为导向、以系统为核心，才是进行计算架构创新的有效路径。

具体来看，此次浪潮信息的 SD200 和 HC1000 针对的是两个典型场景。

SD200 面向对延迟要求敏感的商业场景，HC1000 面向的是云计算、互联网、大规模 AI 服务提供商，这些企业需要为客户的智能体应用提供成本更优的计算基础设施。

今年智能体刚刚起步，面向未来，其产业化落地必然会助推 AI 算力持续高速增长，仍有三大挑战并存。

首先是系统规模扩展接近工程极限，智能体对多模态交互、实时推理的需求，推动算力集群向更大规模、更高互联效率演进，但硬件与网络的物理限制日益凸显；

其次是算力大规模增长对电力基础设施带来挑战，智能体的高并发交互带来算力功耗的指数级增长，单个智算中心的电力需求已达数吉瓦级别；

最后是算力投入和产出失衡，商业兑现进程缓慢，智能体产业化仍处于高投入、低回报阶段，其面临 GPU 利用率低、尚未形成成熟盈利模式等困境。

这也进一步印证了，效率导向的重要性。刘军补充说，智能体时代加速发展，从人机交互到机机交互，都意味着思考问题的角度要随之变化。当下应从规模导向转向效率导向，采用算法硬件化的专用计算架构，探索开发大模型芯片，实现软硬件深度优化，是未来的发展方向。

结语：大模型重塑 AI 生态，算力革命紧随其后

大模型发展日新月异，从唯参数论到应用落地，推理需求增长、智能体出现等，其对底层算力玩家提出的需求也在发生变化。

因此企业在应对 AI 算力挑战时，不能仅停留在解决当下的性能瓶颈与资源紧张等表层痛点，更需穿透问题表象，深挖制约算力效率提升与规模化应用的核心桎梏，在此基础上，浪潮信息通过前瞻性视角布局技术与架构创新，为未来 AI 规模化落地筑牢技术根基。

宙世代

一起剪

相关标签