华为云推出柔性智算FlexNPU 有效降低Token成本

快科技 3 月 22 日消息，据媒体报道，华为云在中小企业 AI 解决方案发布会上推出了一项算力黑科技——柔性智算操作系统 FlexNPU，将 Token 消耗这一 " 吞金兽 " 有效控制在企业预算范围内，打造面向 Agentic 时代的极致 Token 性价比，为企业级智能体的普及突破算力瓶颈。

据介绍，在 AI 基础设施层，华为云提供昇腾多代系产品及自研的 AI Infra OS，其中 FlexNPU 柔性智算技术既能满足中小企业小模型训练场景的需求，又可通过弹性调度大幅提升资源利用率。

在模型服务层，华为云支持业界主流开源模型，让企业既可灵活选择适配业务需求的模型，也能结合自有数据低成本微调专属模型。

在智能体平台层，华为云提供易用高效的 Agent 开发环境，助力开发者和中小企业面向行业场景打造企业级智能体。在智能体应用层，华为云联合伙伴深入洞察分析、营销运营、协同办公、开发运维、内容制作等高频应用场景。

" 我们的推理池平均利用率竟然不足 30%，花费重金建设、动辄数万、数十万卡的 AI 硬件算力池，竟有超过一半以上的算力在‘摸鱼、吃空饷’。" 华为云首席架构师、华为公司 Fellow 顾炯炯在现场抛出了一组惊人数据。

他指出，Agent 时代企业普遍面临算力痛点：Agent 自主规划、多轮迭代、长上下文导致 Token 消耗量呈指数级增长，如何有效降低 Token 成本，已成为最核心和迫切的挑战。

为此，华为云发布了柔性智算 FlexNPU，通过构筑强大而灵活的 AI Infra 层算力调度技术，大幅提升推理池的有效算力利用率，从而以相同的 AI 硬件算力投入，提供更大的 Token 吞吐输出。

顾炯炯用 " 可大可小、变化随心 " 的如意金箍棒来形容 FlexNPU，表示 FlexNPU 赋予 NPU 或 GPU 算力 " 柔性或液态化 " 供给与伸缩的能力，可依据任意业务需求动态变化、随需而动，通过最大化 AI 算力投入的利用率，最终实现 Token 性价比的最优化。

具体而言，柔性智算 FlexNPU 具备极致共享、极致弹性和极致高可用三大属性。在大模型推理方面，FlexNPU 通过引入基于柔性算力的 PD 动态混部、在离线推理混部等创新技术，解决了传统 PD 分离架构下 Prefill 和 Decode 集群不均衡的 AI Core 与显存利用率，以及推理业务潮汐变化规律所导致的大量 AI 算力空转浪费问题，带来至少 40% 的 Token 性价比提升。

在小模型推理方面，FlexNPU 通过实现最小粒度达 1% NPU 卡及 128MB 显存的 AI Core 时分复用与显存空分复用，为小模型提供完美匹配其算力诉求、量体裁衣的虚拟 NPU 资源，将小模型的平均算力成本降低 2 至 3 倍以上。

在推理高可用保障方面，FlexNPU 通过软硬解耦及 Token 级 KV Cache 的实时快照，使上层推理框架无需感知底层硬件故障，即可实现故障秒级快速恢复及断点续推，大幅减少 Agent 推理会话的重计算开销，提升用户推理体验。

宙世代

一起剪

相关标签