腾讯云张晋:AI下半场拼工程化,智算中心需提升Token生产效率

在 MWC26 上海 " 智能数据中心峰会 " 上，腾讯云运营商解决方案总经理张晋发表主旨演讲，指出智算中心已从传统机房演变为实时生产 Token 的 AI 工厂，Token 成为智算时代关键计量单位。单位能耗与资本投入所能换取的 Token 产出量、响应速度及单位成本，已成为客户核心关切，IDC 从业者需由算力供应商转型为 Token 经营者。

张晋援引研究数据称，国内智算中心 GPU 平均利用率不足 30%。腾讯云提出 " 算力生产力 = 标称算力 × 效能系数 × 满载系数 " 公式，其中效能系数反映单位时间内算力实际发挥程度，均值为 0.6；满载系数体现 GPU 在时间维度上的利用密度，受潮汐效应影响均值为 0.5。二者叠加导致标称算力仅约 30% 转化为有效产出，万亿级投资存在显著空转。

效能瓶颈主因有三：一是网络丢包，0.1% 丢包率可致约 50% 算力衰减；二是显存碎片化，KV Cache 随对话轮次膨胀，造成内存碎片阻塞任务；三是计算气泡，Decode 阶段 GPU 利用率仅 5% – 15%，与高负载的 Prefill 阶段交替出现，形成周期性空闲。腾讯云对应推出三项工程对策：星脉高性能网络实现万卡零丢包与最低通信时延；全栈编译加速引入 Paged Attention 与深度算子融合，提升显存利用率；PD 分离架构在物理或逻辑层面解耦 Prefill 与 Decode，消除流水线气泡。实测显示，在同集群同模型环境下，在线吞吐量提升 90%。

满载损耗源于时间维度的潮汐现象（昼夜峰谷比超 30 倍）与空间维度的资源粒度粗放（单任务独占整卡）。腾讯云采用潮汐调度技术，基于 15 分钟负载预测动态释放 / 回收 GPU 资源，全程对业务透明；通过 qGPU 技术实现 GPU 弹性切分，支持多任务混布，结合 TKE 调度大脑实现训推混布、大小模型混布，消除资源孤岛。高强度推理集群实测满载率提升至 85%，综合利用率翻倍，实际运营 TCO 降低约 50%。

经双重优化，智算中心综合算力生产率可由不足 30% 跃升至 76%，即同等电力与机架资源下，有效 Token 产量提升逾一倍。张晋强调，AI 已进入下半场，竞争焦点转向工程化能力与降本增效，AIDC 全面迈入 Token 工厂精益化生产时代。腾讯云坚持 " 被集成 " 策略，开放全栈优化方案，协同行业释放智能时代新质生产力。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

宙世代

一起剪

相关标签