DoNews 8小时前
腾讯云张晋:AI下半场拼工程化,智算中心需提升Token生产效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在 MWC26 上海 " 智能数据中心峰会 " 上,腾讯云运营商解决方案总经理张晋发表主旨演讲,指出智算中心已从传统机房演变为实时生产 Token 的 AI 工厂,Token 成为智算时代关键计量单位。单位能耗与资本投入所能换取的 Token 产出量、响应速度及单位成本,已成为客户核心关切,IDC 从业者需由算力供应商转型为 Token 经营者。

张晋援引研究数据称,国内智算中心 GPU 平均利用率不足 30%。腾讯云提出 " 算力生产力 = 标称算力 × 效能系数 × 满载系数 " 公式,其中效能系数反映单位时间内算力实际发挥程度,均值为 0.6;满载系数体现 GPU 在时间维度上的利用密度,受潮汐效应影响均值为 0.5。二者叠加导致标称算力仅约 30% 转化为有效产出,万亿级投资存在显著空转。

效能瓶颈主因有三:一是网络丢包,0.1% 丢包率可致约 50% 算力衰减;二是显存碎片化,KV Cache 随对话轮次膨胀,造成内存碎片阻塞任务;三是计算气泡,Decode 阶段 GPU 利用率仅 5% – 15%,与高负载的 Prefill 阶段交替出现,形成周期性空闲。腾讯云对应推出三项工程对策:星脉高性能网络实现万卡零丢包与最低通信时延;全栈编译加速引入 Paged Attention 与深度算子融合,提升显存利用率;PD 分离架构在物理或逻辑层面解耦 Prefill 与 Decode,消除流水线气泡。实测显示,在同集群同模型环境下,在线吞吐量提升 90%。

满载损耗源于时间维度的潮汐现象(昼夜峰谷比超 30 倍)与空间维度的资源粒度粗放(单任务独占整卡)。腾讯云采用潮汐调度技术,基于 15 分钟负载预测动态释放 / 回收 GPU 资源,全程对业务透明;通过 qGPU 技术实现 GPU 弹性切分,支持多任务混布,结合 TKE 调度大脑实现训推混布、大小模型混布,消除资源孤岛。高强度推理集群实测满载率提升至 85%,综合利用率翻倍,实际运营 TCO 降低约 50%。

经双重优化,智算中心综合算力生产率可由不足 30% 跃升至 76%,即同等电力与机架资源下,有效 Token 产量提升逾一倍。张晋强调,AI 已进入下半场,竞争焦点转向工程化能力与降本增效,AIDC 全面迈入 Token 工厂精益化生产时代。腾讯云坚持 " 被集成 " 策略,开放全栈优化方案,协同行业释放智能时代新质生产力。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯云 张晋 ai gpu 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论