手机之家 05-19
工商银行携手华为落地金融行业首个分布式KV Cache多级缓存推理加速技术
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

摘要:工商银行与华为开展联合创新,成功落地分布式 KV Cache 多级缓存推理加速方案。该方案基于昇腾 +vLLM-Ascend+openYuanrong,构建覆盖 HBM、DRAM 的异构统一内存资源池,并对 H2D/D2H 数据等传输路径进行昇腾硬件亲和优化,实现推理过程中的高效数据调度与缓存管理。基于 GLM-5 模型实测,在持续多轮对话、Agentic AI 长程任务等超长序列推理场景中,分布式多级缓存方案可以实现 Prefill 性能提升 70%+,有效提升用户体验,支撑工商银行规模化业务落地。

随着 DeepResearch、智能代码生成等 Agentic 应用在金融场景中不断落地,大模型正从简单问答走向复杂任务执行。在这一过程中,模型需要处理多轮对话上下文以及多步推理过程,长序列推理能力逐渐成为主流大模型的关键能力。在 Reasoning 与 Agentic 应用的推动下,推理系统不仅需要支持百万级的 Token 处理,还需在实时交互场景中保持极低时延。如何在长上下文理解与低时延推理之间实现高效协同,正成为大模型推理系统的重要演进方向。

作为金融科技创新的引领者,工行构建并持续提升企业级大模型技术体系工银智涌,将大模型技术广泛应用于手机银行、智能客服、理财咨询、风险控制等 500+ 个核心场景。当前 GLM、DeepSeek 等 MoE 大模型在业务场景中已得到广泛应用,表现优异,但随着应用持续深入,长序列任务带来的高成本和时延波动问题逐渐凸显。特别是在多轮对话等复杂场景下,由于 KV 缓存占用显存过高,现有的推理架构在负载均衡、长序列性能损耗以及 Agent 记忆连续性方面,仍存在一定的优化空间。

为提升推理效能,工商银行联合华为,基于昇腾算力底座和华为云 Stack 成功试点多级缓存推理加速方案。该方案基于 openYuanrong 异构存储资源池,统筹管理 HBM、DRAM 空间,应对长序列推理中的 KV 缓存压力;同时利用 vLLM-Ascend PrefixCache 高效调度技术实现异步和分块缓存高效加载。在 GLM 系列模型的推理性能实测中,针对 200K/100K 典型超长序列长度,系统平均 TTFT 降低 70%,吞吐效率提升 40%,充分验证了异构内存管理在解决负载失衡、TTFT 时延高等问题上的有效性。

该加速方案依托昇腾硬件,通过平台层、网络层与硬件层的深度协同,实现昇腾平台的深度适配与优化:

1. 异构数据对象抽象:突破显存读写瓶颈,吞吐性能达14+GB/s

openYuanrong 异构数据对象支持 HBM,并实现 H2D/D2H 高性能传输,RH2D 零拷贝直通传输,单卡批量数据 RH2D 传输吞吐可达 14+GB/s;

2. 高性能分布式异构多级缓存:打破显存墙,释放异构内存聚合效能

统一抽象集群内的 HBM、DRAM 资源,构建异构内存池。通过多级缓存架构,支持数据在不同存储层级间的极速流转(H2D/D2H),缓解显存容量限制。

3. PrefixCache高效调度:模型解耦,分块高效命中

利用 vLLM-Ascend PrefixCache 高效调度技术,针对业务前缀重复高的输入,实现异步和分块缓存高效加载,公共 Attention 组图组件,新模型无需特别适配,有效减少了冗余计算开销。

依托上述能力,工商银行在多轮对话、Agentic AI 长程任务规划场景中实现 Prefill 性能提升 70%+,有效支撑大规模用户交互和复杂任务处理。该技术已完成技术验证并在工行智能体业务场景中试点,后续将在大 EP 等典型推理场景中进一步推广。未来,工商银行将继续联合华为深化技术探索、优化推理底座性能,并结合业务需求,将该能力逐步推广至更多金融场景,实现大模型技术在金融业务的广泛落地与规模化应用。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

工商银行 华为 理财 用户体验 统筹
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论