工商银行携手华为落地金融行业首个分布式KV Cache多级缓存推理加速技术

摘要：工商银行与华为开展联合创新，成功落地分布式 KV Cache 多级缓存推理加速方案。该方案基于昇腾 +vLLM-Ascend+openYuanrong，构建覆盖 HBM、DRAM 的异构统一内存资源池，并对 H2D/D2H 数据等传输路径进行昇腾硬件亲和优化，实现推理过程中的高效数据调度与缓存管理。基于 GLM-5 模型实测，在持续多轮对话、Agentic AI 长程任务等超长序列推理场景中，分布式多级缓存方案可以实现 Prefill 性能提升 70%+，有效提升用户体验，支撑工商银行规模化业务落地。

随着 DeepResearch、智能代码生成等 Agentic 应用在金融场景中不断落地，大模型正从简单问答走向复杂任务执行。在这一过程中，模型需要处理多轮对话上下文以及多步推理过程，长序列推理能力逐渐成为主流大模型的关键能力。在 Reasoning 与 Agentic 应用的推动下，推理系统不仅需要支持百万级的 Token 处理，还需在实时交互场景中保持极低时延。如何在长上下文理解与低时延推理之间实现高效协同，正成为大模型推理系统的重要演进方向。

作为金融科技创新的引领者，工行构建并持续提升企业级大模型技术体系工银智涌，将大模型技术广泛应用于手机银行、智能客服、理财咨询、风险控制等 500+ 个核心场景。当前 GLM、DeepSeek 等 MoE 大模型在业务场景中已得到广泛应用，表现优异，但随着应用持续深入，长序列任务带来的高成本和时延波动问题逐渐凸显。特别是在多轮对话等复杂场景下，由于 KV 缓存占用显存过高，现有的推理架构在负载均衡、长序列性能损耗以及 Agent 记忆连续性方面，仍存在一定的优化空间。

为提升推理效能，工商银行联合华为，基于昇腾算力底座和华为云 Stack 成功试点多级缓存推理加速方案。该方案基于 openYuanrong 异构存储资源池，统筹管理 HBM、DRAM 空间，应对长序列推理中的 KV 缓存压力；同时利用 vLLM-Ascend PrefixCache 高效调度技术实现异步和分块缓存高效加载。在 GLM 系列模型的推理性能实测中，针对 200K/100K 典型超长序列长度，系统平均 TTFT 降低 70%，吞吐效率提升 40%，充分验证了异构内存管理在解决负载失衡、TTFT 时延高等问题上的有效性。

该加速方案依托昇腾硬件，通过平台层、网络层与硬件层的深度协同，实现昇腾平台的深度适配与优化：

1. 异构数据对象抽象：突破显存读写瓶颈，吞吐性能达14+GB/s

openYuanrong 异构数据对象支持 HBM，并实现 H2D/D2H 高性能传输，RH2D 零拷贝直通传输，单卡批量数据 RH2D 传输吞吐可达 14+GB/s；

2. 高性能分布式异构多级缓存：打破显存墙，释放异构内存聚合效能

统一抽象集群内的 HBM、DRAM 资源，构建异构内存池。通过多级缓存架构，支持数据在不同存储层级间的极速流转（H2D/D2H），缓解显存容量限制。

3. PrefixCache高效调度：模型解耦，分块高效命中

利用 vLLM-Ascend PrefixCache 高效调度技术，针对业务前缀重复高的输入，实现异步和分块缓存高效加载，公共 Attention 组图组件，新模型无需特别适配，有效减少了冗余计算开销。

依托上述能力，工商银行在多轮对话、Agentic AI 长程任务规划场景中实现 Prefill 性能提升 70%+，有效支撑大规模用户交互和复杂任务处理。该技术已完成技术验证并在工行智能体业务场景中试点，后续将在大 EP 等典型推理场景中进一步推广。未来，工商银行将继续联合华为深化技术探索、优化推理底座性能，并结合业务需求，将该能力逐步推广至更多金融场景，实现大模型技术在金融业务的广泛落地与规模化应用。

宙世代

一起剪

相关标签