摘要:工商银行与华为开展联合创新,成功落地分布式 KV Cache 多级缓存推理加速方案。该方案基于昇腾 +vLLM-Ascend+openYuanrong,构建覆盖 HBM、DRAM 的异构统一内存资源池,并对 H2D/D2H 数据等传输路径进行昇腾硬件亲和优化,实现推理过程中的高效数据调度与缓存管理。基于 GLM-5 模型实测,在持续多轮对话、Agentic AI 长程任务等超长序列推理场景中,分布式多级缓存方案可以实现 Prefill 性能提升 70%+,有效提升用户体验,支撑工商银行规模化业务落地。

作为金融科技创新的引领者,工行构建并持续提升企业级大模型技术体系工银智涌,将大模型技术广泛应用于手机银行、智能客服、理财咨询、风险控制等 500+ 个核心场景。当前 GLM、DeepSeek 等 MoE 大模型在业务场景中已得到广泛应用,表现优异,但随着应用持续深入,长序列任务带来的高成本和时延波动问题逐渐凸显。特别是在多轮对话等复杂场景下,由于 KV 缓存占用显存过高,现有的推理架构在负载均衡、长序列性能损耗以及 Agent 记忆连续性方面,仍存在一定的优化空间。
为提升推理效能,工商银行联合华为,基于昇腾算力底座和华为云 Stack 成功试点多级缓存推理加速方案。该方案基于 openYuanrong 异构存储资源池,统筹管理 HBM、DRAM 空间,应对长序列推理中的 KV 缓存压力;同时利用 vLLM-Ascend PrefixCache 高效调度技术实现异步和分块缓存高效加载。在 GLM 系列模型的推理性能实测中,针对 200K/100K 典型超长序列长度,系统平均 TTFT 降低 70%,吞吐效率提升 40%,充分验证了异构内存管理在解决负载失衡、TTFT 时延高等问题上的有效性。
该加速方案依托昇腾硬件,通过平台层、网络层与硬件层的深度协同,实现昇腾平台的深度适配与优化:
1. 异构数据对象抽象:突破显存读写瓶颈,吞吐性能达14+GB/s
openYuanrong 异构数据对象支持 HBM,并实现 H2D/D2H 高性能传输,RH2D 零拷贝直通传输,单卡批量数据 RH2D 传输吞吐可达 14+GB/s;
2. 高性能分布式异构多级缓存:打破显存墙,释放异构内存聚合效能
统一抽象集群内的 HBM、DRAM 资源,构建异构内存池。通过多级缓存架构,支持数据在不同存储层级间的极速流转(H2D/D2H),缓解显存容量限制。
3. PrefixCache高效调度:模型解耦,分块高效命中
利用 vLLM-Ascend PrefixCache 高效调度技术,针对业务前缀重复高的输入,实现异步和分块缓存高效加载,公共 Attention 组图组件,新模型无需特别适配,有效减少了冗余计算开销。
依托上述能力,工商银行在多轮对话、Agentic AI 长程任务规划场景中实现 Prefill 性能提升 70%+,有效支撑大规模用户交互和复杂任务处理。该技术已完成技术验证并在工行智能体业务场景中试点,后续将在大 EP 等典型推理场景中进一步推广。未来,工商银行将继续联合华为深化技术探索、优化推理底座性能,并结合业务需求,将该能力逐步推广至更多金融场景,实现大模型技术在金融业务的广泛落地与规模化应用。


登录后才可以发布评论哦
打开小程序可以发布评论哦