人工智能已步入发展深水区。记者获悉,当前 AI(人工智能)的发展正从以模型训练为核心的阶段,逐步迈入训练与推理并重,甚至推理占比显著提升的新阶段。
训练是大模型的学习过程,目标是构建或优化模型参数;而推理则是大模型的应用过程,目标是应用已训练好的模型。根据华为公司提供的数据,随着 Agent(智能体)应用的普及,当前推理算力需求已超过训练。GPT-5 开放首周 20 亿次 / 分钟,70% 的请求为复杂任务推理(如代码生成、多步规划);而国内火山引擎的日均 Token(令牌)调用量已达 16.4 万亿,其中 70% 以上来自线上推理而非训练。
然而,尽管推理需求逐步旺盛,但国内 AI 推理能力的发展仍受限于 AI 基础设施基础弱、投资少,以及算力卡阉割、算力卡涨价、HBM(高带宽内存)涨价等一系列因素。
记者获悉,当前金融领域 AI 推理能力的瓶颈开始显现。华为数据存储产品线 AI 存储首席架构师李国杰表示,从银行业来看,核心有三个问题:一是 " 推不动 ",投研分析、舆情分析等场景会涉及到较多的长序列输入,比如一份投研报告更是上兆级别,所以 " 推不动 " 的问题经常出现;二是 " 推得慢 ",核心就是并发上不去,上去之后每 Token 时延特别长;三是 " 推得贵 ",原因是需要耗费大量的算力做 KV(键对值)的重复计算。
8 月 12 日,《每日经济新闻》记者在上海举行的 "2025 金融 AI 推理应用落地与发展论坛 " 上了解到,市场越来越关注模型推理能力的深度优化——让推理过程跑得更快、成本更低、效果更好。如今,通过借助外部存储的 " 以查代算 " 方案,正在为普通企业突破 AI 推理瓶颈提供低成本的破题思路。
" 以查代算 " 为 AI 推理效率与成本找到平衡点
如何让 AI 推理能力围绕 " 成本—性能—效果 " 这个 " 不可能三角 " 进一步演进,成为困扰业界的问题。
《每日经济新闻》记者在论坛上了解到,目前业内已经形成的一种解决方案是 " 以查代算 ",即通过记忆此前已推理过的内容,降低重复推理,从而提高整体的推理效率。不过这种方案尽管降低了对算力的依赖,却对存储提出了更高要求。
此前,行业的推理能力高度依赖显卡的 HBM,其成本让普通企业不堪重负。为了降低对 HBM 的依赖,业界开始探索 DRAM(动态随机存取存储器)、SSD(固态硬盘)等外部存储方案以节省算力和带宽。正如清华大学章明星介绍:"GPU(图形处理器)在算力和带宽两个维度上肯定非常好,但是 DRAM、SSD 等在容量维度上成本很低,如果能够想办法利用容量维度,尽可能地节省对算力和带宽的开销,就可以大幅度降低整体系统的成本。"
记者获悉,业界已经出现了诸多通过优化存储分配来提升推理效率的案例。例如,英伟达推出了 Dynamo 推理方案架构,通过分布式的 KV 缓存管理器,提升上下文、吞吐率等;华为发布了 UCM(推理记忆数据管理器,Unified Cache Manager)推理记忆数据管理器,可以分级管理推理过程中产生的 KV Cache(即 " 记忆数据 ")。
以后者为例,依托 UCM 层级化自适应的全局前缀缓存技术,系统能直接调用 KV 缓存数据,避免重复计算,显著降低首 Token 时延。UCM 还通过分层卸载超长序列 Cache(缓存)至专业存储,并创新算法扩展推理上下文窗口,满足长文本处理需求。同时,UCM 具备智能分级缓存能力,可根据记忆热度在 HBM、DRAM、SSD 等存储介质中实现按需流动,并融合多种稀疏注意力算法,实现存算协同,大幅提高长序列场景下的 TPS(每秒处理 Token 数)。
值得一提的是,在论坛现场,华为宣布其 UCM 将于今年 9 月正式开源,将通过开放统一的南北向接口,适配多类型推理引擎框架、算力及存储系统。此外,英伟达官网显示,前述 Dynamo 其实也是一个开源的模块化推理框架。
金融领域率先获得应用
记者在论坛上获悉,上述 UCM 技术已率先在金融典型场景进行了试点应用。华为数字金融军团 CEO 曹冲介绍,华为和中国银联在客户之声、智慧营销和会议助手等场景,已验证了 UCM 技术的性能表现。
" 金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全。" 曹冲表示,金融场景对 AI 推理效能有着更高的要求。而 UCM 技术之所以选择在金融场景率先试点落地,李国杰解释道:" 金融在 IT 信息化以及其他技术赋能行业的建设中一直走在前列。不管是投资上,还是场景需求上,金融领域都有大量数据掘金的机会。例如把投资数据、财务数据、企业信贷数据等喂给 AI,做数据分析。"
在现场,中国银联智能化创新中心副总经理杨燕明透露了上述方案的应用效果。" 经过一系列优化,我们具备了几个关键能力:一是多轮对话场景中首 Token 的延迟降低了 60%,长序列的场景可以倍数级扩展推理长度,吞吐量达到了 2~5 倍的提升。"
记者了解到,就当前阶段而言,这类调用外部存储介质 " 以查代算 " 的策略,为企业在权衡 AI 推理效率与成本之间提供了一种解决方案。不过,一个更值得深究的问题是,这种路径究竟是基于 HBM 等成本压力下的过渡方案,还是 AI 推理的长期发展趋势?
对此,华为数据存储产品线副总裁、闪存领域总裁谢黎明在接受《每日经济新闻》记者采访时表示:" 大部分数据都有一定的生命周期,会存在热、温、冷三种状态。从这个角度来看,一个分层的存储介质系统是必然的趋势。对于面向推理加速的 KV 数据,也必然存在热、温、冷之分,我们不可能用最昂贵的热介质来存储所有数据。因此,必须采用多层介质来解决性能问题,同时平衡成本问题。"
华为数据存储产品线副总裁樊杰向记者补充道,在 AI 推理过程中,缓存与外置存储分工不同,前者主要解决的是短期记忆,容量有限,但是反应速度很快;后者针对的是 KV Cache 的长期记忆,容量更大,相当于把知识记录下来。他打了个比方:" 人类通过积累,相较于前一代更具智慧,并不是因为人脑变聪明了,而在于人类不停地把知识变成了书籍,后代通过书籍从而站在上一代人的肩膀上继续前行。"
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦