4 月 15 日,由北电数智主办的第二届酒仙桥论坛在京启幕。
《每日经济新闻》记者在现场注意到,会上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民提出,我国 Token(词元)消耗在两年间增长了千倍。
然而,当前的 AI 算力基础设施还无法高效生产 Token;实际 Token 产能受限于系统优化不足,陷入高耗能、低产出的困局。

图片来源:每经记者 杨卉摄
在郑纬民看来,AI 竞赛的核心标准正在从 MaaS(模型即服务)向 TaaS(Token 即服务)跃迁。未来还需推动 Token 服务向标准化、分层化与可调度化转变,按业务目标对产能进行分层定价与调度。不能将所有负载压在最昂贵的 GPU(图形处理器)资源上,需将大模型参数合理分配至不同的计算资源上,实现计算、缓存、状态保存与数据搬运的职能分离与各归其位,将可用计算资源池大幅扩大,将异构设备都用起来,通过优化底层架构来实现智能服务的高效、低成本生产。
" 当前 AI 算力基础设施无法高效生产词元 "
郑纬民提到,前几年大家还都在做大模型,去年开始,风口转到了 Token。Token 究竟是什么?
郑纬民解释称,Token 介于硬件与应用之间,是 AI 处理信息的最小语义单元。如 " 人工智能很强大 " 这句话,会被分成 " 人工 "" 智能 "" 很 "" 强大 " 四个 Token。
" 你和 AI 的每一句输入对话、AI 生成的每一段输出内容,都用 Token 来计量信息的处理量。" 郑纬民称。此外,Token 还是计算量的映射,是 AI 运行时算力消耗的基本计量单位,更是 AI 运行的计价单位。
郑纬民称,Token 越来越重要的背后,是 AI 使用方式发生变化的事实。
据他介绍,在生成式 AI 时代,计算的消耗主要用于输入、输出式的单词请求。到了智能体时代,智能体需要自行围绕目标持续执行链路,实际消耗的 Token 数量远超预期,甚至达到 "100 倍 " 级别的膨胀。郑纬民还强调,一旦未来新的智能水平出现,Token 的消耗还可能会达到新的水平。
郑纬民称,我国 Token 消耗已经从 2024 年的日均千亿涨到了如今的 140 万亿 Token/ 天,两年增长了千倍。然而,随着 Token 消耗大增,新的问题开始出现:当前的 AI 算力基础设施还无法高效生产 Token;基础设施主要服务于大模型训练,而非实际应用中的持续性服务;实际 Token 产能受限于系统优化不足,陷入高耗能、低产出的困局。
在郑纬民看来,单纯将开源模型和开源推理框架做静态堆叠,缺乏物理硬件层面的深度优化与系统级调度,昂贵算力就会在链路中的各类瓶颈处,如批处理与并发策略失衡、跨节点通信与调度不协调、显存与系统内存配置不匹配等被持续损耗。
按业务目标对产能进行分层定价与调度
郑纬民进一步指出,MaaS(模型即服务)一直是产业链的重要一环。但随着 AI 进入规模化执行后,单纯的模型接入已不足以支撑高效能供给。这意味着未来 AI 竞赛的核心标准正在从 MaaS(模型即服务)向 TaaS(Token 即服务)跃迁;从 " 比拼算力集群规模 " 彻底转向 " 比拼每瓦 Token 生产效率 "。
在郑纬民的设想里,未来 TaaS 作为 Agent 时代生产智能的新型工业级服务体系,既能为产业释放创新活力、为全国一体化算力网盘活存量资源,更能推动高质量智能服务普惠可及,让智能生成像水电一样稳定调度与供给,真正开启普惠智能时代。
需要注意的是,据郑纬民介绍,当前的 Token 服务其实是多样的,有适用于实时交互、自动驾驶等对延迟敏感场景的极低时延型;有支持长上下文处理,适用于复杂 Agent 推理、多轮对话等场景的均衡通用型;还有大规模离线处理,适用于数据清洗、研报生成、模型微调等批量任务的高吞吐低成本型。未来,Token 服务还需实现标准化、分层化与可调度化,将大模型参数合理分配至不同的计算资源上,以降低成本并提高性能。郑纬民强调,按业务目标对产能进行分层定价与调度,是 Token 服务走向基础设施的前提。
谈到调度,郑纬民还进一步指出,要实现全系统的 " 异构协同 ",就不能将所有负载压在最昂贵的 GPU 资源上,需实现计算、缓存、状态保存与数据搬运的职能分离与各归其位,将可用计算资源池大幅扩大,将异构设备都用起来。
" 过去,我们建设模型;今天,我们要建设智能供给体系。从模型服务走向 Token 服务,是 Agent 时代对基础设施的必然要求。只有当智能生成像水电一样,被稳定调度与供给算力之上、Token 为王的普惠智能时代才算真正到来。" 郑纬民称。
每日经济新闻


登录后才可以发布评论哦
打开小程序可以发布评论哦