中国工程院院士郑纬民：从模型服务走向词元服务，是智能体时代对基础设施的必然要求

4 月 15 日，由北电数智主办的第二届酒仙桥论坛在京启幕。

《每日经济新闻》记者在现场注意到，会上，中国工程院院士、清华大学计算机科学与技术系教授郑纬民提出，我国 Token（词元）消耗在两年间增长了千倍。

然而，当前的 AI 算力基础设施还无法高效生产 Token；实际 Token 产能受限于系统优化不足，陷入高耗能、低产出的困局。

图片来源：每经记者杨卉摄

在郑纬民看来，AI 竞赛的核心标准正在从 MaaS（模型即服务）向 TaaS（Token 即服务）跃迁。未来还需推动 Token 服务向标准化、分层化与可调度化转变，按业务目标对产能进行分层定价与调度。不能将所有负载压在最昂贵的 GPU（图形处理器）资源上，需将大模型参数合理分配至不同的计算资源上，实现计算、缓存、状态保存与数据搬运的职能分离与各归其位，将可用计算资源池大幅扩大，将异构设备都用起来，通过优化底层架构来实现智能服务的高效、低成本生产。

" 当前 AI 算力基础设施无法高效生产词元 "

郑纬民提到，前几年大家还都在做大模型，去年开始，风口转到了 Token。Token 究竟是什么？

郑纬民解释称，Token 介于硬件与应用之间，是 AI 处理信息的最小语义单元。如 " 人工智能很强大 " 这句话，会被分成 " 人工 "" 智能 "" 很 "" 强大 " 四个 Token。

" 你和 AI 的每一句输入对话、AI 生成的每一段输出内容，都用 Token 来计量信息的处理量。" 郑纬民称。此外，Token 还是计算量的映射，是 AI 运行时算力消耗的基本计量单位，更是 AI 运行的计价单位。

郑纬民称，Token 越来越重要的背后，是 AI 使用方式发生变化的事实。

据他介绍，在生成式 AI 时代，计算的消耗主要用于输入、输出式的单词请求。到了智能体时代，智能体需要自行围绕目标持续执行链路，实际消耗的 Token 数量远超预期‌，甚至达到 "100 倍 " 级别的膨胀。郑纬民还强调，一旦未来新的智能水平出现，Token 的消耗还可能会达到新的水平。

郑纬民称，我国 Token 消耗已经从 2024 年的日均千亿涨到了如今的 140 万亿 Token/ 天，两年增长了千倍。然而，随着 Token 消耗大增，新的问题开始出现：当前的 AI 算力基础设施还无法高效生产 Token；基础设施主要服务于大模型训练，而非实际应用中的持续性服务；实际 Token 产能受限于系统优化不足，陷入高耗能、低产出的困局。

在郑纬民看来，单纯将开源模型和开源推理框架做静态堆叠，缺乏物理硬件层面的深度优化与系统级调度，昂贵算力就会在链路中的各类瓶颈处，如批处理与并发策略失衡、跨节点通信与调度不协调、显存与系统内存配置不匹配等被持续损耗。

按业务目标对产能进行分层定价与调度

郑纬民进一步指出，MaaS（模型即服务）一直是产业链的重要一环。但随着 AI 进入规模化执行后，单纯的模型接入已不足以支撑高效能供给。这意味着未来 AI 竞赛的核心标准正在从 MaaS（模型即服务）向 TaaS（Token 即服务）跃迁；从 " 比拼算力集群规模 " 彻底转向 " 比拼每瓦 Token 生产效率 "。

在郑纬民的设想里，未来 TaaS 作为 Agent 时代生产智能的新型工业级服务体系，既能为产业释放创新活力、为全国一体化算力网盘活存量资源，更能推动高质量智能服务普惠可及，让智能生成像水电一样稳定调度与供给，真正开启普惠智能时代。

需要注意的是，据郑纬民介绍，当前的 Token 服务其实是多样的，有适用于实时交互、自动驾驶等对延迟敏感场景的极低时延型；有支持长上下文处理，适用于复杂 Agent 推理、多轮对话等场景的均衡通用型；还有大规模离线处理，适用于数据清洗、研报生成、模型微调等批量任务的高吞吐低成本型。未来，Token 服务还需实现标准化、分层化与可调度化，将大模型参数合理分配至不同的计算资源上，以降低成本并提高性能。郑纬民强调，按业务目标对产能进行分层定价与调度，是 Token 服务走向基础设施的前提。

谈到调度，郑纬民还进一步指出，要实现全系统的 " 异构协同 "，就不能将所有负载压在最昂贵的 GPU 资源上，需实现计算、缓存、状态保存与数据搬运的职能分离与各归其位，将可用计算资源池大幅扩大，将异构设备都用起来。

" 过去，我们建设模型；今天，我们要建设智能供给体系。从模型服务走向 Token 服务，是 Agent 时代对基础设施的必然要求。只有当智能生成像水电一样，被稳定调度与供给算力之上、Token 为王的普惠智能时代才算真正到来。" 郑纬民称。

每日经济新闻

宙世代

一起剪

相关标签