软通动力点亮“北京壹号Token工厂”,发布开源Token工厂性能基准

（来源：软通动力）

6 月 9 日，软通动力 " 词元（Token）工厂计划 " 的首个标杆示范项目—— " 北京壹号词元工厂 " 在京点亮，并同步向全球开源 " 词元工厂性能基准 "（含评测框架 LoadGen 2.0）。这是行业首次针对智能体长时运行特征建立统一的性能度量标准，标志着大模型算力供给从粗放式吞吐比拼，进入标准化、工业化的 Token 流水线时代。

智能体时代的 " 新型电厂 "

大语言模型（LLM）正从简单的对话机器人，加速演进为能够自主规划、推理并采取行动以达成复杂目标的长时运行系统。一个简单的用户指令背后，可能是模型数十次推理循环、工具调用与自我反思的叠加。这意味着算力消耗不再是 " 一问一答 " 式的短时脉冲，而是长周期、多轮次、高不确定性的混沌负载。北京壹号词元工厂的解法，是做面向智能体时代的 " 新型电厂 "，实现像用电一样用 Token。

北京壹号词元工厂聚焦 Agentic Serving（智能体服务）场景，通过极限工程化手段压榨硬件性能，集成前沿算力调度与 KV Cache 极致复用算法，以确定性的服务质量与极致的性价比，为智算时代提供确定性、高弹性的供应保障。

这不是简单堆算力，而是把底层资源高效转化为标准化的 " 数字燃料 " —— Token，像电网一样给出明确的服务质量承诺：服务可用性≥ 99.9% ，对标电网供电可靠性≥ 99.9%；首字延迟 P90<10 秒、波动 <20% ，对标电网电压合格率波动≤ ± 5%；缓存命中率≥ 90%，对标电网功率因数，减少计算浪费。

开源性能基准，打破 " 指标迷雾 "

当前行业普遍缺少面向智能体场景的算力服务质量评测标准，导致 " 高分低能、参数虚标、用户选择困难 "。为了精准捕捉并复现智能体服务环境中的极端压力，软通动力在仪式上正式发布并开源词元工厂性能基准。其不是单一工具，而是一个三层递进的完整评测体系，遵循 " 一个基准（刻画方法）"，采用 " 三类测试方法 "，构建 " 分领域标准数据集 " ，实现对算力集群真实服务能力的精准评估与公平对比。

软通动力基于对大模型发展初期行业通用的 MLPerf LoadGen 进行深度重构，实现了从静态并发注入到动态行为仿真的跨越，推出了 LoadGen 2.0，其核心突破在于成功在测试环境中定义并重现了真实的 " 混沌局面 "。以此为根基，软通动力构建了三层递进的完整评测体系，底层混沌负载刻画方法、中层三类标准测试方法（额定功率 / 业务 / 精度正确性）、上层面向不同领域的标准数据集，确保评测结果可复现、可对比、与真实场景对齐。

LoadGen 2.0 已完全开源（https://github.com/issair/loadgen2）

目前，软通动力正深度参与平潭两岸融合算力中心、韶关公共算力服务平台等国家一体化算力网络重点项目建设，并依托睿动智能体平台，打造连接国际云厂商与国产 AI 新势力的全球化 AI 双向枢纽。北京壹号词元工厂的启动，是公司推进 AI 基础设施布局、构建 Token 生态体系的重要实践。

未来，软通动力将持续推进 "Token 工厂 " 建设，并从消费者视角出发推出 " 实时监测 " 等一系列质量监控方法——如同在城市自来水管网中部署实时纯净度探针一般，在运行端动态监控 Token 生成的幻觉率、语义一致性及毫秒级延迟波动。将评估权交还使用者，推动 AI 算力生态的正本清源。

宙世代

一起剪

相关标签