想象一下:你是某家大厂的技术负责人,正焦头烂额地跟老板解释为什么接入大模型后,用户老吐槽回复慢得像掉进时空隧道。
这时有人递过来一份报告:" 老板你看,不是我们不努力,是整个行业以前连个统一的速度标准都没有。"

没错,就在本周一的高质量词元服务研讨会上,中国信通院联合了华为云、蚂蚁数科、移动九天、联通元景、京东云、联想百应、浪潮海岳、浩鲸科技、天云数据、派欧云等 10 家企业,联手启动了一项名为 "Token 服务能力攀登计划 " 的行动,顺手还发布了第一批攀登结果。
Token 这个词元,听上去学术气息浓厚,其实说人话就是:大模型在处理文本、代码、图像、音频、视频等一切信息时,那个最小的运算单元。它正慢慢变成人工智能服务里的计量单位、结算单位乃至统计单位,相当于水电煤里面的 " 度 "。
那么,这群打算给 Token 服务 " 立规矩 " 的人,到底定出了什么要求?
攀登基线指向企业级通用场景,三把尺子量得特别实在:每秒输出的 Token 数不能低于 55 个,第一个 Token 蹦出来的时延必须控制在 0.9 秒以内,调用成功率得达到 99.9%。首批提交的企业全部达到这条线,没有掉队的。
但为什么要这么急吼吼地划及格线?原因藏在另一组数字里。截至 2026 年 3 月,我国日均词元调用量已经飙到 140 万亿次以上。放在 2024 年初,这个数字还只有 1000 亿次,不到两年多时间翻了上千倍。更夸张的是,哪怕和 2025 年底的 100 万亿次相比,今年短短三个月里又涨了超过四成。
调用量就这么野蛮生长,如果再没个公认的性能标尺,往后大家谈服务质量大概只能靠嗓门大小。现在这十家率先登上 " 基准山 " 的企业,等于拿到了第一张行业门票,而那些还在用 " 大概挺快 "" 感觉还行 " 来评估模型服务能力的玩家,恐怕要抓紧对照这三项指标看看自己的家底了。


登录后才可以发布评论哦
打开小程序可以发布评论哦