快科技 6 月 9 日消息,日前,小米正式上线 Xiaomi MiMo-V2.5-Pro-UltraSpeed 模式。
据介绍,这是全球首个在通用 GPU 上突破 1000 tokens/s 的万亿参数模型,刷新了旗舰模型的全球最快推理速度。
今日," 小米技术 " 公众号发文科普了什么是 1000 tokens/s,以及这一速度到底有多快。
小米表示,token 即词元,是大模型中的计量单位,类似日常买菜时使用的 " 斤 "" 两 "。
1000 tokens/s 也就是 1000 Tokens Per Second,简称 1000 TPS,意思是每秒可以生成 1000 个 token。
如果把大模型推理想象成 " 打字 ",TPS 就是它的 " 打字速度 ",数字越高,生成速度越快。
粗略换算,1 个 token 约等于 1 到 2 个汉字,或 0.75 个英文单词。
也就是说,1000 tokens/s 大约相当于每秒生成 750 个英文单词,或上千个汉字。
作为对比,普通大模型输出速度一般为 50 到 130 TPS,接近人在朗读;国内顶尖大模型输出速度约为 400 TPS,已经像快语速播报。
而小米此次上线的 UltraSpeed 模式,输出速度达到 1000 TPS,是人眼阅读速度的约 200 倍,基本可以做到一眨眼生成一整页 A4 纸内容。
那么,小米是如何实现这一速度的?
据了解,小米采用了 FP4 量化技术,只对精度最不敏感的 MoE 专家模块进行压缩,其余部分保持原有精度,并通过量化感知训练边压缩边补偿,实现模型体积大幅降低,同时尽量保持能力不受影响。
同时,小米还采用 DFlash 投机解码技术,让小模型一次并行 " 抢答 " 一整块 token,再由大模型进行无损验证。
猜对就采纳,猜错则打回,最终输出结果与原模型完全一致,但验证方式从 " 逐字确认 " 变成了 " 整块确认 ",从而大幅提升效率。
此外,TileRT 推理系统也发挥了关键作用。
通过常驻内核和异构流水线,它可以尽可能消除微秒级运行中计算步骤之间的启动、等待、搬数据等空隙,在不改变计算结果的前提下,充分压榨硬件时间。

【本文结束】如需转载请务必注明出处:快科技
责任编辑:拾柒


登录后才可以发布评论哦
打开小程序可以发布评论哦