量子位 前天
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

超越Transformer,谷歌推出全新底层架构——

Mixture-of-Recursions(MoR),注意不是 MoE,它能推理速度提高 2 倍,而 KV 内存直接减半!

而且 All in One,首次在单一框架中实现,用同一组参数处理不同任务的同时,进行动态分配计算资源。

就像给 LLM 开了个双层增强 buff,模型性能和效率全都要。

谷歌 DeepMind 联合 KAIST AI、Mila 人团队通过统一参数共享自适应递归深度高效 KV 缓存,在保持大模型性能的同时降低计算和内存成本,形成新的效率最优解。

不少网友甚至将它形容为Transformer Killer

更有甚者表示,该架构的出现或许能代表,潜在空间推理也许将会成为下一个 LLM 突破所在。

具体 MoR 创新在哪些方面?下面一一详解。

MoR:首次统一参数共享与自适应计算

Transformer 的出现虽然带来了优秀的少样本泛化和推理能力,但随之而来庞大的计算和内存需求还是让训练和部署成为难题。

目前相关优化方法主要是参数共享和自适应计算,但往往只能二选一,无法同时兼顾。

于是研究人员提出了递归混合模型MoR,可以在单一递归 Transformer 中同时融合两个效率维度。

首先采用的递归 Transformer,相比通过多个独特层构建 token 的标准 Transformer,其直接将模型划分为递归块,复用一组共享参数池。

主要包含三种参数共享策略:

Cycle:循环复用层。

Sequence:连续复用同一层。

Middle 变体:保留首尾层独特参数,仅共享中间层。

利用参数共享,可以减少独特参数数量,提升分布式训练效率,并通过连续深度批处理消除计算 " 气泡 ",提高推理吞吐量。

然后 MoR 采用动态路由机制,通过轻量级路由器为每个 token 分配不同递归深度,并集中计算在复杂 token 上,可以分为两种:

Expert-choice 路由:将每个递归步骤视作 " 专家 ",基于隐藏状态计算分数,通过阈值选择合适的 token 继续计算,采用层级过滤,优先为复杂 token 分配计算。

Token-choice 路由:初始阶段为每个 token 分配固定递归深度,通过 softmax/sigmoid 确定专家,然后 token 按分配深度依次完成递归。

另外,MoR 本身还借助KV 缓存策略,管理键值的存储与使用,同时确保内存效率的提升:

Recursion-wise 缓存:仅缓存当前递归步骤中活跃 token 的 KV 对,将注意力计算限制在本地缓存,降低内存和 IO 需求。

Recursive KV 共享:复用首次递归的 KV 对供后续步骤使用,确保所有 token 可访问历史上下文,减少预填充操作,而此时注意力计算量下降幅度较小。

在三种策略共同作用下,MoR 通过在解码每个 token 时直接进行潜在思考,路由机制让模型能进行自适应推理,突破了先前固定思考深度的限制,实现了参数效率与自适应计算的统一。

性能超越 Transformer

研究人员在 135M 到 1.7B 不同参数规模的模型上,就原始 Transformer递归基线模型MoR进行对比实验。

实验表明,在相同的 16.5e18 FLOPs 的训练预算下,MoR 使用了将近50%的更少参数,但实现了更低的验证损失和更高的平均少样本准确率43.1%

而 vanilla 模型的少样本准确率此时是 42.3%,说明 MoR 拥有更高的计算效率,可以在相同 FLOPs 预算下处理更多训练 token。

在训练固定的 20B token 时,MoR 也减少了25%的训练 FLOPs,训练时间还缩短了 19%,峰值内存减少 25%。

另外,通过分析路由策略,发现 Expert-choice 路由的性能会在一定程度上优于 Token-choice 路由,说明路由粒度会对性能产生重要影响。

研究人员还对 MoR 进行了IsoFLOP 分析,发现在 135M、360M、730M 和 1.7B 参数规模,以及 2e18、5e18、16.5e18 的 FLOPs 预算下,MoR 始终优于递归基线模型。

虽然受递归容量瓶颈限制,在 135M 时略逊于 vanilla 模型,但在 360M 及规模的进一步扩大,MoR 性能接近甚至超过 Vanilla 模型,且参数仅为后者的 1/3,验证了 MoR 的可扩展性。

推理吞吐量评估上,360M 规模的 MoR 模型在固定批大小和最大批大小设置下,均优于 vanilla。

递归深度的增加让更多 token 提前退出,KV 缓存占用减少,吞吐量显著提升,验证了深度批处理与早期退出结合对部署效率的提升。

谷歌对底层架构的再思考

这已经不是谷歌第一次对底层架构进行重新思考,甚至可以说,谷歌始终希望利用架构创新重构计算范式,重新寻找 AI 新的平衡。

例如混合专家模型(MoE)正是这一理念的集中体现。

最早是在 2017 年,谷歌首次将 MoE 引入 LSTM 层,通过稀疏门控机制,仅激活部分专家网络从事输入处理,但仍能让参数量高达 137B 的模型保持高效训练。

后面推出的GShard将 MoE 与 Transformer 结合,可实现动态负载均衡,2021 年的Switch Transformer又进一步地简化了路由机制。

Gemini 1.5 Pro就是采用的分层 MoE 架构,将专家网络与多模态处理深度结合,可以处理更为复杂的多模态任务,训练和服务效率也得到显著提升。

MoE 的底层逻辑设计突破了传统全连接模型的计算缺陷,现在已经成为了许多超大规模模型的优先选择,为应对算力瓶颈提供了新范式。

另外还有像TokenFormer等可扩展架构,将模型参数视为可学习的 token,通过增量训练无缝扩展模型规模,为未来千亿级模型的低成本迭代提供了可能。

所以有网友认为,关于谷歌如今推出的 MoR,会在未来彻底改变 AI 世界规则,会超越 Transformer 吗?一切交给时间验证

参考链接:

[ 1 ] https://x.com/deedydas/status/1945313404958466519

[ 2 ] https://www.alphaxiv.org/abs/2507.10524

[ 3 ] https://x.com/reza_byt/status/1945498424536862841

[ 4 ] https://arxiv.org/abs/1701.06538

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

评论
大家都在看