当大模型试图处理一段包含 100 万 token 的超长文档时,会发生什么?答案是:内存爆炸,计算崩溃。
无论是分析整个代码库、处理万字研报,还是进行超长多轮对话,LLM 的 " 长文本能力 " 都是其走向更高阶智能的关键。然而,Transformer 架构的固有瓶颈──与上下文长度成平方关系的计算复杂度和线性增长的 KV Cache,使其在面对超长序列时力不从心,变成了一个既 " 算不动 " 也 " 存不下 " 的 " 吞金巨兽 "。
为了 " 续命 ",现有方案要么选择上下文压缩,但这本质上是有损的,信息丢失不可避免;要么采用循环机制,但这类模型又常常 " 健忘 ",难以保留贯穿全文的关键信息,也记不清刚刚发生的细节。

来自阿里巴巴未来生活实验室的研究团队洞察出问题的核心在于:模型缺乏一套能同时兼顾 " 远距离核心记忆 " 和 " 近距离高清细节 " 的协同系统。基于此,他们推出了一种全新的即插即用架构──协同记忆 Transformer(CoMeT),让 LLM 拥有了高效处理无限长上下文的能力。
CoMeT令人意外的表现是:一个仅在 32k 上下文上微调的模型,竟能在 100 万 token 的文本中,精准无误地找到任何位置的 " 密码 ",真正实现了 " 大海捞针 "!并且,整个过程的推理时间和内存占用都得到了显著的优化。

△ CoMeT 在 32k 上下文训练后,可在 1M token 中精准大海捞针,且推理速度和内存占用远优于全注意力模型鱼与熊掌兼得:" 协同记忆 " 架构
CoMeT 的巧妙之处在于,它没有试图用单一机制解决所有问题,而是设计了一套双轨并行的协同记忆系统,让模型既能 " 记得牢 ",又能 " 看得清 "。
1. 全局记忆(Global Memory):一个带 " 门禁 " 的记忆保险箱
为了解决长期遗忘问题,CoMeT 引入了一个固定大小的全局记忆。它的核心是一个精巧的门控更新机制(Gated Update)。当模型处理新的文本块时,这个 " 门禁 " 会智能判断新信息的重要性:如果信息至关重要,门控打开,将其写入长期记忆;如果信息不那么重要,门控保持关闭,保护已有的关键记忆不被冲刷。这套机制就像一个记忆的 " 保险箱 ",确保那些贯穿全文的核心线索能够被长期、稳定地保存下来。
2. 临时记忆(Temporary Memory):一条高保真的 " 事件流 "
为了保留近期细节,CoMeT 引入了由先进先出(FIFO)队列管理的临时记忆。它像一条流动的传送带,持续将最近处理过的文本块信息进行高保真压缩并暂存。这保证了模型在做决策时,能随时访问到最临近、最详细的上下文信息,避免因信息丢失而导致的 " 断片 "。这种设计优雅地平衡了长期记忆的稳定性与近期记忆的鲜活性。

△ CoMeT 架构概览:全局记忆与临时记忆协同工作
通过全局和临时记忆的协同,CoMeT 在处理每个文本块时,都能同时 " 回顾 " 长期核心信息和 " 审视 " 近期详细内容,最终实现了恒定的内存占用和线性的时间复杂度,从根本上打破了 Transformer 的性能瓶颈。
实践出真知:SOTA 性能与惊人效率
CoMeT 的强大不仅仅停留在理论上,实验结果更是令人印象深刻。
1. 权威基准全面超越,登顶 SOTA
在公认的长文本评测基准 SCROLLS 上,CoMeT 在同等内存预算下,平均性能超越了所有主流的高效长文本方法(如上下文压缩、其他循环机制模型),并在需要全局理解的摘要任务上,达到了与全注意力基线(Full Attention)相媲美的性能。

△ CoMeT 在 SCROLLS 基准上超越其他高效方法 2. 效率革命:21 倍加速,10 倍显存节省
相较于标准的 Full Attention 模型,CoMeT 在处理 1M 长度的文本时,实现了21 倍的推理加速和10 倍的峰值显存节省。这意味着,原本需要顶级算力才能勉强运行的任务,现在在普通硬件上也能高效完成,为长文本应用的落地扫清了障碍。

△ CoMeT 在推理时间和内存占用上展现出巨大优势 3. 关键洞察:1+1>2,不同记忆各司其职
研究团队的消融实验揭示了一个深刻的洞察:全局记忆和临时记忆并非简单叠加,而是各司其职,缺一不可。全局记忆是模型 " 看得远 " 的关键:只有依赖带门控的全局记忆,模型才能在远超训练长度的文本中保持记忆,实现强大的长度外推能力。临时记忆是模型 " 看得清 " 的保障:高保真的近期信息流是模型在处理复杂任务时,获得优异性能的基础。正是这种精妙的协同设计,才造就了 CoMeT 的卓越性能。

△ CoMeT 的临时记忆有助于提高训练长度内的性能。

△ CoMeT 的全局记忆有助于长度外推总结
CoMeT 的工作为大模型长文本处理领域带来了里程碑式的突破。
它通过创新的 " 协同记忆 " 架构,优雅地解决了困扰业界已久的 " 记忆困境 ",在恒定内存和线性时间的约束下,实现了 SOTA 级别的性能和惊人的长度外推能力。这项研究证明,为 LLM 设计更符合认知科学的记忆机制,是通往更强大、更实用通用人工智能的关键一步。
论文标题:
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
论文链接:
https://arxiv.org/abs/2602.01766
项目代码:
https://anonymous.4open.science/r/comet-B00B/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦