无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

在当今大模型领域，Transformer 架构占据着主导地位。然而，尽管 Transformer 非常强大，但它的计算需求随着文本长度呈平方级增长，这导致运行成本高昂，同时限制了其扩展能力。

与此相对，更为古老的 RNN（循环神经网络）架构虽然计算效率高，但通常无法达到 Transformer 的性能水平，并且训练过程更为复杂和缓慢。

在这一背景下，由元始智能创始人彭博提出了 RWKV 架构。RWKV 融合了 Transformer 和 RNN 的优点，在训练阶段可以像 Transformer 那样并行计算，在推理阶段又能像 RNN 那样高效运行。随着发展，RWKV 现已成为隶属于 Linux 基金会的开源非盈利组织，其代码、模型和文档均公开透明，核心项目 RWKV-LM 在 GitHub 上开源，形成了一个活跃的开发者社区。

自 2021 年 8 月首个实验性版本 RWKV-V1 发布以来，RWKV 架构经历了多次重要迭代。它最初是对传统循环神经网络的改良尝试，旨在解决处理长文本时的效率问题。2023 年，RWKV-4 实现了关键突破，使其能够在普通硬件环境下高效处理各种语言和长篇文本。此后，RWKV 逐渐被纳入主流 AI 工具库，RWKV 社区的开发者甚至发现微软 Windows 系统在 Office 组件更新后内置了 RWKV 的运行库。

刚刚发布论文的 RWKV-7 是这一架构的最新进展，它采用创新的动态状态演化技术，支持 100 多种语言，能够编写代码，处理超长文本。RWKV-7 系列发布了七个预训练模型，参数规模从 0.19 亿到 29 亿不等，训练 token 数量从 1.6 万亿到 5.6 万亿不等，适应不同应用场景的需求。

彭博称 RWKV-7 设计灵感来自于 " 第一性原理 "，核心想法是：模型的内部世界必须持续拟合外部世界。

这听起来有点抽象，但我们可以把它想象成一个 " 聪明的学生 " 在学习和适应环境的过程。QKV-softmax-attention（常见于 transformer 模型），它的做法是把所有 " 问题 - 答案 " 对放在一起，然后通过比较新问题 q 和每个 " 问题 " k 的相似度，来决定答案是什么。就像小学生每次考试前，把课本里的所有题目都翻一遍，找到和新问题最像的那个，再写下答案。

而 RWKV-7 的方法不是每次都去翻课本，而是直接从这些 " 问题 - 答案 " 对中动态学到一个 " 变换规则 "（k -> v 的映射）。这个规则就像小学生自己总结出的解题技巧，遇到新问题时，直接用这个技巧推导出答案。

性能验证：超同尺寸模型

RWKV- 的 7 创新在实际性能测试中也得到了验证，在训练数据远低于 Qwen2.5、Llama3.2 等开源模型的前提下，RWKV-7-World 模型的语言建模能力在所有开源 3B 规模模型中达到 SoTA 水平。

RWKV 团队采用 Uncheatable Eval 方法——利用 2025 年 1 月之后的最新论文、新闻文章等实时数据，测试开源大语言模型的真实建模能力和泛化能力。

评测结果显示，在同等参数规模的前沿模型中，RWKV-7 依然具备强竞争力，展现出优秀的适应性和泛化性能。团队正在训练数据更多的 RWKV7-G1 系列模型，目标是在这个榜单同样超越所有其他前沿模型。

技术创新：动态状态演化

RWKV-7 究竟通过哪些技术创新实现了这些令人印象深刻的性能表现呢？根据由社区成员联合撰写的 RWKV-7 架构论文《RWKV-7 "Goose" with Expressive Dynamic State Evolution》，RWKV-7 引入了一项名为 " 表达性动态状态演化 " 的关键创新，这是其性能提升的核心所在。具体来说，RWKV-7 通过引入一种广义化的 delta 规则，使模型能更好地理解和处理信息。

RWKV-7 在读取新信息时，有一种特殊的方式来更新其记忆，有点像记笔记。这种特殊的方式被称为 " 广义 Delta 规则 "。

把模型想象成有一个草稿本，它在上面记录了从目前为止的文本中学到的东西。当它看到一个新的词或信息时，它需要决定如何更新这个草稿本。

最初的 "Delta 规则 " 擦除一点它为该键存储的旧信息，并添加一点新信息。它擦除和添加的数量由一个简单的数字控制。现在，RWKV-7 的规则是 " 广义的 "，这意味着它更灵活、更强大。它不是只用一个数字来决定为一个键擦除和添加多少信息，而是使用更详细的指令。

通过引入广义 Delta Rule，RWKV-7 使用 2 层即可实现复杂度的状态跟踪问题，使用 4 层即可识别所有正则语言。

简单来说，Transformers 在处理这些 " 正则语言 " 时有局限性。它们的能力被限制在一个叫 TC0 的计算类别里。TC0 就像是一个只能用固定步骤解决问题的工具箱，遇到某些复杂任务时就显得力不从心。

而 RWKV-7 可以用固定的层数（也就是固定的计算步骤）处理所有正则语言。这意味着，不管语言规则有多复杂。

这个能力听起来很理论，但实际上特别有用。RWKV-7 能更高效地解决一些需要 " 跟踪状态 " 的问题。什么是 " 跟踪状态 " 呢？举个例子：

在读一个长故事时，记住谁做了什么、事情是怎么发展的；

在理解一句复杂句子时，搞清楚每个词之间的关系。

这些任务需要模型一边读一边更新自己的 " 记忆 "。RWKV-7 靠它的 " 状态矩阵 " 来做到这一点。你可以把 " 状态矩阵 " 想象成一个记事本，模型会在这上面记下看到的信息，还能灵活地 " 交换 " 信息或者改变记录的方式（专业点叫 " 状态转换函数 "）。

Hugging Face 上的 RWKV Gradio Demo 提供了 0.1B 模型的交互体验

应用方面，RWKV-7 适用于语言建模和多模态应用，其高效处理长上下文的能力使其在文档摘要、对话系统和代码生成等领域具有优势。其无注意力机制和恒定内存使用也使其适合资源受限的设备，潜在扩展到边缘计算场景。

RWKV-7 开发团队已规划了明确的技术发展方向，计划通过扩充训练数据集来支持更大规模模型的训练，同时将致力于增强模型的思维链推理能力。

团队还将评估采用 DeepSeek 近期研究中验证有效的前沿技术，包括混合专家模型 ( MoE ) 架构、多 token 预测技术和 FP8 精度训练等优化方案。

为了促进开放性、可复现性和采用，RWKV-7 开发团队在 Hugging Face 上发布了模型和数据集组件列表，并在 GitHub 上发布了训练和推理代码，所有这些资源均在 Apache 2.0 许可下提供，允许广泛应用于研究和商业项目。

超越 Transformer

Transformer 广泛用于自然语言处理和其他领域，但它在处理长序列时存在显著的局限性。例如，对于百万级别的上下文窗口，Transformer 的性能会显著下降，限制了其在实际应用中的可扩展性。对于需要低延迟或在资源受限设备上运行的场景（如移动设备或实时系统），Transformer 的高计算成本和内存消耗成为瓶颈。

Mamba 是另一个获得相当多关注的 Transformer 替代方案，Transformer 如此流行，以至于提出它们的原始论文自发表以来的 8 年间获得了超过 17.1 万次引用，而提出 LSTM 的 1997 年论文则有 12.2 万次引用。Mamba 论文有 2537 次引用，RetNet 有 350 次，xLSTM 有 31 次，RWKV 论文有 510 次引用，而谷歌 DeepMind 最新提出的 Titans 架构只有 12 次引用。

类似 RWKV-7 这样的发展，即使还不会完全颠覆现有的范式，也会推动这一领域的进一步发展，AI 的未来不仅将由更大的模型塑造，还将由更智能的架构设计引领。

宙世代

一起剪

相关标签