微信AI团队，悄悄干了件大事，算力消耗暴降44%！

从预测下一 token，到预测下一向量。

作者 | 陈骏达

编辑 | 李水青

智东西 11 月 5 日报道，近日，腾讯微信 AI 团队发布的一篇论文在海外 AI 圈引发广泛关注。论文提出了一种名为 " 连续自回归语言模型（CALM）" 的新颖架构。与传统 Transformer 相比，CALM 直接将训练大模型所用的计算量减少了 44%，推理时的计算量也减少了 34%。

CALM 的核心逻辑是，将连续的 K 个 token 压缩成一个语义向量，并在生成时直接预测 " 下一个向量 " 而非 " 下一个 token"。假设 K=4，那么原本需要逐步生成 4 次的内容，现在只需 1 步即可完成，使其能在一次生成中输出更多信息，大幅提升效率。

这项研究的相关讨论在社交媒体平台 X 的阅读量累计已经超过 100 万次，在评论区引起热议。

提示词分享网站 godofprompt.ai 的联合创始人 Robert Youssef 认为，CALM 或许就是 AI 领域下一次大的范式转变，彻底颠覆了所有大语言模型赖以构建的 " 下一个 token 预测 " 范式，让大模型不再逐字思考，而是以想法为单位进行思考，简直不可思议。这一方法如果能成功扩展，那么现有的 LLM 都将过时。

▲ godofprompt.ai 的联合创始人 Robert Youssef 对 CALM 给予好评

还有多位网友认为 CALM 提出的概念值得探讨，但关键是需要在更大规模的 Scaling 过程中获得验证。

▲网友讨论 CALM 的可扩展性

然而，也有人质疑 CALM 的前景。这位网友称，CALM 只是杨立昆的一个老旧想法，训练不稳定，基础很薄弱，且无法扩展，是一种 " 有缺陷的方案 "。

▲网友质疑 CALM 可能存在缺陷

CALM 论文的作者均在微信 AI 团队任职，第一作者邵晨泽曾在中科院计算所智能信息处理实验室完成博士学业。这篇论文的其他作者包括 Darren Li、Fandong Meng 和 Jie Zhou，其中，Darren Li 是清华大学求真学院的在读学生。为方便后续研究，研究使用的预训练 Autoencoder 以及 CALM 的检查点均可供下载。

▲ CALM 论文封面

论文地址：

https://arxiv.org/abs/2510.27688

项目主页：

https://github.com/shaochenze/calm?tab=readme-ov-file

01.

性能比肩同量级 Transformer

训练计算量减少 44%

在与 Transformer 的对决中，CALM 究竟表现出了何种优势？

在评估两者的性能前，CALM 团队首先需要打造适合的评估工具。过去业内用来衡量语言模型预测质量的一个指标是困惑度（Perplexity），直观地说，它表示模型在面对真实语言数据时 " 有多困惑 " ——困惑度越低，说明模型越自信、预测越准确。

困惑度评估并不适用于 CALM 的架构。作者因此提出新的评价体系—— BrierLM 指标。这一指标源于经典的 Brier Score，由气象学家 Glenn W. Brier 在 1950 年提出，用来评估天气预报的好坏。

BrierLM 通过组合不同 n-gram 的 Brier 得分，提供了一个统一的、可比较的语言建模指标。它利用模型采样结果即可无偏估计预测质量，既能衡量准确性，又能惩罚过度确定性。

实验证明，BrierLM 与交叉熵几乎线性相关，可作为困惑度的替代品，并适用于其他隐式生成模型。

▲ BrierLM 与交叉熵几乎线性相关

CALM 团队使用 The Pile 语料训练了多款 CALM 架构的模型，然后用 WikiText-103 数据集来测试模型的性能。

训练时，CALM 团队分别打造了不同参数量的模型，分别为 0.371B 参数量的 CALM-M、0.735B 参数量的 CALM-L 和 1.82B 参数量的 CALM-XL。

当 K=4，也就是每个连续向量对应 4 个原始 token 时，CALM-M 的性能略逊于 0.281B 参数量的 Transformer-S 模型，但 CALM-M 的训练计算量比 Transformer-S 少 44%，推理计算量少 34%，展现出更好的算力 - 性能平衡。随着模型变大，性能也稳定提升，就像普通 Transformer 一样。

▲ CALM 与 Transformer 模型在 BrierLM 上的表现

CALM 团队还研究了语义带宽 K 的作用。随着语义带宽 K 增大，计算需求线性下降，而但性能下降并不明显。

当 K 从 1 变为 2 时，模型所需的训练算力大幅减少 50% 左右；当 K=4 时，CALM 实现了效率与性能的较好平衡；K=8 时，其性能出现一定下滑。

CALM 团队认为这是模型尺寸导致的。以后，随着模型尺寸的提升，CALM 架构或许可以一次性预测更多 token，从更大的语义带宽中受益。

▲ K 值对 CALM 性能的影响

CALM 的作者们还比较了不同生成头的性能。能量模型单步生成性能最高，而且不需要迭代采样，一次就能生成结果。扩散与流匹配模型虽可行，但要么性能不佳，要么代价高昂。

▲不同生成头的性能表现

02.

从离散 token 到连续向量

语言模型如何驶入语义 " 高速公路 "？

CALM 究竟为何要进行从 " 预测 token" 到 " 预测向量 " 的巨大转变呢？这一转变，又是如何让 CALM 以更低的算力需求，实现比肩 Transformer 的生成效果？

CALM 的第一作者邵晨泽在其撰写的博客中，解释了打造 CALM 的原因。现代大语言模型好比一个 " 法拉利级 " 的引擎——它拥有数千亿参数，能够理解语义、执行复杂推理、生成高质量文本与代码。

然而，这一引擎却被限制在一条狭窄的乡间小路上，永远只能卡在第一档。这条小路就是自回归生成机制：模型一次只能预测一个离散 token，无论引擎多强，吞吐量都会受到限制，这导致了模型推理速度慢、计算成本高等问题。

过去，人们试图通过扩大基本单位来 " 拓宽道路 "。从字符级到子词级（subword token）的变化，确实提升了效率。

但如今，这条路径已触及 " 离散 token 的物理极限 "：在一个典型的 32K 词表中，每个生成步骤的语义带宽约为 15 位，要想将带宽翻倍，词表规模必须指数级增长——这使得模型在计算上几乎不可行。换句话说，离散 token 的 Scaling 已经碰壁了。

如果离散 token 是瓶颈，那么我们就需要一种具有可扩展语义带宽的新型文本单元。CALM 代表从离散到连续的变化，其核心思想就是让模型不再预测下一个 token，而是预测下一个向量——一个压缩了连续 K 个 token 的语义信息。

▲ CALM 的核心原理

这一改变相当于为大模型开辟了一条多车道的高速公路——每次生成能携带更多语义，显著减少自回归步数，从而大幅提升效率。

CALM 的第一步是建立一个高保真自编码器（Autoencoder），在离散 token 与连续向量之间建立双向映射。

编码器的作用是将一段 K 个 token 压缩为一个连续向量，而解码器从该向量中重建出原始 tokens。

通过交叉熵损失训练后，该模型能以 99.9% 的精度重构文本片段。论文指出，这是可行的：一个浮点向量的比特容量远高于一个离散 token，足以存储多倍的信息。

然而，高精度重构并不代表模型的稳定性。若向量空间过于 " 脆弱 "，轻微噪声就可能使解码器输出完全不同的文本。为此，作者引入了三项关键改进：

变分正则化（VAE）：令编码器输出高斯分布，使潜空间更平滑；

KL 裁剪（KL Clipping）：防止潜变量塌缩到无效维度；

双重 Dropout：对输入与潜向量加入噪声，迫使模型学习冗余且稳定的表征。

结果是一个既紧凑又稳健的连续语义表示：当 K=4、潜向量维度为 128 时，模型在加入约 0.3 方差高斯噪声的情况下，仍能保持 99.9% 的重构精度。

这一语义压缩器为 CALM 奠定了坚实基础——让语言可以在一个可连续建模、可容错的向量空间中流动。

03.

怎么让模型预测下一个向量？

靠 " 无似然建模 "

有了向量化的语义序列，语言建模任务变成了预测下一个连续向量。然而，如何教会模型进行下一个向量预测，又成了新的挑战。

如今，几乎所有主流大模型都采用最大似然训练（Maximum Likelihood Estimation）——即通过 softmax 计算出 " 每个 token 出现的概率 "，并最大化训练数据的似然值的做法。

这样的训练方式要求模型能在一个离散的词表中明确地为每个 token 给出概率分布，但在连续向量空间中，没有有限词表，softmax 无法定义概率分布。

因此，CALM 放弃了最大似然训练，转而采用无似然建模（likelihood-free modeling）。这种方法不再要求模型显式计算概率，改用间接目标函数，让模型学会生成与数据分布相似的样本。

简单来说，模型不再告诉你 " 这个词的概率是多少 "，而是直接生成一个向量，让它尽可能接近真实的语义向量分布。

CALM 的作者团队尝试了多种无似然方法（如 Diffusion、Flow Matching），但最终提出并验证了最优方案——基于能量评分（Energy Score）的生成头（generative head）。

▲ CALM 的模型架构

这一生成头接收 Transformer 的隐藏状态和一个随机噪声向量作为输入，在连续空间中预测下一个语义向量。通过优化能量得分，模型能够在不计算显式概率的情况下，学会生成既多样又符合语义规律的向量序列。

能量得分是一种严格正确的评分规则，不依赖概率密度，而以样本间距离衡量预测分布的好坏。它同时平衡两种目标：

（1）多样性项惩罚过度自信、鼓励多样化生成；

（2）保真项奖励预测与真实向量接近。

模型通过最大化能量得分，使其隐式分布逼近真实数据分布。为了实现高效训练，作者采用蒙特卡洛估计，仅需少量样本即可获得无偏梯度。

这种方法带来了两大优势。首先，不同于扩散模型需上百次采样，Energy Head 一步即可生成下一个向量；其次，这一方法的通用性强，只需能采样即可训练，无需显式概率公式。

在推理时，CALM 将预测向量传入预训练的解码器，还原出离散 token，再经轻量 MLP 压缩输入到 Transformer，实现完整的自回归循环。

在传统的 LLM 中，调整温度（temperature）是控制生成 " 创造力 " 的关键手段。模型在生成时会输出一组 logits ——也就是每个候选 token 的未归一化得分。通过将这些 logits 除以温度参数 T，再经过 softmax，就能得到新的概率分布。

然而，CALM 没有 logits。因此，其背后团队提出了基于拒绝采样与 Bernoulli Factory 理论的全新算法：

（1）当温度 T=1/n 时，只需抽取 n 个样本，若全相同则接受；

（2）对任意 T，可分解为整数与小数部分并通过二阶段采样实现。

CALM 团队还设计了批量近似算法，可显著提升效率且在理论上无偏差。这使得 CALM 及其他隐式模型能够像普通大语言模型一样实现可控生成。

04.

结语：大模型探索 Scaling 新路径

未来，CALM 的作者团队计划继续在架构和算法方面进行更多优化，包括设计更优的自编码器、开发更强大的架构以及提出更轻量级的采样技术。

他们还希望探索 CALM 的 Scaling 特性，验证一大关键假设：更大模型是否具备支撑更高语义带宽的必需容量。CALM 的作者们认为，" 语义带宽 K" 已成为继参数规模与数据量之后，大模型性能的第三个可扩展维度。

宙世代

一起剪

相关标签