CVPR 2026 四篇论文透视：大厂如何靠「算法瘦身」对抗算力涨价？

2026 年，大厂们不再比谁的 GPU 多，而是比谁的算法更聪明。

作者丨陈淑瑜

编辑丨岑峰

一个在 2026 年越来越难以回避的问题是：如果 H100 全面断供、电费账单直线飙升、训练一次大模型的成本足以买下一家创业公司，大模型的故事还讲得下去吗？

也许顶级学术会议的论文能给大家一个新的启发。

今年的 CVPR 收到了四千余篇投稿，其中一个清晰的信号正在浮现：大厂不再比拼 GPU 数量，而是较量如何把 GPU 用得更好。算力封锁之下，算法正在成为新的护城河。

在论文的汪洋中，字节跳动 Seed 团队是出手最密集的玩家之一。

AI 科技评论聚焦四篇来自字节跳动的论文—— TEMF、Beyond Token Eviction、Mixture-of-Depths Attention 和 GenieDrive。它们全都围绕一个核心命题展开：当算力不再能够 " 暴力 " 解决，算法如何接棒？

这四篇论文覆盖了一条完整的链条：从生成模型的采样步数压缩，到推理过程的显存瘦身，再到注意力计算资源的动态分配，最终延伸到端侧部署的物理感知。它们不是孤立的创新，而是 Seed 团队围绕 " 算力降本 " 这一命题打出的组合拳。

采样降速：一步生成的尺度跨越

大模型的推理成本，很大程度上藏在采样步数里。

以 Stable Diffusion 为代表的多步迭代生成，一个看似简单的 512 × 512 图像，背后可能是 50 到 100 次神经网络前向传播。训练时模型学到的是 " 每一步该怎么加噪 "，但推理时模型需要做的是 " 每一步该怎么去噪 "，这两个过程天然不对称，训练目标与推理目标之间存在一道看不见的裂缝。

传统 MeanFlow 的尺度差距问题正源于此：一步生成的质量始终无法与多步采样竞争，而多步采样意味着成倍增加的算力消耗。

字节跳动 Seed 团队提交的 TEMF（Temporal Equilibrium MeanFlow）正是对这一困境的直接回应。

TEMF 的核心设计是让模型在训练阶段就同时学习 " 从数据到噪声 " 和 " 从噪声到数据 " 的双向变换，而非像传统归一化流那样只学习单向映射。

双向建模的效果立竿见影，模型在训练时就熟悉了反向采样的路径，推理时不再需要依赖多步迭代来逐步精炼，可以直接从噪声出发、在单次前向传播中完成整个生成过程。

这种从百次计算到一次计算的跨越，在实际部署中带来的成本削减是数量级的。

论文地址：

https://cvpr.thecvf.com/virtual/2026/poster/39823

有意思的是，这道裂缝的修补并非只有一种解法。同期 Meta 发表的 Improved Mean Flows 从原理层面分析了快转发声模型训练与推理不对称的根源，并提出了自己的改进框架。（Improved Mean Flows 的论文解读可阅读：何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破 | CVPR 2026）

论文地址： https://arxiv.org/abs/2512.02012

两支独立团队在几乎同一时间节点做出了相似的技术判断—— 一步生成不是天方夜谭，关键在于弥合训练与推理之间的结构性裂缝。这不是巧合，这是行业共识正在形成的信号。

显存瘦身：KV Cache 的精准压缩

如果说 TEMF 解决的是计算次数的问题，那么另一篇字节跳动 Seed 团队的工作 Beyond Token Eviction，则直指推理过程中另一个更隐蔽的成本中心：显存占用。

理解 KV Cache 的机制，是理解大模型推理成本的关键切口。

当大语言模型处理一段文本时，它需要记住此前所有词元的信息才能生成下一个词元。每一个经过注意力计算的词元，都会在显存中留下一组对应的向量，这些向量是模型 " 上下文记忆 " 的物理载体。

问题在于，这种 " 记忆 " 是只增不减的。当上下文窗口从 4K 扩展到 32K、再到 100K，KV Cache 的显存占用也在同步膨胀。

一个有 100K 上下文窗口的模型，仅 KV Cache 就可能消耗 40 到 60GB 的显存，而消费级显卡的显存上限不过 24GB，就连专业级 A100 也不过 80GB。也就是说，在不远的将来，显存瓶颈会比计算瓶颈更早到来。

传统解法 "Token Eviction" 是在显存压力过大时，将一部分 " 不那么重要 " 的旧 Token 驱逐出去，释放空间给新的 Token。

而 Beyond Token Eviction 的突破则在于 " 混合维度预算分配 " 策略。它不再将 Token 的存留视为非此即彼的二元判断，而是允许不同 Token 拥有不同的 " 精度维度 " 指标。重要的 Token 保留更高的维度，从而完整存储其语义信息；不那么关键的 Token 被压缩到更低的维度，以更少的空间保存其核心语义。

这种 " 混合维度 " 策略的本质是对信息做 " 有损压缩 " 而非 " 彻底删除 "。被压缩的 Token 仍然保留着足够用于后续推理的语义信息，而模型通过训练学会了 " 自适应地 " 判断哪些 Token 值得高精度、哪些可以接受低精度。

系统不再需要在 " 全部保留 " 和 " 全部丢弃 " 之间做选择，而是在精度与效率之间找到了一个可调的平衡点。

用于 KV 缓存压缩的双阶段尺寸分配流程

更难得的是，这套方案无需对模型进行任何重训练。云厂商可以直接将它部署在现有推理框架上，以工程侧的轻量改动换取显存占用的大幅下降。

论文地址：https://arxiv.org/pdf/2603.20616

这正是当前大厂在降本路径上最务实的选择：不是推翻重来，而是在既有架构上做 " 微创手术 "。

计算平等：让模型自己分配算力

采样步数降了，显存空间省了，但字节在注意力计算的效率问题上也没有闲着。他们的 Mixture-of-Depths Attention，从计算资源分配策略的维度提供了一种正交解法。

传统 Transformer 在处理每个 Token 时，都会执行完整的注意力计算。这意味着，即使某个 Token 在当前语境下的语义贡献微乎其微，它仍然会消耗与其他 Token 同等的计算资源。这种 " 一视同仁 " 的计算策略，本质上是一种隐性的算力浪费。

新的思路由此出发：并非所有 Token 都需要被 " 深度处理 "。它引入了一种动态路由机制，让模型在运行时自主决定——哪些 Token 值得走完整的注意力计算路径，哪些 Token 可以被引导至更轻量的快速路径。

混合深度注意力机制 MoDA

结果随之而来：系统层面的有效计算量显著下降，但模型输出的质量并未等比例衰减。真正重要的 Token 仍然得到了充分的计算资源，而大量 " 搭便车 " 的 Token 被引导至旁路。

这种 " 让模型自己判断轻重缓急 " 的思路，代表了算法层面 " 降本增效 " 的一种优雅路径。这与混合专家（MoE）模型的设计哲学一脉相承，但不是整个模型层的专家切换，而是在每个注意力层做细粒度的资源调度。

模型在训练过程中学会动态分配计算预算，而非通过硬编码的稀疏规则强行削减计算量——好钢用在刀刃上，这是 2026 年算法工程师们最希望模型学会的本事。

论文地址：https://arxiv.org/pdf/2603.15619

端侧部署：物理感知驱动的世界模型

上述三篇工作几乎都在回答同一个问题：如何在有限的算力约束下，让模型跑得更快、占得更少。但字节跳动在 GenieDrive 这篇工作中，提出了一个更远见的问题：高效模型在端侧能做什么？

自动驾驶的视觉感知系统，一直是算力军备竞赛的重灾区。传统自动驾驶的感知系统依赖多传感器融合，各司其职又彼此冗余，在算力有限的嵌入式平台上捉襟见肘。

GenieDrive 把这个问题拆解得更深了一层。它搭建了一种 " 物理感知驱动的 4D 占用引导视频生成 " 框架，不再将视觉感知视为一个 " 看懂图像 " 的问题，而是将其视为一个 " 理解物理世界如何运转 " 的问题，不仅让模型生成视觉上逼真的驾驶场景视频，还让模型具备对物理规律的基本理解，比如运动物体的轨迹遵循物理动量、遮挡关系遵循空间一致性、光照变化遵循物理反射模型。

这种设计的直接效果是：GenieDrive 生成的不是一段 " 视觉上逼真的视频 "，而是一个 " 物理上可信的 4D 模拟环境 "。

当这个模拟环境可以直接服务于下游的轨迹规划和决策控制时，端侧模型的商业价值就超越了单纯的速度竞赛。比如说如果模型能够准确预测 " 两秒后前方车辆会因为惯性继续滑行两米 "，这个信息对于紧急制动的决策价值，远高于 " 那个地方有一辆车 " 的语义标签。

值得注意的是，GenieDrive 的高效性并不来自单一算法的突破，而是来自 "4D 表示 + 物理先验 + 端到端联合优化 " 的协同设计。它代表了 2026 年大厂在高效视觉表征上的另一条路径：不只是让模型跑得更快，而是让模型 " 想得更少、做得更准 "。

https://www.paperdigest.org/paper/?paper_id=cvpr-36900-2026-04-21

结语：算法天才的元年

纵观字节跳动 Seed 团队在 CVPR 2026 上这四篇论文，一个清晰的叙事正在浮现：算力封锁并没有杀死创新，反而催生了一种更精致的工程哲学。

TEMF 用 " 时间均衡 " 弥合了训练与推理的结构裂缝，让一步生成从不可能变成了工程现实；

Beyond Token Eviction 用 " 混合维度 " 重新定义了信息的取舍策略，让显存压缩从粗暴删除变成了精细调控；

Mixture-of-Depths 让计算资源学会了「按需分配」，让模型自己成为计算预算的聪明管家；

GenieDrive 则将高效表征引向了物理可解释的端侧应用，让速度竞赛升维为智能竞赛。

这四条路径指向同一个结论：2026 年不是 " 大模型时代的终结 "，而是 " 聪明模型时代的元年 "。当暴力堆砌算力的路径变得不可持续，那些能够用更少资源做更多事情的算法天才，正在成为这个时代最稀缺的人才。

对于 CTO 和云厂商而言，字节的这组论文给出了一个清晰的信号：与其等待下一代芯片的算力提升，不如今天就拥抱这些算法优化带来的降本红利。

对于软硬件开发者而言，这意味着新的机会窗口正在打开：适配 ELSA 这类硬件无关内核的编译器优化、基于动态注意力路由的模型压缩工具、面向 4D 物理感知模型的端侧部署框架，每一个环节都是尚未被充分开采的富矿。

算力封锁的本质是一道经济命题，但它的解法，最终要靠算法给出。

雷峰网

宙世代

一起剪

相关标签