3倍吞吐量、访存减至1/10！蚂蚁甩出两大万亿参数开源模型，背后架构成关键

智东西

作者 | 陈骏达

编辑 | 漠影

当大模型在推理、编程等能力上不断刷新纪录时，一个新的问题也愈发突出：如何在持续提升模型能力的同时，控制算力与资源消耗？

就在本月，蚂蚁集团 inclusionAI 团队交出了一份颇具分量的答卷——百灵大模型家族新一代开源万亿参数模型 Ling-2.5-1T（即时模型）与 Ring-2.5-1T（思考模型）。

这两款模型并非仅靠 " 堆参数 " 取胜，它们共享的技术底座——混合线性注意力架构 "Ling 2.5"，才是此次发布的关键。在当前主流大模型仍以改进型传统注意力机制为核心架构的背景下，Ling-2.5-1T 是业内少见的超大型混合线性注意力架构模型，而 Ring-2.5-1T 成为了全球首个混合线性注意力架构的万亿参数思考模型。

得益于 Ling 2.5 这一新架构，模型在长文本生成与长程推理场景中，将访存规模压缩至传统架构的 1/10，生成吞吐量达原来的 3 倍。换言之，它让模型在 " 变聪明 " 的同时，也学会了 " 省着花 "。

同时，效率的提升并未以性能为代价。在涉及推理、智能体、指令遵循、长上下文等场景的多项基准测试中，Ling-2.5-1T 超越了 DeepSeek-V3.2-nothink、Kimi-K2.5-Instant 和 GPT-5.2-chat 等同类型的即时模型。

而 Ring-2.5-1T 则在国际数学奥林匹克竞赛（IMO 2025）和中国数学奥林匹克（CMO 2025）达到金牌水平（自测分数为 IMO 35 分、CMO 105 分），开启重度思考（Heavy Thinking）模式后，它在 IMOAnswerBench、HMMT-25 等数学竞赛推理基准和 LiveCodeBench-v6 代码生成基准中，超越所有对比模型，无论开源闭源。

那么，蚂蚁百灵的混合线性架构的技术路线究竟是如何实现的？又是如何在不牺牲性能的前提下，撬动如此显著的效率提升？

一、万亿参数时代，传统架构还能走多远？

在大模型持续跃迁的进程中，注意力机制始终处于舞台中央，影响着模型理解长文本、捕捉复杂语义以及生成高质量内容的能力。而 Softmax 一直是主流架构的核心注意力计算机制，几乎所有 Transformer 模型都以此为基础。

这种机制每次计算都 " 翻阅 " 完整上下文，精准捕捉词与词的关联，赋予模型强大表达力和细粒度对齐能力。但其代价明显：随着文本长度增加，其计算量呈平方级增长，算力和显存消耗迅速攀升。

随着应用场景向超长上下文延展，这种 " 精细化 " 的成本被重新审视。线性注意力（Linear Attention）由此进入主流视野。

线性注意力通过数学重构，降低计算复杂度，不再为每一个 token 反复回溯全部序列，而是依托状态记忆持续传递核心信息——更像是一场接力赛，每一步都承接前一步的成果，无需重走来路。效率的跃升是显而易见的：更低的 FLOPs、更小的显存占用、更快的生成速度。

然而，线性机制也并非万能。在需要精准定位关键信息、进行细粒度语义对齐或复杂长程依赖建模的任务中，其表现有时难以匹敌传统注意力。于是，一条兼顾性能与效率的技术路径逐渐成型——混合线性注意力架构（Hybrid Linear Attention）。

这一思路其实很直观。同一模型中进行 " 分层分工 "。部分层保留传统注意力处理复杂语义与全局依赖，部分层采用线性机制以降低计算负担，从而让模型在表达能力与计算效率之间实现动态平衡。

然而，理念清晰并不意味着实现简单。真正将混合架构推向超大规模参数训练，仍面临多重挑战。

首先是训练稳定性问题，两种机制在同一网络中协同运行，在超大规模预训练下容易引发数值震荡，影响收敛与梯度稳定。

其次是比例调优难题，多少层采用传统注意力、多少层采用线性机制，并无通用公式，研究者需在工程与实验中反复权衡。

再者，在上下文不断扩展的背景下，如何确保线性部分高效传递状态而不丢失关键语义信息，也成为架构设计的核心瓶颈之一。

二、告別暴力堆算力、堆参数，如何实现混合架构的万亿级工程化跃迁

当前，包括 Minimax、月之暗面、阿里以及 OpenAI 等机构均已探索了混合线性注意力架构的应用潜力，行业逐渐形成共识：混合结构是突破大模型效率瓶颈的重要路径之一。

在这一趋势之中，蚂蚁百灵的研究同样围绕上述核心问题展开。如果将其在混合线性注意力上的探索浓缩为一条清晰主线，可以分成两个阶段：技术可行性验证阶段与万亿规模工程化落地阶段。

早在去年 9 月，蚂蚁百灵团队便开源了 Ring-mini-linear-2.0 与 Ring-flash-linear-2.0，并发布技术报告，验证了线性注意力在真实工业规模训练和长上下文推理中的可用性。

报告中给出的核心架构思想是将线性注意力与 Softmax 注意力进行分组混合，每个 layer group 中包含 M 层线性 attention 加 1 层 Softmax 注意力，从而在保持表达能力的前提下，把复杂度从 O ( n² ) 拉向近似 O ( n ) 。

通过 Scaling Law 实验，他们验证了当 M=7（即 1:7 的混合比例）时，在高 FLOP 预算下表现优于纯 softmax 结构。这个结论至关重要，因为它证明：在大模型规模下，" 线性为主、softmax 为辅 " 的结构不是性能退化，而是效率与效果的更优平衡。

在这项研究中，蚂蚁还发布了两大自研高性能融合算子。一方面，通过精细化的算子融合和自适应重计算量化技术，更高效的 FP8 融合算子将 FP8 混合精度训练的计算效率提升至原来的 1.5-1.7 倍左右。

在推理端，他们开发了更高效的线性注意力融合算子，支持更多的推理模式，进一步提升推理引擎的吞吐。

架构优化与高性能算子协同之下，两款 Ring-linear 模型在深度推理场景下的推理成本仅为同尺寸 Dense 模型的约 1/10，相较原有 Ring 系列成本也下降超过 50%。

完成初步探索后，蚂蚁百灵团队在其基础上提出了 Ling 2.5 架构：在 Ling 2.0 的基础之上，通过 " 增量训练 " 的方式，将原有 GQA（改进版的注意力机制，仍然基于 Softmax）升级为 1:7 的 MLA + Lightning Linear 混合结构，把混合线性注意力架构真正推向万亿规模。

在 Ling 2.5 架构中，大部分 GQA 层都被改造为了 Lightning Linear Attention，以提升长程推理的吞吐能力；剩余 GQA 层近似转为 MLA，以压缩 KV Cache 并保留表达能力。

整个改造过程中保留 QK Norm、Partial RoPE 等关键机制，并进行了针对性适配，从而保证模型架构迁移过程中表达能力不塌陷。

改造完成后，Ling-2.5-1T 和 Ring-2.5-1T 的激活参数从 51B 提升至 63B，但在混合线性架构支持下，推理吞吐仍然显著提升，这说明架构优化带来的收益，已经超过参数规模增加带来的负担。

在架构改造之后，蚂蚁还进一步对 Ling-2.5-1T-base 进行了基于 9T 优质语料的持续预训练，重点强化了预训练基座的世界知识覆盖与智能体交互的基础能力。

同时，凭借混合线性注意力架构在长文本处理上的高计算效率与可扩展性，他们将 Ling-2.5-1T 的上下文窗口扩展训练至 256K tokens，并通过 YaRN 外推支持最高 1M tokens 的超长上下文处理能力。

三、从实验室到真实场景：架构优化带来了什么？

在蚂蚁对外发布的基准测试中，我们能直观感受到混合线性注意力带来的性能提升。

以 AIME 2026 评测为例，当平均输出长度约为 5890 个 token 时，新一代 Ling-2.5-1T 模型的表现显著超越前代 Ling-1T，并已逼近前沿思考模型的水平。值得注意的是，后者通常需要生成 15000 到 23000 个 token 才能完成同样复杂的任务。

在衡量长文本处理能力的 RULER 与 MRCR 基准测试（覆盖 16K 至 256K token 范围）中，Ling-2.5-1T 取得了优于采用 MLA/DSA 架构的主流大型即时模型（如 Kimi K2.5、DeepSeek V3.2）的分数。

Ring-2.5-1T 则在数学、代码、逻辑等高难推理任务和智能体搜索、软件工程、工具调用等长程任务执行上均达到了开源领先水平。这些任务的性能提升，与混合线性注意力架构在处理长程依赖和状态压缩方面的优势密切相关。线性机制实现了高效的上下文信息传递，有效支撑了复杂推理任务对长序列建模的需求。

这种架构上的优势也直接转化为工程实践上的红利。即便在激活参数量增加至 63B 的情况下，基于混合线性注意力的 Ling-2.5 在单机 8 卡 H200 的配置下，其长文本生成的解码吞吐量（decode throughput）仍显著优于前代 1T 规模模型以及同等参数量的 Kimi K2。

并且，随着生成文本长度的增加，这种吞吐量优势变得越发明显，充分展现了混合线性注意力在长程推理场景下的效率优越性。

模型能力的提升在实际应用案例中同样得到了体现。在下方这个关于《知识产权质押纠纷》的复杂法律指令遵循任务中，Ling-2.5-1T 能够严格遵循超过 10 项涵盖内容框架、细节、格式和字数等多维度的指令约束，生成条理清晰、逻辑连贯的答复。

这得益于优化后的长上下文能力，确保了模型能在跨越多个细分指令的过程中始终保持一致性，避免信息断裂。

而在这个财报解读案例中，模型可以对数十页的财报进行信息的抽取汇总，并对重点财务衍生指标进行计算，得到财报的深度分析结论。

庞大的长上下文窗口与高效的 token 利用率，使得这类复杂任务无需分解，即可一次性流畅完成。

这些技术特性在实际应用中具有明确的商业价值。长期以来，大模型在规模化部署中主要受限于推理成本，而此次架构层面的优化直接降低了单位请求的算力开销，使企业能够在同等硬件条件下支持更高并发，进而降低 AI 功能集成的门槛。

百万 token 级别的长上下文支持，拓展了模型在复杂文档处理场景中的可用性，例如长篇幅法律文书的语义解析、科研文献的批量梳理等。同时，模型在多步推理与跨段落信息整合方面的表现，也为构建企业级智能体及知识处理自动化系统提供了更稳定的技术基础。

结语：跳出 " 参数竞赛 "，回归架构进化的本质

就在 2 月，蚂蚁百灵大模型家族迎来了一系列重要开源与发布：原生全模态模型 Ming-flash-2.0、扩散语言模型 LLaDA2.1、思考模型 Ring-2.5-1T，以及旗舰基座即时模型 Ling-2.5-1T。这一系列模型在多个关键基准上具备竞争力，让蚂蚁稳居国内大模型行业第一梯队，而全系列开源的策略，也让其成为当下 AI 开源生态中不可忽视的新力量。

回溯百灵家族的整体布局，其演进逻辑清晰可见：并非单一追求参数规模攀升，而是在多模态感知、语言生成机制、深度推理能力与即时响应效率等核心维度上全面布局，构建互为补充、协同进化的模型矩阵。

而站在更宏观的行业视角，Ling 2.5 架构的成功，传递出一个重要信号：架构创新仍是大模型演进的关键变量。更高的推理效率、更长的上下文处理、更低的部署成本——这些由架构革新带来的系统性优势，正在重新定义大模型的能力边界。

当技术路线趋于多元，当开源生态持续繁荣，开发者也就拥有了更灵活的工具组合来应对不同场景的挑战。

宙世代

一起剪

相关标签