
智东西
作者 | 程茜
编辑 | 李水青
智东西 2 月 13 日消息,今天,蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型 Ring-2.5-1T。
根据官方信息,相比蚂蚁 2025 年 10 月发布的万亿级思考模型 Ring-1T,Ring-2.5-1T 在生成效率、推理深度和长时程任务执行能力三个关键维度上实现提升,且在长文本生成、数学推理与智能体任务执行上达到开源领先水平。
在生成效率上,Ring-2.5-1T 在 32K 以上长文本生成场景中,对比上代模型访存规模降低至 1/10,生成吞吐提升 3 倍以上。
在深度思考能力方面,该模型在国际数学奥林匹克竞赛(IMO 2025)和中国数学奥林匹克(CMO 2025)自测均达到金牌水平,IMO 为 35 分、CMO 为 105 分。

目前,该模型已经适配 Claude Code 等智能体框架与 OpenClaw 个人 AI 助理,支持多步规划与工具调用。
Ring-2.5-1T 的模型权重与推理代码已在 Hugging Face、ModelScope 等主流开源平台发布,官方平台 Chat 体验页和 API 服务将在近期上线。
Hugging Face:https://huggingface.co/inclusionAI/Ring-2.5-1T
ModelScape:https://modelscope.cn/organization/inclusionAI
一、拿下多项开源 SOTA,达 IMO 金牌水平
为了评估 Ring-2.5-1T 的深度思考与长时任务执行能力,蚂蚁研究人员选择了具有代表性的开源思考模型 DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking 和闭源 API GPT-5.2-thinking-high、
Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking 作为比较。
蚂蚁集团公布的多项权威基准测试结果显示,Ring-2.5-1T 在数学、编程和逻辑推理的 IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2 等高难度推理任务以及 Agent 搜索、工具调用和软件工程 Gaia2-search、Tau2-bench 和 SWE-Bench Verified 等长时任务执行方面均实现了最先进的开源性能。
此外,蚂蚁还对深度思考(Heavy Thinking)模式下的模型性能进行了额外测试,Ring-2.5-1T 在 IMOAnswerBench、HMMT-25 等数学竞赛推理基准和 LiveCodeBench-v6 代码生成基准中超越所有对比模型。
其中,在 IMO 2025(满分 42 分)中,Ring-2.5-1T 获得 35 分,达到金牌水平;在 CMO 2025(满分 126 分)中,该模型获得 105 分,超过金牌分数线 78 分和国家队集训队选拔线 87 分。
研究人员比较了 Ring-2.5-1T 和 Ring-1T 的答案发现,前者在推理逻辑的严谨性、高级数学证明技术的应用以及答案表述的完整性方面均有提升。
在智能体搜索任务 Gaia2-search 中,Ring-2.5-1T 在开源模型中取得了 SOTA 性能。Gaia2 环境强调跨应用工具协作和复杂任务执行能力,Ring-2.5-1T 在规划生成和多步工具调用方面均展现出较高的效率和准确性。
二、三大关键维度提升,能快速适配 Claude Code、OpenClaw
相比蚂蚁 2025 年 10 月发布的万亿级思考模型 Ring-1T,Ring-2.5-1T 在生成效率、推理深度和长时程任务执行能力三个关键维度上有显著改进。
首先在生成效率方面,通过采用高比例线性注意力机制,Ring-2.5-1T 将内存访问开销降低至 1/10,并将超过 32K token 序列的生成吞吐量提高了 3 倍以上,适用于深度思考和长时程任务执行。
其次在深度思考层面,该模型在 RLVR(基于可验证奖励的强化学习)基础上引入密集奖励机制,为推理过程提供严格性反馈,使 Ring-2.5-1T 同时达到 IMO 2025 和 CMO 2025(自测)的金奖水平。
最后是长程任务执行,Ring-2.5-1T 通过大规模完全异步智能体 RL(强化学习)训练,增强了解决复杂任务的长时程自主执行能力,使其能快速适配 Claude Code 等智能体编程框架和 OpenClaw 个人 AI 助手。
三、引入混合线性注意力架构,可提升长程推理场景吞吐量
Ring-2.5-1T 基于 Ling 2.5 架构,通过优化注意力机制,可提升长文本推理的效率与稳定性。
作为实现自主模型架构的关键进展,Ling 2.5 架构在 Ling 2.0 架构的基础上引入了一种混合线性注意力架构。通过增量训练,研究人员将 Ling 2.0 架构中的 GQA(分组查询注意力)升级为 MLA(多头线性注意力)+Lightning Linear 结构的 1:7 比例。
具体来说,基于其先前发布的 Ring-flash-linear-2.0 技术路线图,研究人员将部分 GQA 层转换为 Lightning Linear 注意力,以提升长时程推理场景中的吞吐量。
同时为了进一步压缩 KV 缓存,研究人员将剩余的 GQA 层近似转换为 MLA,同时针对 QK Norm(查询 - 核归一化)和 Partial RoPE(部分旋转位置编码)等特征进行针对性改进,从而增强 Ling 2.5 架构的表达能力。

在此基础上,模型激活参数规模从前代的 51B 提升至 63B,并且在混合线性注意力架构的支持下,其推理效率相比 Ling 2.0 仍实现大幅提升。
与仅具备 32B 激活参数的 Kimi K2 架构相比,在 1T 总参数量下,Ling 2.5 架构在长序列推理任务中的吞吐表现优势显著,且随着生成长度增加,效率优势持续扩大。

在一台配备 8 块 H20-3e GPU 的机器上,批处理大小 =64,比较不同生成长度下的解码吞吐量

在一台配备 8 块 H200 GPU 的机器上,批处理大小 =64,比较不同生成长度下的解码吞吐量
结语:从短对话到复杂规划,大模型需突破长文本瓶颈
随着 AI 大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景扩展,Ring-2.5-1T 可以缓解模型在长输出场景下计算开销高、推理速度慢的问题。
此前,传统架构在面对超长文本、多模态内容、复杂业务流程时,普遍面临算力成本高、响应延迟大、部署难度高等问题,蚂蚁百灵团队此次通过底层架构创新,或为行业提供一条兼顾性能、成本与扩展性的技术路径。


登录后才可以发布评论哦
打开小程序可以发布评论哦