智东西
作者 | 王涵
编辑 | 漠影
智东西 10 月 9 日消息,昨日夜间,蚂蚁集团正式开源 Ling 2.0 系列中首个旗舰级非思考模型 Ling-1T,参数量达到 1T(1 万亿)!
Ling-1T-base 基于 Ling 2.0 架构构建,在超 20T token 的语料上完成预训练,支持最高 128K 上下文窗口。
Ling-1T 全程采用 FP8 混合精度训练,是目前已知规模最大的使用 FP8 训练的基座模型。通过 " 中训练 + 后训练 " 的演进式思维链(Evo-CoT)技术,该模型的高效推理能力得到有效提升。
Ling-1T 在推理、数学以及编程等基准测试中取得 22 项 SOTA 表现,部分基准测试超越 DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905,复杂推理能力可媲美闭源 API。
Ling-1T 现已在 Hugging Face 和魔搭社区全面开源。
开源地址:
HuggingFace:
https://huggingface.co/inclusionAI/Ling-1T
ModelScope:
https://modelscope.cn/models/inclusionAI/Ling-1T
Ling chat(国内用户):
https://ling.tbox.cn/chat
ZenMux(海外开发者,提供 Chat 测试与 API 等能力):
https://zenmux.ai/inclusionai/ling-1t
一、数学推理能力 SOTA,超越 Gemini-2.5-Pro 和 DeepSeek-V3.1-Terminus
Ling-1T 在 7 项有关数学以及推理能力的基准测试中获得 SOTA 表现。在 MultiPL-E、LiveCedeBenchi2408-25051、CadeForces-raling 以及 FullStack Bench 等编程能力基准测试中,Ling-1T 超越 DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905 以及闭源的 GPT-5-main、Gemini-2.5-Pro。
在 AIME 25 基准测试中,Ling-1T 拓展了推理精度与推理长度的帕累托边界,展示了其在 " 高效思考与精准推理 " 方面的优势。
Ling-1T 结合了深度语义理解与精准代码合成,在视觉推理与前端代码生成任务中表现较好。研究团队引入混合语法 - 功能 - 美学奖励机制,使模型不仅能生成正确且功能完整的代码,还展现出精致的视觉美感。
在 AI 代码生成评测标准 ArtifactsBench 上,Ling-1T 在开源模型中排名第一,且本文中的基准可视化内容实际均由 Ling-1T 自身生成。在 BFCL V3 工具使用基准测试中,Ling-1T 仅通过轻度指令微调即实现约 70% 的工具调用准确率,尽管训练期间未接触大规模轨迹数据。
Ling-1T 能够解析复杂自然语言指令,将抽象逻辑转化为功能化视觉组件,还能生成跨平台兼容的前端代码,以及生成创作风格受控的营销文案与多语种文本,这些能力构成了通用协作人机智能的基础。
例如,让 Ling-1T 开发一个展示《三体》主要人物关系及阵营的图谱页面,并提供详细的视觉效果要求(配色、风格、鼠标悬停效果等)。
让 Ling-1T 根据要求开发 Crane 云平台网页,其完整实现了用户登录、数据仪表盘、客户管理、设备管理等功能。
再比如,Ling-1T 开发的 " 在线塔罗牌运势预测 " 页面,完整实现了首页、占卜流程、运势报告、塔罗数据库、用户评价、塔罗知识小贴士等产品功能。
Ling 还可以生成随意控制的六边形 + 小球运动:
指令:写一个 HTML 脚本,展示 1 个小球在旋转的六边形内弹跳碰撞,需要满足如下要求:
1. 六边形大小可以实时调整
2. 六边形旋转速度可以实时调整
3. 小球大小可以实时调整
4. 小球和六边形间的碰撞符合物理规律,需要考虑重力、摩擦力、反弹力等等
还可以要求 Ling-1T 开发一个展示其自身不同写作风格能力的应用,包括前端页面和后端服务调用脚本。
Ling-1T 可以根据提示词要求,对六种常见的优化问题(线性规划、旅行商问题、车辆路径问题、作业调度、最大流求解、交互式数独)进行求解并同时用 pygame 生成教学演示动画。
更日常一些,Ling-1T 能够根据给定信息和要求(酒店、目的地坐标,步行为主,停留时长等)进行上海一日游行程规划,并开发页面,利用 mapbox 地图引擎展示整个行程。
Ling-1T 还能玩扫雷游戏。
二、1 万亿总参数、500 亿激活参数,Ling-1T 预训练推理语料占比超 40%
Ling 2.0 架构基于 Ling 缩放定律指导,确保了即使在 1e25 – 1e26 FLOPs 计算量下仍保持架构与超参数的可扩展性。
关键架构创新包括:
1、1 万亿总参数 /500 亿激活参数,混合专家激活比为 1/32;
2、MTP 层用于增强组合推理;
3、无辅助损失、S 型函数评分专家路由与零均值更新;
4、QK 归一化实现完全稳定收敛。
Ling-1T 全程采用 FP8 混合精度训练,是目前已知规模最大的使用 FP8 训练的基座模型。FP8 混合精度训练可以实现 15% 以上的端到端加速,提升内存效率,并在 1 万亿 token 训练中保持与 BF16 精度损失偏差 ≤0.1%。
由于 Ling 2.0 的层间异构架构容易导致流水线负载不均,研究团队将 interleaved 1F1B pipeline 改进为异构细粒度 pipeline,实现了更精细的流水线编排与更低的空泡率,带来超过 40% 的端到端加速。
此外,研究团队还在算子融合、通信优化、重计算、Checkpoint 存储、仿真训练与细粒度监控等方面进行了系统性优化。其研究团队透露,其中大量设计思路和技术方案源自开源社区。
训练阶段,Ling-1T 使用了超过 20 万亿个高质量 token,研究团队在第二阶段(后 10T token)的预训练中引入了高推理密度语料,使整个预训练过程中推理相关语料的占比超过 40%。
在中训练(Mid-training)阶段,研究团队进一步加入了高质量的思维链推理语料,这一策略能够有效实现模型推理能力的 " 预激活 ",为后训练阶段提供更高的推理上限和更稳定的思维基础。
与 Ling-mini-2.0、Ling-flash-2.0 类似,Ling-1T 也采用了自研的 WSM (Warmup-Stable and Merge)LR scheduler。通过 mid-training checkpoint merging 来模拟 LR decay,进一步获得下游任务的整体提升。
基于训练中期的推理激活基础,Ling-1T 的后训练阶段采用进化思维链(Evo-CoT)方法,在可控成本下实现渐进式推理增强。该技术持续拓展推理精度与效率的帕累托边界,特别适合反射式非思考模型。
强化学习方面,研究团队提出 LPO,即语言学单元策略优化,是一种创新的句子级策略优化方法。研究团队认为,对于推理任务而言,句子是更符合语义逻辑的动作单元。
与 GRPO(token 级)或 GSPO(序列级)算法不同,LPO 以句子为自然语义动作单元,实现奖励信号与推理行为的精准对齐。实证表明,LPO 在推理任务中具有更优的训练稳定性与泛化能力。
结语:Ling-1T 在自动化开发、智能编程助手等场景具有落地潜能
蚂蚁集团通过开源 Ling-1T,为开源社区带来了首个万亿参数级别的旗舰非思考模型。凭借 Evo-CoT 演进式思维链、LPO 句子级强化学习等创新技术,Ling-1T 在保持高效能的同时,实现了与闭源顶级模型相媲美的复杂推理能力。
从应用前景看,Ling-1T 在前端代码生成、视觉理解等场景展示的实用能力,以及仅通过轻度指令微调就能实现约 70% 工具调用准确率的表现,使其在自动化开发、智能编程助手等场景具有应用落地潜能。
登录后才可以发布评论哦
打开小程序可以发布评论哦