蚂蚁集团发布最新AI成果：无需高端GPU，计算成本降低20%

长久以来，英伟达凭借高性能芯片构筑起 " 算力霸权 "，在 AI（人工智能）模型训练领域占据主导地位。这一局面在 DeepSeek（深度求索）问世后遭遇到不小冲击，如今又面临着新的挑战。

3 月初，由蚂蚁集团首席技术官何征宇带领的 Ling 团队发表了一篇技术成果论文。论文显示，该团队开发了两款百灵系列开源混合专家（MoE）模型 Ling-Lite（总参数为 16.8B）和 Ling-Plus（总参数为 290B）。相比之下，据《麻省理工科技评论》，GPT-4.5 总参数为 1.8T，DeepSeek-R1 总参数为 671B。

惊艳之处在于，Ling 团队在模型预训练阶段使用较低规格的硬件系统，将计算成本降低了约 20%，训练 1 万亿 Token（词元）成本从 635 万元降至 508 万元，最终取得了与使用高性能芯片（如英伟达 H100、H800 等）的模型相当的效果。

百灵系列混合专家模型的横空出世，让市场再次质疑英伟达的 " 算力信仰 "。Hugging Face（抱抱脸）工程师 Tiezhen Wang（人名）在社交媒体上表示，" 做空英伟达的又一理由？"Tom ’ s Hard-ware（一个测评网站）发表评论称，蚂蚁集团此次的技术突破清晰展现出中国正坚定地朝着技术独立方向迈进。

针对此事，3 月 24 日蚂蚁集团回应媒体称，针对不同芯片持续调优，以降低 AI 应用成本，目前取得了一定的进展，也会逐步通过开源分享。

计划应用于医疗等领域

目前，蚂蚁集团 Ling 团队的技术成果论文《每一个 FLOP 都至关重要：无需高级 GPU（图形处理器）即可扩展 3000 亿参数混合专家 LING 大模型》已发表在预印本平台 arXiv 上。

蚂蚁 Ling 团队认为，正如 DeepSeek 开源发布中分析的 " 昼夜推理负载不均 " 问题，在推理服务高峰期，高性能资源同样面临短缺。在长期科研实践中，许多机构都持续面临着高端 AI 加速卡供应不足的问题。相比之下，性能较低的加速器更易获得，且单价更低。因此，模型需要能在异构计算单元和分布式集群间切换的技术框架，同时在 AI Infra（人工智能基础设施）部分，在跨集群、跨设备的兼容和可靠层面进行性能优化。

该团队的实验结果表明，参数规模为 300B 左右的混合专家模型可以在性能较低的设备上有效训练，并在性能上达到与同规模的其他模型相当的水平。

以 Ling-Plus 模型为例，在实验中，该模型在五种不同硬件配置下完成 9 万亿 Token 的预训练任务。经测算，使用高性能硬件设备训练 1 万亿 Token，预计成本高达 635 万元人民币，而使用低规格硬件系统，成本则可控制在约 508 万元，节省近 20%。

在英语理解能力上，LingLite 模型在一项关键基准测试中的表现与 Qwen2.5-7B（模型名）相当，优于 Llama3.1-8B（模型名）和 Mistral-7B-v0.3（模型名）。

在中文理解能力上，LingLite 和 Ling-Plus 模型表现明显优于海外模型 Llama3.1-8B（模型名）和 Mistral- 7B- v0.3（模型名）。在部分基准测试中，LingPlus 表现略优于 DeepSeekV2.5（模型名），与 Qwen2.5-7B 相当。

在数学和代码基准测试方面，Ling- Lite 的表现与 Qwen2.5-7B-Instruct（模型名）相当，优于 Llama3.1- 8B 和 Mistral- 7B-v0.3。Ling- Plus 的表现优于 DeepSeek-V2.5，接近 Qwen2.5-72B 的水平。

在工具使用方面，大多数情况下，Ling-Plus 和 Ling-Lite 在基准测试中均取得了最佳成绩。而工具使用对于大语言模型来说是一项重要且具有挑战性的任务。工具使用能力使模型能够作为 AI 代理工作、控制机器人系统并与众多软件工具集成。

此外，在安全性方面，LingPlus 和 Qwen2.5-7B 表现突出，而 Ling-Plus 在错误拒绝方面表现更佳。

提高大模型的无害性（harmlessness）通常会导致其有用性（helpfulness）的降低。测试结果表明，Ling-Plus 在安全性和错误拒绝之间整体平衡性上表现最佳。

据悉，蚂蚁百灵大模型 LingPlus 和 Ling-Lite 计划开源，并应用于医疗、金融等行业领域。

打破 " 算力霸权 "？

有分析称，百灵系列混合专家模型的推出标志着蚂蚁集团加入 AI 领域的竞赛。自 DeepSeek 展示出能够以远低于 OpenAI（公司名）和谷歌投入的数十亿美元成本训练出强大模型以来，这一竞争加速升级。

此前，DeepSeek 在技术论文中表示，DeepSeek-V3 模型（总参数 671B，激活参数 37B）总训练成本为 557.6 万美元，完整训练消耗了 278.8 万个 GPU 小时，几乎是同等性能水平模型训练所需的十分之一，堪称 " 榨干 "GPU，也因此引发了资本市场的恐慌。

对此，英伟达 CEO（首席执行官）黄仁勋在公开场合多次赞美 DeepSeek，但其认为，DeepSeek-R1 等更高效的模型出现，反而会刺激计算需求增长。

然而，蚂蚁集团正在探索一条新的路径——在无高端 GPU 的情况下扩展模型训练能力。

百灵系列混合专家模型的横空出世，让市场再次质疑英伟达的 " 算力信仰 "。Tiezhen Wang 在社交媒体上表示，" 做空英伟达的又一理由？" 著名硬件媒体 Tom ’ s Hardware 指出，这极有可能成为（中国）降低对西方技术依赖进程中的又一重要里程碑。

蚂蚁集团有关人士告诉《每日经济新闻》记者，在模型训练过程中，他们既使用了国产芯片，也采用了英伟达芯片。

Tom ’ s Hardware 发表评论称，蚂蚁集团此次技术突破清晰展现出中国正坚定地朝着技术独立方向迈进。彭博资深商业智能分析师罗伯特 · 李（Robert Lea）同样指出，蚂蚁集团的研究展示了中国在 AI 创新方面的快速进步，也显示出本土企业正朝着 AI 自给自足的方向迈进。

每日经济新闻

宙世代

一起剪

相关标签