降低“卡脖子”风险！上海AI实验室实现千里算力互联训练千亿模型

快科技 7 月 20 日消息，据媒体报道，上海人工智能实验室（上海 AI 实验室）发布 DeepLink 超大规模跨域混训技术方案，并已完成多个项目落地，支持千公里多智算中心跨域长稳混训千亿参数大模型。

此举在全球首次实现长距离跨域异构智能算力的高效整合，不仅可化解全国算力资源分布不均、利用率不高的瓶颈，更可降低 AI 行业对特定芯片的依赖，一旦出现供应链波动，将为 AI 产业提供重要的兜底算力支持，避免被 " 卡脖子 "。

上海 AI 实验室介绍，今年 2 月，上海 AI 实验室联合十余家合作伙伴在上海构建了超大规模跨域混训集群原型，完成了千亿参数大模型连续 20 天不间断训练。随后，该实验室融合中国联通 AINET 算力智联网，跨越 1500 公里连接上海与济南的智算中心，成功实现了千亿参数大模型的跨域混训。

" 跨域混训 " 指的是将位于不同地域、基于不同芯片架构（异构）的多个算力集群互联，协同训练同一模型。这种 " 跨域 + 异构 " 模式虽能汇聚更多算力资源，但技术挑战巨大，此前国内外尚无成功用于生产级模型训练的先例。互联障碍往往导致训练效率极低甚至失败。上海 AI 实验室此次实现了 " 零的突破 "。实测数据表明，其与中国联通合作的跨域混训，等效算力高达单集群单芯片算力的 95% 以上。

当前，国内算力建设快速发展，但也存在区域间资源分布与使用不均衡的现象（如西部地区部分算力资源存在闲置）。同时，智算中心硬件架构多样化趋势明显。因此，整合和盘活跨域异构算力资源具有重要战略价值。

DeepLink 方案创新采用 "3D+PS" 的高内聚低耦合架构，本质上是 " 以算法换带宽 "。它将大规模训练任务分发至千里之外的智算中心，通过算法创新显著降低对网络带宽的依赖，仅需普通专线网络即可开展大模型训练。该方案还具备高容错性，即使某地节点故障，整体训练仍可持续。

除中国联通外，上海 AI 实验室还与中国电信、商汤、仪电等智算平台合作。基于中国电信息壤算网，在不足 10G 带宽条件下，实现了北京、上海、贵州三地智算中心互联和大模型混训，等效算力依然保持在 90% 以上。理论上，DeepLink 支持动态配置数千公里的跨域混训，国内任意两地智算中心均可借此实现算力整合。

中国联通 AINET 算力智联网在长距无损协议及硬件架构上提供支撑，而 DeepLink 则在算法和软件层面实现突破。双方合作探索了全国算力高效利用的新路径：将分散的 " 碎片化 " 算力聚零为整，形成高价值资源。未来，面对规模激增的 AI 模型对算力的革命性需求，该方案有望避免新建天价超大型智算中心，转而通过 " 低成本组合 " 现有算力中心满足训练需求。

上海 AI 实验室表示，下一步将深化 DeepLink 应用，组建算力生态，拓展应用场景，推动方案被更多服务商整合。目标是让用户能便捷地在全国范围内选择高性价比算力，助力全国算力一体化布局。同时，实验室也将面向 AI 大模型混合推理、分布式强化学习等多元算力需求，持续完善技术方案。

宙世代

一起剪

相关标签