阿里云容器服务覆盖AI全流程，团队透露：OpenAI训练GPT时就用了我们的开源能力

拿下中国 AI 云市场第一后，阿里云又敞开说了。

援引第三方机构 Omdia 数据，中国 AI 云市场规模达到 223 亿元，阿里云占比 35.8% 位列第一。

围绕这一领先地位的技术根基，阿里云的弹性计算、集群、容器、人工智能平台等技术产品负责人来了场 AI Infra 分享会。

AI 全栈云计算、10 万 GPU 拼巨型运算器、AI 落地避坑指南……

可以说，这场 AI Infra 分享会，阿里云不仅亮了算力和 AI 落地的真功夫，连行业痛点也没藏着掖着，来看看具体说了些啥。

全球全栈的 AI 云

首先，阿里云这个全栈 AI 云计算选手，确实把 IaaS、PaaS 到 MaaS 的技术架子搭得挺规整。能从算力底座一路顺到 AI 应用，给企业递上一套端到端解决方案。

阿里云在全球 29 个地域运营 89 个可用区，在它家产品生态里，深度融合了计算、存储与 AI 能力，

比如，在存储领域，还有即将发布的 OSS向量 Bucket，存储成本大降。

此外，Tablestore 查千亿级数据更是快到按毫秒算。

在物流、医疗这些领域，阿里云也确实帮部分客户把效率提了提、成本压了压，给行业数字化转型助推了一把。

10 万 GPU 集群高效互联

接下来是集群。摩尔定律逐渐失效？阿里云早有 Plan B。

用香农定律，阿里云可以把 10 万张 GPU 拼成一个巨型运算器，构建了大规模的计算集群。

这就不再是传统网络连接 CPU 做输入输出，而是通过高速互联，将数万个 GPU 组成一个统一的超级运算器，共同完成单一任务。

阿里云的计算负责人表示，这个转变，就像从单个火箭到用数百个火箭捆绑发射的星舰，底层科学理论没变，但工程的复杂度呈指数级增长。

集群规模越来越大，那么如何保证这台超级计算机高效稳定地运行呢？

亲和性调度机制至关重要。

亲和度调度机制确保任务被分配到最接近的 GPU 上，能最大限度地减少通信延迟，避免性能衰减。

同时，当集群规模达到上万甚至十万卡时，故障率会显著提升，一个万卡任务可能每十几分钟就会遇到一次故障。因此，构建这套秒级的多层级故障监控和感知系统，实现故障的快速发现和任务的无缝迁移，就成为了保障大规模训练连续性的关键。

容器，AI 原生底座

容器服务是一种云计算技术服务，核心是通过 " 容器 " 这一标准化技术单元，实现软件应用的高效部署、运行与管理。

它可以将软件运行所需的代码、依赖库、配置文件等核心组件封装在一起，形成独立的容器实例。这些实例具备环境隔离特性，能在不同的服务器操作系统（如 Linux、Windows）或计算环境（本地服务器、云端服务器）中保持一致的运行状态，避免在本地能跑、换环境就报错的兼容性问题。

在 AI 时代，容器技术也扮演着 " 云上操作系统 " 的角色，尤其是在 GPU 时代，应用都长在容器上。

容器不仅能帮助企业提升资源利用率（把小红书的 CPU 利用率从 10% 拉到 50% 以上），更成为了 AI 应用标准化交付的工具。

阿里云容器服务 ACK ( Alibaba Cloud Container Service for Kubernetes ) 就像一个服务器端的安卓系统，向上支撑着模型训练、数据处理、推理服务等各类 AI 应用，向下则高效地调度和管理着包括灵骏智能计算集群、CPU/GPU 算力、存储和网络在内的底层资源。

从数据处理到模型训练，再到推理服务，容器贯穿了 AI 开发的全流程。

例如，阿里云开源的调度器 Koordinator 通过队列、优先级等精细化调度策略，最大限度地挖掘 GPU 潜力，提升训练效率。

有趣的是，阿里云容器的开源技术，还被 OpenAI 采用过。

2021 年， OpenAI 将其 Kubernetes 集群扩展到惊人的 7500 个节点以支持 GPT-3、DALL · E 等大模型训练时，遇到了一个关键挑战：

分布式训练任务需要所有计算单元同时启动，否则就会陷入 " 部分调度、整体卡死 " 的僵局。

为了解决这个问题，OpenAI 采用了 Kubernetes 的 Coscheduling（协同调度）插件。

而这个至关重要的插件，其核心技术和思想最早正是由阿里云的工程师们贡献给社区的。

从效率到涌现

聊完底层的算力、存储和容器服务，则进入了如何帮助 AI 落地的关键环节。

企业用 AI，说白了就图俩：效率和惊喜（突破）。

前者是 AI 辅助写稿、编程的基础价值，后者则是模型超出预期的能力跃迁，比如精准预判业务需求的关键瞬间。

为了让这俩需求落地，阿里云把涌现拆成了三档：预训练决定 " 基础智商 "，后训练负责 " 专项技能 "，业务涌现则依赖数据飞轮的 " 上下文支撑 "。

阿里云有 16 年历史的 DataWorks 也升级成了 AI 搭档，能处理多模态数据还能追根溯源，帮算法工程师解决改完模型却不知道改了哪的难题。

在这场分享会的最后，阿里云团队谈到，AI Agent 现在还处在试错期。当前仍面临三大挑战：

结果确定性不足

推理过程难可视化

成本偏高

但阿里云已着手解决这一问题，比如优化沙箱环境，未来将支持 AI 自主完成数据可视化、工业制图等复杂任务，为其搭建可控操作空间。

最后还聊到具身智能、后训练、世界模型等话题。

整场分享下来，可以看出在 AI 这场马拉松里，阿里云不仅想跑快，还想把赛道修得更宽更稳。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

❤️‍ 企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签