量子位 前天
阿里云容器服务覆盖AI全流程,团队透露:OpenAI训练GPT时就用了我们的开源能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

拿下中国 AI 云市场第一后,阿里云又敞开说了。

援引第三方机构 Omdia 数据,中国 AI 云市场规模达到 223 亿元,阿里云占比 35.8% 位列第一。

围绕这一领先地位的技术根基,阿里云的弹性计算、集群、容器、人工智能平台等技术产品负责人来了场 AI Infra 分享会。

AI 全栈云计算、10 万 GPU 拼巨型运算器、AI 落地避坑指南……

可以说,这场 AI Infra 分享会,阿里云不仅亮了算力和 AI 落地的真功夫,连行业痛点也没藏着掖着,来看看具体说了些啥。

全球全栈的 AI 云

首先,阿里云这个全栈 AI 云计算选手,确实把 IaaS、PaaS 到 MaaS 的技术架子搭得挺规整。能从算力底座一路顺到 AI 应用,给企业递上一套端到端解决方案。

阿里云在全球 29 个地域运营 89 个可用区,在它家产品生态里,深度融合了计算、存储与 AI 能力,

比如,在存储领域,还有即将发布的 OSS向量 Bucket,存储成本大降。

此外,Tablestore 查千亿级数据更是快到按毫秒算。

在物流、医疗这些领域,阿里云也确实帮部分客户把效率提了提、成本压了压,给行业数字化转型助推了一把。

10 万 GPU 集群高效互联

接下来是集群。摩尔定律逐渐失效?阿里云早有 Plan B。

香农定律,阿里云可以把 10 万张 GPU 拼成一个巨型运算器,构建了大规模的计算集群。

这就不再是传统网络连接 CPU 做输入输出,而是通过高速互联,将数万个 GPU 组成一个统一的超级运算器,共同完成单一任务。

阿里云的计算负责人表示,这个转变,就像从单个火箭到用数百个火箭捆绑发射的星舰,底层科学理论没变,但工程的复杂度呈指数级增长。

集群规模越来越大,那么如何保证这台超级计算机高效稳定地运行呢?

亲和性调度机制至关重要。

亲和度调度机制确保任务被分配到最接近的 GPU 上,能最大限度地减少通信延迟,避免性能衰减。

同时,当集群规模达到上万甚至十万卡时,故障率会显著提升,一个万卡任务可能每十几分钟就会遇到一次故障。因此,构建这套秒级的多层级故障监控和感知系统,实现故障的快速发现和任务的无缝迁移,就成为了保障大规模训练连续性的关键。

容器,AI 原生底座

容器服务是一种云计算技术服务,核心是通过 " 容器 " 这一标准化技术单元,实现软件应用的高效部署、运行与管理。

它可以将软件运行所需的代码、依赖库、配置文件等核心组件封装在一起,形成独立的容器实例。这些实例具备环境隔离特性,能在不同的服务器操作系统(如 Linux、Windows)或计算环境(本地服务器、云端服务器)中保持一致的运行状态,避免在本地能跑、换环境就报错的兼容性问题。

在 AI 时代,容器技术也扮演着 " 云上操作系统 " 的角色,尤其是在 GPU 时代,应用都长在容器上。

容器不仅能帮助企业提升资源利用率(把小红书的 CPU 利用率从 10% 拉到 50% 以上),更成为了 AI 应用标准化交付的工具。

阿里云容器服务 ACK ( Alibaba Cloud Container Service for Kubernetes ) 就像一个服务器端的安卓系统,向上支撑着模型训练、数据处理、推理服务等各类 AI 应用,向下则高效地调度和管理着包括灵骏智能计算集群、CPU/GPU 算力、存储和网络在内的底层资源。

从数据处理到模型训练,再到推理服务,容器贯穿了 AI 开发的全流程。

例如,阿里云开源的调度器 Koordinator 通过队列、优先级等精细化调度策略,最大限度地挖掘 GPU 潜力,提升训练效率。

有趣的是,阿里云容器的开源技术,还被 OpenAI 采用过

2021 年, OpenAI 将其 Kubernetes 集群扩展到惊人的 7500 个节点以支持 GPT-3、DALL · E 等大模型训练时,遇到了一个关键挑战:

分布式训练任务需要所有计算单元同时启动,否则就会陷入 " 部分调度、整体卡死 " 的僵局。

为了解决这个问题,OpenAI 采用了 Kubernetes 的 Coscheduling(协同调度)插件。

而这个至关重要的插件,其核心技术和思想最早正是由阿里云的工程师们贡献给社区的。

从效率到涌现

聊完底层的算力、存储和容器服务,则进入了如何帮助 AI 落地的关键环节。

企业用 AI,说白了就图俩:效率和惊喜(突破)。

前者是 AI 辅助写稿、编程的基础价值,后者则是模型超出预期的能力跃迁,比如精准预判业务需求的关键瞬间。

为了让这俩需求落地,阿里云把涌现拆成了三档:预训练决定 " 基础智商 ",后训练负责 " 专项技能 ",业务涌现则依赖数据飞轮的 " 上下文支撑 "。

阿里云有 16 年历史的 DataWorks 也升级成了 AI 搭档,能处理多模态数据还能追根溯源,帮算法工程师解决改完模型却不知道改了哪的难题。

在这场分享会的最后,阿里云团队谈到,AI Agent 现在还处在试错期。当前仍面临三大挑战:

结果确定性不足

推理过程难可视化

成本偏高

但阿里云已着手解决这一问题,比如优化沙箱环境,未来将支持 AI 自主完成数据可视化、工业制图等复杂任务,为其搭建可控操作空间。

最后还聊到具身智能、后训练、世界模型等话题。

整场分享下来,可以看出在 AI 这场马拉松里,阿里云不仅想跑快,还想把赛道修得更宽更稳。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者  点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里云 ai 云计算 火箭 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论