拿下中国 AI 云市场第一后,阿里云又敞开说了。
援引第三方机构 Omdia 数据,中国 AI 云市场规模达到 223 亿元,阿里云占比 35.8% 位列第一。
围绕这一领先地位的技术根基,阿里云的弹性计算、集群、容器、人工智能平台等技术产品负责人来了场 AI Infra 分享会。
AI 全栈云计算、10 万 GPU 拼巨型运算器、AI 落地避坑指南……
可以说,这场 AI Infra 分享会,阿里云不仅亮了算力和 AI 落地的真功夫,连行业痛点也没藏着掖着,来看看具体说了些啥。
全球全栈的 AI 云
首先,阿里云这个全栈 AI 云计算选手,确实把 IaaS、PaaS 到 MaaS 的技术架子搭得挺规整。能从算力底座一路顺到 AI 应用,给企业递上一套端到端解决方案。
阿里云在全球 29 个地域运营 89 个可用区,在它家产品生态里,深度融合了计算、存储与 AI 能力,
比如,在存储领域,还有即将发布的 OSS向量 Bucket,存储成本大降。
此外,Tablestore 查千亿级数据更是快到按毫秒算。
在物流、医疗这些领域,阿里云也确实帮部分客户把效率提了提、成本压了压,给行业数字化转型助推了一把。
10 万 GPU 集群高效互联
接下来是集群。摩尔定律逐渐失效?阿里云早有 Plan B。
用香农定律,阿里云可以把 10 万张 GPU 拼成一个巨型运算器,构建了大规模的计算集群。
这就不再是传统网络连接 CPU 做输入输出,而是通过高速互联,将数万个 GPU 组成一个统一的超级运算器,共同完成单一任务。
阿里云的计算负责人表示,这个转变,就像从单个火箭到用数百个火箭捆绑发射的星舰,底层科学理论没变,但工程的复杂度呈指数级增长。
集群规模越来越大,那么如何保证这台超级计算机高效稳定地运行呢?
亲和性调度机制至关重要。
亲和度调度机制确保任务被分配到最接近的 GPU 上,能最大限度地减少通信延迟,避免性能衰减。
同时,当集群规模达到上万甚至十万卡时,故障率会显著提升,一个万卡任务可能每十几分钟就会遇到一次故障。因此,构建这套秒级的多层级故障监控和感知系统,实现故障的快速发现和任务的无缝迁移,就成为了保障大规模训练连续性的关键。
容器,AI 原生底座
容器服务是一种云计算技术服务,核心是通过 " 容器 " 这一标准化技术单元,实现软件应用的高效部署、运行与管理。
它可以将软件运行所需的代码、依赖库、配置文件等核心组件封装在一起,形成独立的容器实例。这些实例具备环境隔离特性,能在不同的服务器操作系统(如 Linux、Windows)或计算环境(本地服务器、云端服务器)中保持一致的运行状态,避免在本地能跑、换环境就报错的兼容性问题。
在 AI 时代,容器技术也扮演着 " 云上操作系统 " 的角色,尤其是在 GPU 时代,应用都长在容器上。
容器不仅能帮助企业提升资源利用率(把小红书的 CPU 利用率从 10% 拉到 50% 以上),更成为了 AI 应用标准化交付的工具。
阿里云容器服务 ACK ( Alibaba Cloud Container Service for Kubernetes ) 就像一个服务器端的安卓系统,向上支撑着模型训练、数据处理、推理服务等各类 AI 应用,向下则高效地调度和管理着包括灵骏智能计算集群、CPU/GPU 算力、存储和网络在内的底层资源。
从数据处理到模型训练,再到推理服务,容器贯穿了 AI 开发的全流程。
例如,阿里云开源的调度器 Koordinator 通过队列、优先级等精细化调度策略,最大限度地挖掘 GPU 潜力,提升训练效率。
有趣的是,阿里云容器的开源技术,还被 OpenAI 采用过。
2021 年, OpenAI 将其 Kubernetes 集群扩展到惊人的 7500 个节点以支持 GPT-3、DALL · E 等大模型训练时,遇到了一个关键挑战:
分布式训练任务需要所有计算单元同时启动,否则就会陷入 " 部分调度、整体卡死 " 的僵局。
为了解决这个问题,OpenAI 采用了 Kubernetes 的 Coscheduling(协同调度)插件。
而这个至关重要的插件,其核心技术和思想最早正是由阿里云的工程师们贡献给社区的。
从效率到涌现
聊完底层的算力、存储和容器服务,则进入了如何帮助 AI 落地的关键环节。
企业用 AI,说白了就图俩:效率和惊喜(突破)。
前者是 AI 辅助写稿、编程的基础价值,后者则是模型超出预期的能力跃迁,比如精准预判业务需求的关键瞬间。
为了让这俩需求落地,阿里云把涌现拆成了三档:预训练决定 " 基础智商 ",后训练负责 " 专项技能 ",业务涌现则依赖数据飞轮的 " 上下文支撑 "。
阿里云有 16 年历史的 DataWorks 也升级成了 AI 搭档,能处理多模态数据还能追根溯源,帮算法工程师解决改完模型却不知道改了哪的难题。
在这场分享会的最后,阿里云团队谈到,AI Agent 现在还处在试错期。当前仍面临三大挑战:
结果确定性不足
推理过程难可视化
成本偏高
但阿里云已着手解决这一问题,比如优化沙箱环境,未来将支持 AI 自主完成数据可视化、工业制图等复杂任务,为其搭建可控操作空间。
最后还聊到具身智能、后训练、世界模型等话题。
整场分享下来,可以看出在 AI 这场马拉松里,阿里云不仅想跑快,还想把赛道修得更宽更稳。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦