智东西 04-17
GMI Cloud King Cui:AI应用落地全球化加速,AI推理从单点爆发到全球扩容
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

4 月 1 日 -2 日,以 " 大拐点 新征程 " 为主题的 2025 中国生成式 AI 大会(北京站)隆重举行。

在这场汇聚了 50 余位产学研嘉宾、1500 名观众的盛会上,GMI Cloud 亚太区总裁 King Cui 发表了主题为《AI 推理的全球算力革命:从单点爆发到全球扩容》的演讲。

其提到,GMI Cloud 的核心价值在于:通过顶级生态协作获取高端硬件资源,依托自研 Cluster Engine 云平台和 Inference Engine 推理引擎云平台实现算力的全球化智能调度、扩容与极致性能释放。

在目前这个 AI 推理的时代,重构 AI 算力的成本效益模型,为 AI 应用的研发提供 " 随需而变 " 的全球化算力底座,助力企业在用户激增、竞争激烈的全球市场中,以算力优势构筑商业壁垒,推动 " 全球 AGI" 从技术可能迈向商业必然。

随着 DeepSeek 等国产大模型改写全球商业竞争格局,AI 应用出海浪潮席卷全球。King 在演讲中分享了一个数据:" 中国 AI 应用下载量年增速超 100%,但算力稳定性与成本效率仍是核心瓶颈。" 在全球 AI 应用爆发式增长的产业变革期,算力已成为驱动技术落地与商业扩张的核心生产要素。

作为 NVIDIA 全球 TOP10 NCP,GMI Cloud 目前已在北美、欧洲、亚太部署 12 座数据中心,帮助企业实现全球算力调度与扩容。GMI Cloud 深耕 AI 全球化的算力基础设施领域,以 " 技术纵深 + 全球布局 " 双轮驱动,构建起覆盖硬件适配、弹性调度、性能优化与稳定保障的全栈解决方案,破解企业出海面临的算力部署难题。

以下为 King Cui 的演讲实录精华:

大家下午好!我是来自 GMI Cloud 的 King Cui,今天为大家分享的主题是《AI 推理的全球算力革命:从单点爆发到全球扩容》。从 GMI Cloud 的角度出发,我们探讨如何帮助企业实现全球化的推理云服务。

一、GMICloud:从 GPU 硬件架构到顶层应用,建立全栈 AI 基础设施平台

在今天正式演讲之前,我首先快速地和大家再介绍一下 GMI Cloud,我们是一家 AI Native Cloud 公司,致力于为全球化 AI 应用提供英伟达最新的 GPU 云服务。作为 NVIDIA 全球 TOP 10 的 NVIDIA Cloud Partner(NCP),GMI Cloud 与 NVIDIA 保持密切合作,定期进行技术交流,以帮助我们将 AI 应用做的更完善。同时,得益于投资者的支持,GMI Cloud 在亚太地区拥有最新的 GPU 分配权,能够快速获取最新、最强的 GPU 云服务。

我们推出了 "Cluster Engine 自研云平台 ",专注于为从事大语言模型、文生图、文生视频模型的公司提供训练云平台的支持。同时,因为 GMI Cloud 相信,未来的 AI 应用将快速遍布全球,未来将是一个全新的 " 推理世界 ",Token changes the world,因此 GMI Cloud 面向全球打造了 AI 推理引擎平台 "Inference Engine"。

( 上图)从技术架构来看,GMI Cloud 提供从底层 GPU 硬件到支持应用层的全栈服务:

第一,底层提供 NVIDIA 生态体系内最新、最强的 GPU 云资源,同时也提供适合 AI 存储的云服务,支持 NVMe 高速存储和普通存储,适配不同场景的存储介质,提供不同的云服务。在网络层面,我们提供高速带宽的数据通道,确保 AI 应用的高效运行。再往上就是 MaaS ( Model as a Service ) 模型的推理,同时我们集成了大量已经开源的大模型,并且基于自己的技术自研了 Inference Engine 推理引擎平台。

第二,GMI Cloud 研发了一套计算存储网络,具备 laaS 能力。在计算资源方面,提供裸金属服务器、云主机、K8s 云服务等多种计算形态。

第三,MaaS(Model as a Service)层集成了大量开源大模型,并基于 Inference Engine 自研推理引擎平台,将英伟达 H100、H200 或更先进的 B200 进行适配,以提升模型的 token 吞吐速度。同时,我们具备端到端的监控能力,帮助企业快速发现、定位和解决问题。

第四,应用层得益于各行业企业的实践。特别强调的是,IaaS 层和 MaaS 层均为 GMI Cloud 自主研发,MaaS 层还支持所有 B2B 服务企业接入,以 MarketPlace 的方式为企业提供更好的 MaaS 服务。

二、AI 应用全球化服务趋势下,推理服务的及时性、扩展性、稳定性是核心挑战

自 2022 年底 OpenAI 发布 ChatGPT 以来,AI 产业在算力和模型方面投入巨大,每隔三到六个月,大模型能力便提升一个台阶。

如今,多模态大模型的生成内容质量更高,同时,如今的大模型对物理世界的理解及生成质量的可控性也更强,而且许多公司都已经具备这些能力,在产业层面,这为应用层的爆发提供了很大基础。可以说,AI 的应用爆发具备了技术条件。

2024 年,全球 AI 应用产品已有 1890 个,其中中国相关产品有 356 个,出海产品有 143 个。从访问量来看,2024 年初为 30 多亿,年底已超过 140 亿,增速超过 300%。AI 下载的应用数量也比以前有所增加,中国 AI 应用出海在大规模高速增长。

所以如果大家要做出海,就需要了解在就近国家是否有相应的应用算力提供服务。我们摘取了中国头部应用出海的下载量情况(如图):

中国 AI 应用出海主要集中在美国、印度、亚太、德国和欧洲等地区。收入方面,美国付费意愿较强,亚太地区则以东北亚和东南亚部分地区为主。

中国头部出海 AI 产品的下载主要集中在印度、亚太、德国和欧洲地区。从收入角度来看,美国的付费意愿相对较强。

从全球化角度分析,中国的 AI 应用已经得到了全世界的广泛认可,大家的出海在商业化层面已经迈出了一大步。这里有几个例子,首先是 Manus,前段时间非常火爆,发布 7 天之内达到了 200 万的等待清单,原因是后端的算力和 Web Service 不足以支撑那么多用户的请求。Deepseek 在春节前也非常火爆。它创造了全球所有应用获取用户从 0~1 亿的最快速度,7 天达到 1 亿。当时大家用时发现很多服务不被响应,这也是因为后端算力不足以支撑这么多请求量。当大量用户涌入时,如果后端的推理云服务算力能够及时跟上,整个服务的稳定性和响应及时性将显著提升,从而帮助提高用户留存率。

从这两个案例中,我们发现在 AI 全球化服务浪潮下,推理服务的及时性、可扩展性和稳定性是提高用户留存的核心。

总结一下就是,当 AI 应用选择出海,它将会分布在欧洲、美洲、东南亚、东北亚以及拉美等各个地区,因此大家需要找到在不同地区提供就近的推理算力服务商,以响应 AI 应用请求。当用户增长爆发时,推理相关的算力弹性还需要提高才能满足客户需求,这意味着云厂商的推理服务需要具备自动扩容能力。

在具备大规模用户在线时,我们要考虑如何保障 AI 应用的稳定性和可靠性。

三、Inference Engine 四大核心能力破解 AI 应用全球化难题

GMI Cloud 推出的推理服务能够有效应对上述挑战。在英伟达技术峰会 GTC 上,我们发布了 GMI Cloud Inference Engine。这套 Inference Engine 部署在我们自己研发的 Cluster Engine 上,Cluster Engine 专注于做云管平台,目前整个中间态部分,这是一套自己研发 GM I 云推理引擎的全球调度策略,能够帮助企业客户在全球范围内就近调度所需要的 GPU 云服务。

为了应对 AI 应用的推理需求,Inference Engine 主要包括四个特性:

01 弹性伸缩,跨集群自动扩容

AI 应用的全球用户分布广泛,资源靠近用户可显著降低延迟,而在推理过程中,资源越远,用户推理请求的延时就越高。当用户量快速增长时,系统需快速弹性扩容,提供大量 GPU 云服务。在 CPU 云时代,大家都知道 ECS 的 CPU 云服务速度非常快,每分钟可以谈论几十万核,而在 GPU 时代,对资源的可控性和调度准确性要求非常高。

根据不同客户的需求,我们的服务节点主要分布在欧洲、美洲和亚洲(尤其是东北亚和东南亚地区),Inference Engine 能够动态感知用户网络压力负载,根据负载变化调整负载均衡;基于不同 IP 请求调度到不同地区,并且利用不同地区的资源提供 inference 服务。同时,我们的调度服务也支持与企业内部自建的 GPU 集群之间进行打通,实现统一调度。

02 可视化部署工作流,快速高效部署

对于 AI 应来说,部署分布式推理集群虽然不难,但整个流程较为复杂。首先需准备对应资源,然后下载模型服务,进行资源配置,最后进行软硬件调优。这整个流程耗费企业的 Inference 团队人力资源。

针对热门开源模型(如 DeepSeek、通义千问和 Llama 等),GMI Cloud 已完成高端 GPU 云资源的适配,企业可直接在 Marketplace 上部署;针对自研模型,Inference Engine 提供可视化工作台,支持从部署镜像构建到推理服务上线的全流程可视化操作、零代码操作。

03 集成最先进的高性能 GPU,提供高效推理性能

Inference Engine 已集成英伟达最先进的高性能 GPU 服务。根据英伟达提供的 DeepSeek-FP4 版本报告,优化后的 H200 的 token 吞吐量是 H100 的 6 倍,B200 的 token 吞吐量更是达到 H100 的 25 倍。从效率和经济成本来看,使用更先进、更高性能的 GPU,实际上综合成本会下降。黄教主说,"The More You Buy,The More You Save"。

04 主动监控:自动容错 + 故障诊断 + 极速恢复

大家都知道提供目前的云服务不可能是 SLA Service 100%,但 GMI Cloud 尽可能提供主动监控功能,帮助所有企业用户及时发现问题。

GMI Cloud 拥有一个可视化的云推理监控服务平台,可以看到整个 IP 请求从进来到落到每台服务器上,以及整个网络链路上出现拥塞。我们可以精准定位问题、找到问题原因并以最短的停机时间快速修复。所有流程都可以在 Inference Engine 控制台上实现可视化。同时 GMI Cloud 可以将 API 暴露给所有企业,帮助企业提升自己的监控管理平台。

结语:一朵云 + 两个引擎,高效稳定的云服务架构

GMI Cloud 致力于提供全栈 AI 基础设施,包括一朵云和两个引擎(Cluster Engine 和 Inference Engine),Cluster Engine 为企业客户提供高稳定性的模型训练服务,Inference Engine 则为企业客户提供走向全球化应用的 AI 推理服务。

感谢大家的关注,希望大家的 AI 应用出海越来越顺利!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 云服务 全球化 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论