4 月 1 日 -2 日,以 " 大拐点 新征程 " 为主题的 2025 中国生成式 AI 大会(北京站)隆重举行。
在这场汇聚了 50 余位产学研嘉宾、1500 名观众的盛会上,GMI Cloud 亚太区总裁 King Cui 发表了主题为《AI 推理的全球算力革命:从单点爆发到全球扩容》的演讲。
其提到,GMI Cloud 的核心价值在于:通过顶级生态协作获取高端硬件资源,依托自研 Cluster Engine 云平台和 Inference Engine 推理引擎云平台实现算力的全球化智能调度、扩容与极致性能释放。
在目前这个 AI 推理的时代,重构 AI 算力的成本效益模型,为 AI 应用的研发提供 " 随需而变 " 的全球化算力底座,助力企业在用户激增、竞争激烈的全球市场中,以算力优势构筑商业壁垒,推动 " 全球 AGI" 从技术可能迈向商业必然。
随着 DeepSeek 等国产大模型改写全球商业竞争格局,AI 应用出海浪潮席卷全球。King 在演讲中分享了一个数据:" 中国 AI 应用下载量年增速超 100%,但算力稳定性与成本效率仍是核心瓶颈。" 在全球 AI 应用爆发式增长的产业变革期,算力已成为驱动技术落地与商业扩张的核心生产要素。
作为 NVIDIA 全球 TOP10 NCP,GMI Cloud 目前已在北美、欧洲、亚太部署 12 座数据中心,帮助企业实现全球算力调度与扩容。GMI Cloud 深耕 AI 全球化的算力基础设施领域,以 " 技术纵深 + 全球布局 " 双轮驱动,构建起覆盖硬件适配、弹性调度、性能优化与稳定保障的全栈解决方案,破解企业出海面临的算力部署难题。
以下为 King Cui 的演讲实录精华:
大家下午好!我是来自 GMI Cloud 的 King Cui,今天为大家分享的主题是《AI 推理的全球算力革命:从单点爆发到全球扩容》。从 GMI Cloud 的角度出发,我们探讨如何帮助企业实现全球化的推理云服务。
一、GMICloud:从 GPU 硬件架构到顶层应用,建立全栈 AI 基础设施平台
在今天正式演讲之前,我首先快速地和大家再介绍一下 GMI Cloud,我们是一家 AI Native Cloud 公司,致力于为全球化 AI 应用提供英伟达最新的 GPU 云服务。作为 NVIDIA 全球 TOP 10 的 NVIDIA Cloud Partner(NCP),GMI Cloud 与 NVIDIA 保持密切合作,定期进行技术交流,以帮助我们将 AI 应用做的更完善。同时,得益于投资者的支持,GMI Cloud 在亚太地区拥有最新的 GPU 分配权,能够快速获取最新、最强的 GPU 云服务。
我们推出了 "Cluster Engine 自研云平台 ",专注于为从事大语言模型、文生图、文生视频模型的公司提供训练云平台的支持。同时,因为 GMI Cloud 相信,未来的 AI 应用将快速遍布全球,未来将是一个全新的 " 推理世界 ",Token changes the world,因此 GMI Cloud 面向全球打造了 AI 推理引擎平台 "Inference Engine"。
( 上图)从技术架构来看,GMI Cloud 提供从底层 GPU 硬件到支持应用层的全栈服务:
第一,底层提供 NVIDIA 生态体系内最新、最强的 GPU 云资源,同时也提供适合 AI 存储的云服务,支持 NVMe 高速存储和普通存储,适配不同场景的存储介质,提供不同的云服务。在网络层面,我们提供高速带宽的数据通道,确保 AI 应用的高效运行。再往上就是 MaaS ( Model as a Service ) 模型的推理,同时我们集成了大量已经开源的大模型,并且基于自己的技术自研了 Inference Engine 推理引擎平台。
第二,GMI Cloud 研发了一套计算存储网络,具备 laaS 能力。在计算资源方面,提供裸金属服务器、云主机、K8s 云服务等多种计算形态。
第三,MaaS(Model as a Service)层集成了大量开源大模型,并基于 Inference Engine 自研推理引擎平台,将英伟达 H100、H200 或更先进的 B200 进行适配,以提升模型的 token 吞吐速度。同时,我们具备端到端的监控能力,帮助企业快速发现、定位和解决问题。
第四,应用层得益于各行业企业的实践。特别强调的是,IaaS 层和 MaaS 层均为 GMI Cloud 自主研发,MaaS 层还支持所有 B2B 服务企业接入,以 MarketPlace 的方式为企业提供更好的 MaaS 服务。
二、AI 应用全球化服务趋势下,推理服务的及时性、扩展性、稳定性是核心挑战
自 2022 年底 OpenAI 发布 ChatGPT 以来,AI 产业在算力和模型方面投入巨大,每隔三到六个月,大模型能力便提升一个台阶。
如今,多模态大模型的生成内容质量更高,同时,如今的大模型对物理世界的理解及生成质量的可控性也更强,而且许多公司都已经具备这些能力,在产业层面,这为应用层的爆发提供了很大基础。可以说,AI 的应用爆发具备了技术条件。
2024 年,全球 AI 应用产品已有 1890 个,其中中国相关产品有 356 个,出海产品有 143 个。从访问量来看,2024 年初为 30 多亿,年底已超过 140 亿,增速超过 300%。AI 下载的应用数量也比以前有所增加,中国 AI 应用出海在大规模高速增长。
所以如果大家要做出海,就需要了解在就近国家是否有相应的应用算力提供服务。我们摘取了中国头部应用出海的下载量情况(如图):
中国 AI 应用出海主要集中在美国、印度、亚太、德国和欧洲等地区。收入方面,美国付费意愿较强,亚太地区则以东北亚和东南亚部分地区为主。
中国头部出海 AI 产品的下载主要集中在印度、亚太、德国和欧洲地区。从收入角度来看,美国的付费意愿相对较强。
从全球化角度分析,中国的 AI 应用已经得到了全世界的广泛认可,大家的出海在商业化层面已经迈出了一大步。这里有几个例子,首先是 Manus,前段时间非常火爆,发布 7 天之内达到了 200 万的等待清单,原因是后端的算力和 Web Service 不足以支撑那么多用户的请求。Deepseek 在春节前也非常火爆。它创造了全球所有应用获取用户从 0~1 亿的最快速度,7 天达到 1 亿。当时大家用时发现很多服务不被响应,这也是因为后端算力不足以支撑这么多请求量。当大量用户涌入时,如果后端的推理云服务算力能够及时跟上,整个服务的稳定性和响应及时性将显著提升,从而帮助提高用户留存率。
从这两个案例中,我们发现在 AI 全球化服务浪潮下,推理服务的及时性、可扩展性和稳定性是提高用户留存的核心。
总结一下就是,当 AI 应用选择出海,它将会分布在欧洲、美洲、东南亚、东北亚以及拉美等各个地区,因此大家需要找到在不同地区提供就近的推理算力服务商,以响应 AI 应用请求。当用户增长爆发时,推理相关的算力弹性还需要提高才能满足客户需求,这意味着云厂商的推理服务需要具备自动扩容能力。
在具备大规模用户在线时,我们要考虑如何保障 AI 应用的稳定性和可靠性。
三、Inference Engine 四大核心能力破解 AI 应用全球化难题
GMI Cloud 推出的推理服务能够有效应对上述挑战。在英伟达技术峰会 GTC 上,我们发布了 GMI Cloud Inference Engine。这套 Inference Engine 部署在我们自己研发的 Cluster Engine 上,Cluster Engine 专注于做云管平台,目前整个中间态部分,这是一套自己研发 GM I 云推理引擎的全球调度策略,能够帮助企业客户在全球范围内就近调度所需要的 GPU 云服务。
为了应对 AI 应用的推理需求,Inference Engine 主要包括四个特性:
01 弹性伸缩,跨集群自动扩容
AI 应用的全球用户分布广泛,资源靠近用户可显著降低延迟,而在推理过程中,资源越远,用户推理请求的延时就越高。当用户量快速增长时,系统需快速弹性扩容,提供大量 GPU 云服务。在 CPU 云时代,大家都知道 ECS 的 CPU 云服务速度非常快,每分钟可以谈论几十万核,而在 GPU 时代,对资源的可控性和调度准确性要求非常高。
根据不同客户的需求,我们的服务节点主要分布在欧洲、美洲和亚洲(尤其是东北亚和东南亚地区),Inference Engine 能够动态感知用户网络压力负载,根据负载变化调整负载均衡;基于不同 IP 请求调度到不同地区,并且利用不同地区的资源提供 inference 服务。同时,我们的调度服务也支持与企业内部自建的 GPU 集群之间进行打通,实现统一调度。
02 可视化部署工作流,快速高效部署
对于 AI 应来说,部署分布式推理集群虽然不难,但整个流程较为复杂。首先需准备对应资源,然后下载模型服务,进行资源配置,最后进行软硬件调优。这整个流程耗费企业的 Inference 团队人力资源。
针对热门开源模型(如 DeepSeek、通义千问和 Llama 等),GMI Cloud 已完成高端 GPU 云资源的适配,企业可直接在 Marketplace 上部署;针对自研模型,Inference Engine 提供可视化工作台,支持从部署镜像构建到推理服务上线的全流程可视化操作、零代码操作。
03 集成最先进的高性能 GPU,提供高效推理性能
Inference Engine 已集成英伟达最先进的高性能 GPU 服务。根据英伟达提供的 DeepSeek-FP4 版本报告,优化后的 H200 的 token 吞吐量是 H100 的 6 倍,B200 的 token 吞吐量更是达到 H100 的 25 倍。从效率和经济成本来看,使用更先进、更高性能的 GPU,实际上综合成本会下降。黄教主说,"The More You Buy,The More You Save"。
04 主动监控:自动容错 + 故障诊断 + 极速恢复
大家都知道提供目前的云服务不可能是 SLA Service 100%,但 GMI Cloud 尽可能提供主动监控功能,帮助所有企业用户及时发现问题。
GMI Cloud 拥有一个可视化的云推理监控服务平台,可以看到整个 IP 请求从进来到落到每台服务器上,以及整个网络链路上出现拥塞。我们可以精准定位问题、找到问题原因并以最短的停机时间快速修复。所有流程都可以在 Inference Engine 控制台上实现可视化。同时 GMI Cloud 可以将 API 暴露给所有企业,帮助企业提升自己的监控管理平台。
结语:一朵云 + 两个引擎,高效稳定的云服务架构
GMI Cloud 致力于提供全栈 AI 基础设施,包括一朵云和两个引擎(Cluster Engine 和 Inference Engine),Cluster Engine 为企业客户提供高稳定性的模型训练服务,Inference Engine 则为企业客户提供走向全球化应用的 AI 推理服务。
感谢大家的关注,希望大家的 AI 应用出海越来越顺利!
登录后才可以发布评论哦
打开小程序可以发布评论哦