雷锋网 06-13
部署 AI,到底选云还是高性价比一体机?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

自年初 DeepSeek 爆火后,越来越多企业开始尝试通过 AI 提升效率。此时摆在面前的问题是:到底是通过云服务购买 Token,还是采购 AI 一体机或服务器进行私有化部署?

多位业内人士对雷峰网表示,从长远看,基于云的 AI 部署方式将成为主流。一方面,AI 能力仍在快速演进;另一方面,企业在探索 AI 应用的过程中,其所需的算力和能力也会不断变化,云计算因而展现出更强的灵活性和部署效率。

在 2025 火山引擎春季原动力大会的英特尔分论坛上,英特尔技术专家对雷峰网表示:" 一些企业的需求长期稳定,一旦现有 AI 解决方案成功部署,就不需要频繁更换解决方案,这类客户更倾向于私有化部署。"

正如华胜天成助理总裁郭涛在论坛上所言:"AI 的价值不在技术本身,而在于是否真正帮助客户降本增效。"

因此,AI 部署方式的选择应依据企业的业务需求和特点而定,甚至可以采用云与私有化结合的混合部署方案。因为英特尔与火山引擎合作,提供既支持私有化、又支持云端部署路径。

值得一提的是,AI 部署不是非 GPU 不可,至强 CPU 在许多场景中也是非常好的选择。

云端弹性算力部署 AI,成本最高可节省 83%

云端部署之所以被认为是未来主流,关键在于其弹性算力和高性价比。

" 围绕大模型的负载,不仅需要大量的 GPU 算力,同时也需要 CPU 的算力协同配合,这种分工模式要求企业必须同步升级两类算力资源,以满足端到端的 AI 业务需求。" 火山引擎云基础产品经理负责人李越渊指出,火山引擎 ECS 通过高度协同 CPU 与 GPU,提升数据处理效率;提供高弹性,并且能够保障客户的安全隐私。

火山引擎 2025 春季原动力大会上,火山引擎与英特尔联合发布了全新第四代 ECS 实例家族,基于最新的英特尔至强 6 处理器,性能与架构全面升级。

相较前一代实例,通用计算基础型实例 g4i 在 MySQL 数据库与 Web 应用中分别实现了 20% 和 19% 的性能提升;算力增强型实例在视频解码和图像渲染上分别提升 15% 和 26%;I/O 增强型实例在 Spark 大数据与 Redis 数据库上实现了 13% 和 30% 的提升。

第四代 ECS 实例的网络与存储能力也实现全面升级,整机网络和存储带宽提升 100%,IOPS 和 PPS 提升 30% 以上,CPU 主频提升 20%。

除了通用场景的性能提升,针对 AI 应用,基于最新四代实例,火山引擎联合英特尔在 RAG 应用进行了深度优化,涵盖上传文档处理、Embedding 向量化、向量检索、Reranking 排序四大环节。借助至强 6 处理器内置的 AMX 加速指令集,任务耗时最多可减少 90%,显著提升全链路效率。

针对广泛应用于推荐和广告投放的经典 WDL(Wide & Deep Learning)模型,火山引擎与英特尔团队进行了深入研究,通过 AMX 优化,CPU 的推理性能实现了质的飞跃。优化后,CPU 实例吞吐能力提升 114%,显著提升模型推理效率。

这些提升都以英特尔至强 6 处理器性能的大幅提升作为基础,在通用计算、Web service 及 AI 等领域,至强 6 的 6900 系列 CPU 性能总体提升高达 2 倍以上,同时提高了 1.4 倍的性能功耗比改善。

相同功耗的情况下,至强 6 处理器相对上一代提升了 1.4 倍以上的性能。如果核心数固定,除了功耗改善之外,仍然可以提供 20% 的性能提升。对于云计算,至强 6 可以实现 2 倍的核心密度、20% 的单核性能提升、60% 的性能功耗比,以及最终会实现代际的 30% 的 TCO 收益。

结合火山引擎推出了业界首创的 " 弹性预约实例 " 售卖模式,客户可以提前预约抖音的潮汐资源,同时获得按量使用的体验以及接近包年包月的价格。

李越渊介绍,相较常规按量计费实例,弹性预约实例使用方式下,最高能够节省 83% 的算力成本,目前弹性预约的售卖方式已全面支持 CPU 和 GPU 实例。

如何降低云端部署 AI 的门槛?

云计算弹性灵活的另一面,是有一定的开发门槛。降低开发门槛,依赖好的软件栈。

英特尔专家表示,优秀的软件栈需要具备几个条件:首先,具备开箱即用性,能在新环境中快速启动并运行一个具有实际价值的 "Hello World" 示例,帮助用户快速上手;

其次,应具备可观察性与可修改性,核心组件应透明可见、可调整,避免成为 " 黑盒 ",这也是开源的重要价值之一;

最后,考虑到 AI 应用的复杂性,软件栈应具备良好的模块化与容器化架构,便于灵活组合与高效部署。

综合以上的考量,英特尔基于开源项目 OPEA,将其变成了一个集成类的开源项目,并且在火山云上提供了一个基于 OPEA 的开发环境,提供了像聊天机器人的应用,后续还将持续更新。

这只是入门,要落地 AI 还需要持续进阶。" 通过系统化的设计之后,我们在网上推出了‘云端进化论’系列课程,通过在线提供的进阶视频,让开发者看到整个链路里端到端的技能分解评估和优化的手段。" 英特尔技术专家介绍。

为进一步应对 AI 的系统复杂性,英特尔将各种服务通过容器化的方式封装,在火山引擎上提供十几种不同的服务,帮助开发者好理解其内在逻辑的同时,后期开发者无论做关键模块的替换、升级或者做多个实例的扩展,微架构的方式都更加方便。

目前,在火山引擎 g4il 实例中,用户可在操作系统选项中看到一个名为 " 开源大模型应用知识问答 " 的新镜像,基于 OPEA,经过选择、点击、启动的步骤,即可在两分钟内部署一个可用的聊天机器人实例。

进阶到更复杂的 Agent 应用,英特尔将 RAG 知识库、工具链与多模态组件封装为 MCP Server,通过统一接口向 Agent 开放调用。

" 通过和火山引擎的合作,我们提供了低门槛、触手可及的硬件环境,提供了开放、白盒使用的软件栈,提供了丰富的从专门到专家,从简单到复杂全套的培训视频。" 英特尔技术专家说," 这些都是为了降低 AI 在云端部署的门槛。"

当然,AI 普及的仍需要产业协作。

正如英特尔中国互联网行业总监李志辉所说:" 芯云协同已进入新阶段,从技术融合迈向生态共建。我们呼吁更多合作伙伴共同参与,建立跨芯片、云服务、应用层的开放标准,降低生态协作成本。"

32B 模型:边缘部署 AI 的甜点

即便云计算足够灵活高效,对于高度关注隐私的企业而言,私有化部署仍是首选,而高性价比的一体机是其理想之选。

这类方案不仅要求硬件平台性价比高,还要确保 AI 效果能满足业务需求。

"32B 的模型是一个很好的价值点。" 英特尔技术专家说,"32B 模型的性能表现出色,远超足够好的范围。另外,因为模型相对小,对算力的需求比较低,使用消费级 GPU 就能满足一些边缘应用落地的需求。"

基于英特尔至强处理器和多张英特尔锐炫显卡的一体机解决方案,采用全新的英特尔锐炫 Pro B60,单卡可提供 24GB 显存,在上下文扩展和并发扩展等场景中,提供更强的处理能力。

不过,硬件只是基础,开发者更关心迁移成本。为此,英特尔提供了包括 vLLM、PyTorch 在内的完整软件栈及服务化企业 AI 平台(EAP),帮助客户顺利迁移至英特尔平台。

" 我想强调,除了提供这套服务之外,我们和业界很多的应用打通,比如说英特尔与跟火山引擎的 HiAgent 合作。" 英特尔技术专家表示。

HiAgent 是火山引擎基于 Agent DevOps 理念打造的智能体平台,支持模型接入、推理、精调及私有化集成。在英特尔的一体机方案中,用户可直接部署 HiAgent 满足企业级 AI 私有部署需求。

目前,英特尔与火山引擎 HiAgent、华胜天成联合打造了基于英特尔锐炫显卡算力平台的 HiAgent 一体机方案,能够为市场提供高性价比、可扩展性更强的 AI 一体机方案。

华胜天成在自身的业务中积极推进 AI 落地,并将其服务能力拓展至更多客户。作为拥有 20 年智能呼叫中心经验的企业,华胜天成打造的智能体产品已广泛应用于金融、烟草、汽车等多个行业。

华胜天成的另一个产品投标大王,最早是用于内部,因为华胜天成作为一家集成商,每年要投上千个标,使用了投标大王之后,提高了近 50% 的效率。

如今,到底如何部署 AI 的答案已不再模糊。无论是技术上还是生态上,英特尔、火山引擎等合作伙伴均已提供完备的私有化与云端 AI 解决方案,并持续降低部署门槛。

关键在于,企业能否找到适合应用 AI 的业务场景,将其价值真正落地。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 英特尔 一体机 gpu 第四代
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论