随着大模型走向实际应用,企业 AI 需求正从训练向推理迁移,IDC 预测,到 2026 年,在云端部署算力中推理算力占比将达到 62.2%。由于推理场景更关注吞吐量、响应时间、能效等,许多用户选择更加经济高效的混合算力部署模式,在满足业务性能需求的同时,实现成本、能耗及灵活性最优。如何在混合算力环境下高效、便捷地开展推理服务部署,成为企业释放 AI 价值的关键。
为降低推理服务部署门槛,提高混合算力环境下部署效率,浪潮信息推出元脑服务器操作系统 KOS AI 推理版,通过集成 60 余个专用软件包、CUDA 运行库等核心组件及依赖项,实现推理环境一站式部署,环境准备时间从 " 数天级 " 压缩至 " 分钟级 ";通过屏蔽底层设备差异实现算力资源智能调度,显著提升混合算力场景下的推理性能,并依托全面监控工具保障模型推理的高效、稳定运行。
模型推理服务部署 企业数智化转型的关键一环
随着大模型走向落地应用,推理成为企业普遍需求,强大的推理能力则成为企业数字化转型和智能化升级的重要推动力。对于广大用户尤其是中小企业而言,如何利用有限的基础设施实现推理服务高效部署,成为其面临的一项挑战。
AI 推理服务部署是一项涉及众多环节的系统工程,主要包括环境搭建、服务配置与监控运维等。
■ 首先,推理环境搭建复杂耗时。环境搭建是 AI 推理服务的第一步,尤其在混合算力条件下,需要适配各类硬件设备,支持必要的软件工具和模型文件,并解决 GPU 驱动适配、环境参数、软件栈与容器依赖等诸多问题。目前,国内外主流 CPU、GPU 型号达数十款,与推理相关的环境参数达到 40 余项,不同类型的资源准备通常耗费数天时间。并且客户数据中心环境复杂,在大量并发访问情况下, 如何实现混合算力资源的按需调度,成为用户在环境搭建时需要考虑的问题。
■ 其次,服务配置繁琐易错。目前,业界主要采用容器化部署方式,需要手动配置繁琐的 Docker 参数,例如基础镜像选择、端口映射、卷挂载、GPU 驱动兼容性等,且不同参数之间存在复杂的依赖关系,配置过程极易出错。企业需要高度自动化、可视化的配置工具,简化配置流程,减少手动干预和配置错误风险,实现 " 一键配置 "。
■ 最后,在服务上线后,需要持续监控系统性能、资源使用情况及错误日志等,以便快速定位并解决问题。如果用户缺乏专业背景,就难以实时掌握系统状态,发现问题也会滞后。因此,用户需要一个直观易用的监控系统和告警机制,以简化日常运维工作。
元脑 KOS AI 推理版实现混合算力资源池化管理,推理服务 " 开箱即用 "
为此,浪潮信息发布元脑 KOS AI 推理版,通过在环境搭建、服务部署、资源管理及运维监控等方面的技术创新,让 AI 推理部署从 " 复杂工程 " 变为 " 开箱即用 ",助力开发者与企业快速构建并开展 AI 应用探索。元脑 KOS AI 推理版主要特性如下:
// 屏蔽底层硬件差异," 分钟级 " 搭建推理环境
作为硬件与推理框架的中间层,AI 推理版能够帮助上层推理框架屏蔽底层硬件差异,推理框架无需主动选择算力来源,基于算力资源池实现动态调度与共享,充分提升混合算力情况下的推理性能;同时,能够避免算力不足的情况下,因为硬件的限制导致设备间负载偏斜,实现在大规模集群场景下的混合算力充分释放。
同时,推理版预装最新版 CUDA Toolkit 与 GPU 驱动并持续迭代,针对不同 GPU 架构进行深度优化,在各种推理应用场景下精准识别与适配各类 GPU 架构的特性,如流处理器架构、CUDA 等,并在不同硬件环境下都能获得最优的系统配置;深度预集成 AI 推理专属软件仓库栈,内置 GPU 驱动组件、Docker 容器工具包、CUDA/cuDNN 运行库等核心组件,以及上述组件的一二级依赖项,共计超过 60 个软件包,在离线场景下,用户仅需一条命令即可完成基础环境的部署、依赖解析与配置。
// 集成主流 AI 框架," 积木式 " 完成服务配置
基于多模态推理大模型应用,元脑 KOS AI 推理版深度集成主流 AI 框架的容器镜像,包括 vLLM、Pytorch、Transformer 等推理框架及深度学习库,以及 cuDNN、NCCL、OpenCV 等主流 AI 库。通过完善的依赖管理机制,解决了不同框架与库之间的版本依赖与冲突问题;用户可通过标准化服务接口以及 REST API,将训练好的 AI 模型从开发环境快速部署到生产环境,无需复杂的配置和调试,前端应用可以立刻开始调用模型进行推理;元脑 KOS AI 推理版提供双模式启动功能,面向具备快速部署和运行推理服务需求的用户提供开机自动启动模式,面向具备个性化推理调优需求的用户提供手动启动模式。
// 提供 vLLM 观测功能," 直观化 " 运维监控
元脑 KOS AI 推理版 vLLM 观测功能提供全面的监控指标和工具,帮助用户深入了解推理过程中的性能瓶颈,优化资源分配和推理策略,确保推理的高效、稳定运行。元脑 KOS AI 推理版集成了 Prometheus 客户端,并支持通过 Grafana 配置仪表盘,实现对延迟、吞吐量、GPU 显存等关键指标的实时监控。用户可以通过直观的可视化界面,快速了解模型推理过程中的各项指标变化情况,及时发现异常并进行调整。
综上,KOS AI 推理版通过融合混合算力、AI 软件栈深度集成、推理过程高度可观测,实现 " 模型开发与训练 - 推理环境搭建 - 推理服务部署与运行 " 的全流程优化,支撑用户快速构建智能化 AI 应用。
登录后才可以发布评论哦
打开小程序可以发布评论哦