浪潮服务器微信 2020-07-31
外媒专评AIStation:AI集群运营与AI算法创新同样重要
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,海外权威产品测评机构 ServeTheHome(简称 STH)对浪潮人工智能开发资源平台 AIStation 进行了深度体验,并发布测评报告。STH 专注于服务器、存储、网络和高端硬件测评,是海外专业的测评机构,这也是浪潮 AIStation 在海外市场的测评首秀。

海外专业测评机构 STH 发布浪潮 AIStation 测评文章

AIStation 是浪潮面向深度学习开发、线上推理发布的人工智能开发资源平台,可实现容器化部署、可视化开发、集中化管理等,旨在实现精准的资源管理和调度、敏捷的数据整合及加速、流程化的 AI 场景及业务整合。此次,STH 的编辑以管理员身份和用户身份对浪潮 AIStation 进行了全面的体验,并在测评报告中详尽地阐释了 AIStation 的功能和应用价值。STH 表示,浪潮 AIStation 能够实现对 AI 资源的精细化管理,可以有效打通开发环境、计算资源与数据资源,提升开发效率。

下面是 STH 资深编辑 Patrick Kennedy 的测评叙述:

我们通常将构建和运行 AI 集群,即通过训练和推理来管理所有计算资源、用户、数据和模型视为一项挑战。做好 AI 集群运营可能并不像发现一种解决深度学习问题的新方法那样备受追捧,但对于在组织内扩展共享资源至关重要。浪潮 AIStation 旨在管理该生命周期。我们花了一些时间亲手操作了该解决方案,以了解其运作方式。我也找机会向浪潮 AI 负责人刘军提出了有关新产品的几个问题。

浪潮 AIStation 登陆界面

一、浪潮 AIStation 实操背景介绍

浪潮在中国山东省拥有一个测试集群,我用 Cisco VPN 进行了访问。虽然不知道确切位置,但我想济南(山东省第二大城市和省会)的这座浪潮大厦就是测试群集的所在地,这与 2019 年我们参观的浪潮智能工厂不在同一个园区。我们的许多读者都来自中国以外的国家,而且也没去过山东,这么说吧,济南的人口与纽约差不多。

如果您听说过纽约但没听说过济南,那正是我要重点介绍 AIStation 的原因。浪潮是全球排名前三的服务器供应商,中国市场上大约一半的 AI 服务器都来自浪潮。浪潮面向超大规模用户,其主要能力之一是 AI 服务器,例如我们最近评测的浪潮系统 NF5468M5 和浪潮 NF5488M5。AIStation 也是浪潮产品,可帮助管理大量的 AI 训练和推理服务器、数据以及用户。

从根本上说 AIStation 是基于 Kubernetes 的集群解决方案。浪潮所做的是统一运行 AI 集群时需要解决的许多常见工具和任务。例如,它可以管理用户、组、权限和配额,可以管理与每个用户或组关联的数据以及该数据的权限和存储,还可以管理开发工作以及在集群上调度资源。此外,我们还将介绍作业、用户和节点层面上的一些监控和警报。

二、AIStation 实操:管理员视角

屏幕截图就不在这里一一展示了,选择一部分重点界面进行介绍。在了解用户在系统中看到的内容之前,我想先谈一下管理方面。该解决方案基于 Kubernetes 和容器,非常现代化。如果将其与许多传统的 GPU/HPC/AI 调度系统进行比较,您将更能体会其现代架构的理念。

集群监控

AIStation 在后台开始运行后,大部分日常管理工作都可以使用脚本或通过 Web GUI 完成。可以深入查看各个节点的负载、硬件配置,甚至可实现从用户到容器再到它们在单个 GPU 级别运行的硬件的追踪链。

集群监控 > 节点监控

尽管我们的测试集群只有几个节点,但我们听说 AIStation 已经部署了数百个节点和上千个节点的集群。随着节点数量的增加,创建资源组变得更加重要。AIStation 可以创建多个资源组,将其指定用于开发、训练或通用,也可以为该组设置一些更高级别的管理和预留权限。

资源管理 > 创建资源组

除了创建资源组之外,创建用户和用户组可能更重要。AIStation 可以创建用户或与现有的用户目录工具集成,然后为用户授予访问不同资源、存储配额、GPU 配额等的权限。这很重要,因为公司可能不会想让一个实习生 100%使用整个集群或访问敏感的训练数据 / 模型,而会把优先权给到深度学习专家组成的内部咨询小组。AIStation 的主要价值主张是通过单个系统进行全部管理。

系统管理 > 用户管理 > 用户

管理员还可以根据权限访问整个集群。例如,遇到作业运行缓慢的问题,管理员可以使用监控工具查找他们的作业以及有问题的容器,甚至可以直接进入硬件查看是否有潜在的硬件问题。

开发环境 > 详情

AIStation 还具有相当全面的可视化界面,用于监控集群,界面上可以看到 CPU、GPU 和内存的利用率等信息。在集群生命周期管理方面,这类数据可帮助管理员查看资源配置情况以及系统容量。例如,如果集群以 50%的 CPU、60%的 GPU、95%的内存运行,这就充分说明下一代节点需要更多的内存容量。

报表管理 > 资源统计

管理员用户还可以查看已完成的任务,以查看用户先前运行的内容,包括作业是否成功。在某些情况下,人们会在公司 GPU 集群上挖掘加密货币。此类功能可根据已运行的内容进行审核跟踪,这项功能非常重要。

训练管理 > 已完成任务

除了上述功能之外,另一个重要功能是管理用户在系统中拥有的资源。接下来,我们会从用户的角度进行详细阐述。

三、AIStation 实操:用户视角

每个用户都可以访问一组资源。登录 AIStation 时可以看到仪表板。许多使用限制是通过管理板块中显示的用户、组和资源组功能定义的。

浪潮 AIStation 用户界面

开发人员如果要开始训练任务,可以查看可训练的镜像。这些镜像很重要,因为在系统中创建任务时,它们就是可能正在使用的镜像。它可以是来自 NVIDIA GPU Cloud 的镜像或更加标准的镜像。AIStation 还具有组镜像甚至用户镜像的功能,让用户可以更轻松地选择容器镜像。用户可以看到个人、组和公共镜像。管理员可以将镜像定义为个人镜像或公共镜像,将敏感镜像的查看权限仅开放给特定组或员工,这点也非常重要。

镜像管理

浪潮 AIStation 支持多种框架,用户可以使用 Tensorflow、Pytorch、Paddlepaddle 或其他框架。

训练管理 > 训练任务 > 创建训练任务

数据管理在 AI 集群中极为重要,AIStation 能够定义和存储数据集。从用户的角度来看,他们可以查看哪些数据集可供使用。用户能够将容器镜像、节点 / 物理资源和训练数据相关联。而管理员可以对这些数据集设置权限。这一点很重要,因为有些数据集只有指定用户才能查阅、使用和下载。

在 AIStation 中还可以加载 Jupyter 笔记本,直接编辑 python 文件,并且可以将笔记本保存在集群的存储后台,并轻松与其他用户共享。

开发平台 > 详情

启动任务后,AIStation 平台将集成许多可视化工具。例如,您可以启动 Tensorboard、Visdom 或 Netscope 等工具,从下拉菜单中显示可视化效果;用户可以直接从 Web GUI 进入容器的终端。

用户开发平台可视化 Tensorboard

训练作业可能要花数小时或数天,用户可随时查看当前作业状态进度、检查结果以及待处理的作业及其历史。

训练管理 > 已完成作业

可以看到这种解决方案支持一家公司的诸多用户及具有多代 GPU 的节点。这里没有显示其他一些功能,例如针对管理员和用户的电子邮件警报和通知,但这种解决方案显然是旨在运行公司的整个 AI 操作。因此,我想向 AIStation 的业务负责人询问更多信息,了解其进入市场的战略。

四、对话浪潮刘军

上市策略方面,我向浪潮的 AI 和 HPC 业务负责人刘军提出了一些问题。这个名字听起来可能很耳熟,那是因为他之前也曾帮我们做过专访。

浪潮人工智能与高性能计算总经理 刘军

Patrick Kennedy: 浪潮如何规划 AIStation 的上市?

刘军:AIStation 有直接销售和渠道销售两种销售方式,我们在全球有数十个渠道合作伙伴出售 AIStation。

PK: AIStation 可以集成其他服务器供应商的集群节点吗?

刘军:是的,AIStation 能够集成其他供应商的集群节点。

PK: AIStation 的销售是否针对特定行业?

刘军:自 2019 年 4 月发布以来,已实际应用于金融、教育、互联网和智慧城市等行业。

PK: 只面向大型组织、服务提供商吗?初创企业等较小的组织是销售目标吗?

刘军:AIStation 专为深度学习开发领域而设计,适用于金融、互联网、通信、交通、医疗和教育等行业的大小型企业。

PK: 许可模式是怎样的?

刘军:按 GPU 服务器节点出售。

PK: 升级许可证需要购买新密钥,还是客户凭借现有密钥从浪潮注册服务器上获得新权限?(这里提醒读者,Web GUI 上有一个许可证密钥页面,上文未展示)

刘军:用户可享受三年内 AIStation 的免费升级服务,然后需要购买新密钥进行升级。

PK: 针对该解决方案,浪潮未来会提供其他新的服务吗?

刘军:未来 AIStation 将支持更多的 AI 加速器,并实现资源管理、调度、监控、优化等方面的异构加速。我们将建立一个更全面的 AI 开发生态系统,为行业主流 AI 开发工具、开发框架和深度学习模型提供一个集成的开发平台。

再次感谢刘军耐心为我们的读者解答问题。

最后的话

我想强调一下在此展示 AIStation 的操作视图和上市策略的原因。AIStation 发布第一年即获得不俗的软件销售额。要是看到他们投资公司的 AI 管理软件平台第一年就获得如此成绩,投资者们一定会激动不已。重点是,尽管浪潮将其作为新产品发布,但实际上它已经拥有很多付费客户,这些客户已经在使用此解决方案来管理其 AI 集群和开发团队。

结合当前的功能,再想想异构加速器的概念,就能马上明白该解决方案的前景。它与现有的其他一些集群管理解决方案相比,不同之处在于它甚至可以供大型组织使用,并且全部基于 Kubernetes,而 Kubernetes 正迅速成为下一代服务的主要工具。

总而言之,如果您是一家只有 2-3 人的小型初创公司,那么可能并不需要该解决方案,但随着组织中集群的增多,当调度和管理成为一项更大的挑战时,浪潮 AIStation 的价值便更加凸显出来。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论