Alter聊科技 2021-11-30
华为OceanStor Pacific斩获IO500榜单第二,数据存储的“时”与“势”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

撰文  /    张贺飞

编辑  /     沈洁

根据世界经济论坛的估算,2020 年全世界产生了超过 44ZB 的数据量,而在十年前全球的数据总量还只有 1ZB。

数据量的指数级增长,预示着人类文明彻底进入了数字化时代,数据已经成为人类存在的另一种方式。特别是在新基建、数字经济等宏观话题大行其道的当下,数据的存储、挖掘、应用早已和经济直接挂钩。

11 月 18 日的国际超级计算大会 SC21 上,正式公布了最新的全球 IO500 榜单。其中华为 OceanStor Pacific 存储在 IO500 榜单和 10 节点榜单中均名列第二,刷新了华为覇榜 IO500 的新纪元。

作为存储性能最权威的世界排行榜之一,IO500 包括总榜单和 10 节点榜单两大类别。由于 10 节点榜单将基准性能测试限制为 10 个计算节点,可以准确反应存储系统为实际程序提供的 I/O 性能,被视为衡量超级计算机应用效率的核心指标。

当华为 OceanStor Pacific 代表的企业占领 IO500 榜单的头部,乃至将榜单前三名均收入囊中的时候,对整个存储市场意味着什么?

    01    

高性能计算三部曲

想要理解数据存储性能的价值所在,似乎有必要回顾下高性能计算(HPC)的进化历程。毕竟在人类从工业文明迈向信息文明的过程中,HPC 扮演了不可或缺的角色,甚至说是科技创新的典型标杆。

以往在复盘 HPC 进化史的时候,不少人习惯按照时间轴进行整理,直观地展现算力上的爆炸性增长。倘若从需求驱动的思路审视 HPC 的发展史,或许可以找到一个新的视角,即应用需求深度影响了 HPC 的进化方向。

最早的 " 超级计算机 " 属于政府主导的项目,第一台电子计算机 ENIAC 的诞生为起点,HPC 在长达几十年的时间里被应用于高能物理、流体力学等学术领域,数值计算的场景决定了 HPC 不断提升计算能力的演变轨迹。

随着越来越多的商业公司进入到计算产业,HPC 的应用场景逐步向油气勘探、气象预测、芯片研发等领域倾斜,模拟仿真的需求渐渐超过了数值计算,HPC 的进化不再只是主攻算力,而是存储、网络等多元化的性能。

到了 2020 年前后,自动驾驶、基因测序、深空探索等商业智能蓬勃向上,HPC 的应用场景也进一步转变:需要卷积更多的历史数据参与计算分析,不断提升分析的精度,对数据存储的性能需求逐渐上升到了新的高度。

正是在这样的大背景下,John Bent、Julian Kunkel、Jay Lofstead 在内的学者纷纷推动 IO 性能的测试方法、基准测试程序和规则,通过模拟应用需要的不同 IO 模型,验证数据带宽(GIB/s)和元数据 ( KIOP/S ) 两个关键维度的性能表现,并在一些 TOP500 计算机上进行了测试。

2017 年的国际超级计算大会上,VI4IO 组织公布了第一份 IO500 榜单,约定每年在 SC 和 ISC 大会上各更新一次排名。

IO500 榜单的出现就像是一道江湖集结令,拉开了各路英雄角逐存储性能的序幕:新兴存储硬件层出不穷,新兴文件系统应运而生,标准和架构也不断推陈出新,数据存储进入了群雄逐鹿的年代。

毕竟 HPC 领域的所有玩家都明白一个道理:现实中许多场景参与计算的数据量已经达到了 PB 级,计算过程中需要频繁进行访存操作,存储性能直接影响着计算的效率,同时对数据可靠性和安全性的要求也越来越高。数据存储性能预料之中的成了高性能计算的聚焦点,也是各大厂商的必争之地。

    02     

HPDA 的产业态势

为何 IO500 榜单有这么大的魔力?答案还要从需求的变化说起。就像在 HPC 的进化历程中,一个明显的态势是从 " 以计算为中心 " 到 " 以数据为中心 " 的转变,进入到了 " 数据密集型 " 的新阶段。

国际权威分析师机构 Hyperion Research,曾在 2020 年对全球 HPC 市场的增速做出预测:2019 年到 2024 年的时间周期内,存储市场的复合增长率有望达到 12.1%,远高于服务器、中间件、应用、服务等市场。

之所以给出这样的判断,离不开一个特定的产业共识:在自动驾驶、气象预测、宇宙探索等热门的应用场景中,HPC 和 AI、大数据的融合越来越紧密,HPC 向 HPDA(数据密集型超算)的演进,屡屡成为行业论坛上的主流议题。

可以找到的例子有很多。

过去地震勘探是二维的,从二维到三维的演进中,采集和处理的数据量增加了 5 — 10 倍;电影渲染逐渐从 2K 向 4K 乃至 8K 过渡,对应的数据量增加了 16 倍;卫星测绘领域的精度从 20 米缩小到 2 米,数据量同比增长了 70 倍……再加上数据分析处理的算法越来越复杂,采集、存储、处理、存档的数据量呈现出爆炸式增长。

然而传统的 HPC 存储主要用于建模和仿真,包括项目文件共享、搜索、归档等等,主要是结构化的数据,且通常是基于顺序的大 I/O 型。但人工智能的工作流程涉及到数据收集、注入、训练、推理和归档,不仅涵盖结构化和非结构化的数据,数据存取的场景也更加复杂,AI 负载需要顺序大 I/O 型和随机小 I/O 型的组合,特别是 AI 数据集标注的元数据管理,需要快速的随机小 I/O 型。

也就是说,推动数据存储性能不断提升的因素,绝不只是 IO500 榜单,而是隐藏在榜单背后的市场需求。传统 HPC 的数据存储已经跟不上需求,能否打破数据存储、性能、效率的限制,已经是 HPC 产业革新的掣肘因素。

按照 Hyperion Research 在《HPDA 趋势白皮书》中的建议,针对 HPDA 负载中经常出现的非结构化数据,数据存储应该进行针对性的创新,包括支持不同的 I/O 模型、支持多协议访问、支持各种数据访问频率、高密度高效设计等等,不断提升数据利用率,进一步释放数据潜力。

恰恰是数据存储的新一轮革命,为华为等企业提供了重拾话语权的机会,并趁机进行直线超车。

    03    

华为越级的硬实力

也就解释了文初的一幕:几年前的 IO500 榜单还被 Intel、DDN、IBM 等企业占领,当 HPC 向 HPDA 演进的时候,华为 OceanStor Pacific 等新势力频频出现,而且就拿到了让人振奋的位次。

如同中国超算力量的强势崛起,华为 OceanStor Pacific 斩获 IO500 榜单全球第二的消息并不令人意外。在这场技术硬实力的较量中,华为 OceanStor Pacific 的 " 越级 " 离不开 4000 多位研发人员夜以继日的努力,以及 3000 多项专利构成的技术创新,打破了 HPC 产业的三重壁垒:

一是多业务混合负载能力。传统 HPC 存储只支持单一负载,形成了性能上的孤岛,导致流程间的数据需要在不同存储间迁移,可以说是效率降低的 " 元凶 "。

华为 OceanStor Pacific 存储搭载了新一代并行文件系统,针对传统 HPC 的问题进行了对症下药:采用目录 DHT 分区、大 IO 直通小 IO 聚合、多粒度磁盘空间管理列技术,一套存储同时实现了大文件高带宽、小文件高 IOPS,配合分布式并行客户端技术,轻松满足了客户对多业务混合负载的需求。

二是多协议无损互通方案。在数据处理过程中,多样性的数据转化、拷贝、加载等环节就占据了 35% 以上的时间,人为制造了阻碍效率升维的格式壁垒。

华为 OceanStor Pacific 的切入点是协议互通,通过统一的数据管理系统和硬件资源池,文件、对象、大数据客户端可以同时读写同一个文件,不需要协议转换的过程,让数据分析的效率提升了 30% 以上,并且避免了数据拷贝产生的冗余副本,节省了端到端的存储资源,让硬件发挥出极限性能。

三是超高密设计的硬件。当海量数据的价值被进一步分析挖掘,就需要保留更多更长久的数据资源,对机房空间、功耗、存储成本等都提出了新的挑战。

为了解决这些 " 痒点 ",华为 OceanStor Pacific 推出了系列化超高密硬件,支持不同硬件间的数据自动分级,全面降低了 HPC 场景的存储成本。以华为 OceanStor Pacific 9950 为例,每个 5U 机箱可容纳 8 个存储节点,提供 128TB 至 614.4TB 裸容量,节省了 60% 以上的机柜空间和能耗。

可以看到,华为 OceanStor Pacific 的软硬件创新,填补了 HPC 向 HPDA 转型的数据存储短板,无形中为 HPDA 进程按下了 " 快进键 ",也为站在转型节点上的企业,提供了迎合数据密集型趋势的 " 理想之选 "。

      04      

写在最后

衡量一款产品、一家企业的价值标杆,绝非是这样或那样的榜单,倘若只是静静地躺在榜单上,再好的结果也没有太大的意义。尽管是 IO500 榜单上一鸣惊人的新秀,但华为 OceanStor 存储并不让人陌生。

中石化物探研究院采用华为 OceanStor 存储的服务,降低了 30% 的数据存储成本,勘探效率提升了 16%,运维管理成本降低了 50%;上海天文台在华为 OceanStor 存储的帮助下,搭建了世界首台 SKA 原型机,性能较传统存储提升了 10 倍;华大基因将华为 OceanStor 存储用于无创产前基因检测业务模型中,数据存储性能提升了 30% 左右,基因检测报告从 15 天压缩到了 7 天……

相较于那些为了冲榜而送测的企业,华为 OceanStor Pacific 正在以一种润物细无声的方式渗透进社会生活的方方面面,帮助千行百业解决数据密集型升级带来的挑战,IO500 榜单第二的殊荣不过是水到渠成的结果。

主理人 |   张贺飞(Alter)

前媒体人、公关,现专职科技自媒体

虎嗅、钛媒体、36kr、创业邦、福布斯中国等专栏作者

转载、商务、开白以及读者交流,请联系个人微信「imhefei」

相关标签

华为 自动驾驶 hpc 超级计算机 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论