21世纪经济报道 07-12
神秘的中国超算:比肩高铁的世界级领先

 

2019 年 4 月,一张类似燃烧中蜂窝煤的照片传遍全世界——这是人类历史上首次得见 " 黑洞 " 的真容。

实际上,关于黑洞的照片早在 2017 年 4 月历经十余天已拍摄完毕,此后,便是将来自全球 8 架射电望远镜收集到的数据进行密集运算,其容量达到每晚 2PB(1PB=1000TB=1000000GB)。

时针再往前,1997 年和 2016 年发生过两次为人印象深刻的 " 人机大战 ",由 IBM 开发的 " 深蓝 " 和由 Google 开发的 AlphGo 最终分别战胜人类大脑,获得围棋比赛的胜利。

执行这些庞大计算的主角有同一个名字——超级计算机

从最早计算容量仅以 K 为单位,用于科研和国防事业,到如今能够 " 算天算地算人 ",并在世界上排名领先,超算在中国刚好度过了 40 年。

最新发布的全球高性能计算机 TOP500 排行榜中,来自中国的 " 神威 · 太湖之光 " 和 " 天河二号 " 分列三、四位。关于下一代 E 级计算(1 EFlops,百亿亿次计算,每秒钟 可执行 1018 次双精度浮点计算 )的研发世界竞赛早已开始。

这项被称为 " 国之重器 " 的技术,在经历两次国际上的 " 出口管制 " 前其实便已开启国产替代步伐,如今,在新技术架构的窗口期,更快构建超算良性生态系统,寻找新一代计算平台的落地方向,正成为重要课题。这对全世界高性能计算人都意味着新的机会和挑战。

"中国超算可能是继高铁之后,另一个可以走向世界输送服务的高新技术。" 国际超级计算济南中心主任张云泉这样向 21Tech 说道。

从无到有的超级计算

在人类文明还没出现文字时,结绳记事作为早期的计数方式,存在过一个漫长的时期。足见计算的历史发展之悠久。不过计算的高速发展,是从近半个世纪以来开始的。

超级计算早期,是以美国 IBM 公司为代表的时代。

上世纪 60 年代左右,美国出于国防安全需要开始推动高性能计算的发展,IBM 7030 也是在那时候诞生。

在商用侧,IBM 介入的领域是人口统计,随着行业技术环境和产业需求的变化,而在此后相继提出 " 电子商务 "、" 智慧星球 "、" 认知商业 " 等一系列转型概念。

" 早期 IBM 做的计算机,基本就属于超算。" 国家超级计算深圳中心主任冯圣中介绍道,实际上超算可以理解为是今天计算机技术的源头。在超算这类大型机应用成功后,才逐步将相应功能下移到 PC、手机等更小型化的终端中。

作为第一代超算人,香港大学资讯科技服务助理总监关永强读大学的 70 年代,压根还没有计算机相关专业。若不是解决工程问题的科研需要,他不会跑到港大电脑中心做兼职。随后的留院任教让他见证了超算从学术界起步探索的阶段。

这也是超算早期发展的两大主要着力点:前沿科研和国防军事。基于此,也令超算中心的主要运营模式为,政府资助支持、国防科研单位主导。

20 世纪 70 年代则开启了全球超算大规模发展的大时代。

早期处于技术领先的是美国公司 ControlData 和 Cray Research,而日本自 80 年代开启大规模政策补贴和产业支持,一度与美国不相上下。这导致 2002-2004 年间,日本超级计算机 " 地球模拟器 " 曾连续 5 次夺得全球超级计算机 TOP500 排行榜桂冠。

" 地球模拟器 ",图源:中国天气网

这期间,1978 年中国启动首台巨型机 " 银河 -I" 研制,并于 80 年代初正式诞生落地。随着技术架构走向并行计算模式,21 世纪开始,全球超算格局开始有了变化。

2010 年,由国防科学技术大学研制的中国首台千万亿次超级计算机 " 天河一号 " 首次拿下全球超级计算机 TOP500 第一名;2013-2017 年间,中国相关机器持续盘桓在超算榜首位置。

" 超算拿第一后,对整个世界的超算生态都会带来影响。这意味着全球地位会提升、合作机会变多、自身水平也会提升。" 张云泉向 21Tech 解释道,比如会提前观察到一些现象或困难,也会带来一些新的科学发现,尤其在综合国力和科学发现实力上,将起到支撑作用。

冯圣中则介绍,在新材料的研发上,超算就发挥着重要作用。" 目前超算可能有 30% 的计算能力都在支持类似材料设计的工作。" 他进一步表示,一些看起来 " 脑洞大开 " 的需求,比如是否存在支持热缩冷涨的材料、石墨烯等材料的设计应用等,都需要通过超算设备运行发现。

或许也正因如此,在中国的超算发展之路上,曾经历过 2 次技术挑战。

2015 年 2 月,美国将国家超算长沙中心、国家超算广州中心、国家超算天津中心、国防科学技术大学四家实体列入出口管制 " 实体清单 ",禁止美国企业对其出口相关芯片等产品和技术;

2019 年 6 月,美国商务部又将中科曙光、海光、江南计算技术研究所等五家实体列入出口管制 " 实体清单 "。

目前,我国设立有 6 个国家级超算中心,主要包括神威、天河、曙光三大体系。2015 年被针对的目标正是天河系相关机构。

不过近年来,中国超算系统在国产化替代方面都有不小的进展。如神威系自主研发的申威芯片,天河系自主研发的飞腾系列芯片等,都已相继落地超算设备中。据 21Tech 了解,其中神威体系的国产化独立研发已历时几十年,业内认为其自主可控做得更为彻底。

如今,超算的应用领域也早已不限于科研和国防,其 " 算天算地算人 " 说法的由来,也在于超算可以支持包括气象观测、石油勘探、电影渲染、精准医疗等领域。

应该说,计算历经的百余年来发展,促成了今天我们得见这个庞大又繁复的世界。不止于此,借助如今的超级计算,我们还可以把触角伸向更多想到却碰不到、甚至反常识的领域。

  生态构建之路

来自外部环境的改变,无疑加速了中国超算自主化进程以及自身生态系统构建之路。

冯圣中就坦言,芯片成本与量产程度密切相关。比如即使国产芯片与英特尔所产技术水平完全一致,但后者产量大因此成本偏低,这是前者目前并不太具备优势的所在。

" 生态是目前最大的短板,但也不是完全不可破。只是生态的完全建立不是一蹴而就,是有阵痛期的。" 他如是说道。

更大的生态在于对产业面的拉动。张云泉告诉 21Tech,如何让超算良性发展并产生投资回报,是一个新课题。过去作为战略投资,国家对于超算并没有要求短期内产生巨大回报," 如何通过超算为中心,拉动产业链,让生态系统良性建立起来。破解成功,超算就可以走上良性发展道路。"

以济南中心而言,就从机构设计方面进行了新规划。张云泉向 21Tech 介绍,到 2020 年,山东将建成国家超算济南中心和海洋国家实验室超算平台两大体系。其中后者建于青岛海洋国家实验室,主要针对高端科学计算领域,前者则主要面向商业计算。

张云泉续称,济南中心计划建设超算科技园,愿景是打造算力工厂,希望未来计算能成为水电一样的公共品,成为国家大科学装置聚集的高地。" 主要为了孵化包括新一代信息技术为重点的产业,包括 AI、云计算、工业互联网等。当然也有待于人工智能产业的健康发展,能成功与各行业实现智能 + 生态,这是我们的一个期待。"

更早建设的国家超算深圳中心则经历了产业落地过程,从预期,到匹配,再到进一步升级的路径。

冯圣中介绍道,在 2008 年深圳中心部署初期,预想从四个层面梯级提供服务支持。其一是服务深圳市龙头企业,包括中广核、比亚迪、华为、中兴等;其二是服务深圳市中小企业;三是服务深圳和华南的社会发展,如气象、医疗、健康、环保等领域;四则是基础科研。

但十年来的实践证实,落地服务实际上出现了一些变化。" 原来认为排在第三第四的需求,现在其实排在第一第二 ",冯圣中表示,这十年来,深圳市的基础科研机构越来越多,社会发展领域的需求非常旺盛,这是此前没有想到的。

相反,大企业确实有高性能计算需求,但如华为等企业,实际上会自主搭建相关服务器和平台,并自主研发软件,自主消化了大部分需求。

中小企业部分,目前需求仍旧不甚旺盛。原因在于这类企业会考虑到降低市场风险,因此对新技术的使用会以 " 跟随 " 心态为主,同时小企业的技术突破相对大企业较为单一,因此需求实际上并不大。

只是最近一年来,一些看起来规模不算大的企业与国家超算深圳中心开始了愈发密集的合作,主要为人工智能类企业。

" 这也是相互需要。中心这边有想法,需要新的方向快速发展起来;AI 公司也有发展需求。" 冯圣中向 21Tech 笑称,他本人与诸多合作的 AI 企业创始人还有校友的 " 亲密 " 关系。

近期一则合作案例是,国家超算深圳中心与云天励飞联合发布 AIOS 操作系统。据介绍,该平台发布的初衷是,实现对数据管理、数据标注、算法训练以及算法应用进行全流程管理,并将此系统提供给各产业使用。

不过,已经成立十年的深圳中心,面对庞大的产业服务诉求,已经出现超期服役现象。冯圣中表示,超级计算机终究属于电子产品,有一定生命周期。深圳中心目前面临着爆满并排队的现象。

因此第二期计划也就箭在弦上。他告诉 21Tech,相比目前,第二期规模将提升 1000 倍,性能提升 1000 倍,但体积仅增加几倍,能耗增加 10 倍。

" 这意味着效能提高了 100 倍。二期现在紧锣密鼓推进,除了机器研制,还有新机房建设都在快速推进;应用研发也不能落后,不能等机器来了再做匹配,要同步进行。" 他介绍道。

不过冯圣中还提到一点发现。"对基础科研越重视,对超算的需求就会越大。据我了解,美国一般高校科研院所大概 30% 的工作是与超算相关;但国内高校的平均水平不到 10%,当然拔尖的如中国科大、清华、北大等比例会超过 30%。所以从国家发展角度来说,超算应用还有大量工作要做。"

新计算世代

从底层基础技术来看,全球半导体产业普遍面临一个新的挑战——摩尔定律接近失效。由此带来的,是高性能计算技术发展速度将不复从前。

与此同时,正在到来的 5G 时代,意味着更庞大的数据生产量和处理量,寻找破局之法是产业界在谋求的新课题。

张云泉就向 21Tech 坦言,最新 TOP500 榜单也透露出,浮点运算的增长速度和更新速度都在放慢,这意味着产业界对处理器的更新热情不再高涨。因为这不仅意味着,即使更换服务器,也未必能达到与以前类似的效果,而并行度更大以后,程序编写难度将更大,可靠性也成为难题。

"我们面临下一个计算平台是什么的问题,到底哪个技术能提高目前的半导体技术,是量子计算、还是生物计算、光计算等。革命性的变化在哪里,如何继续让计算速度能够按照摩尔定律发展?" 他说。

学界和产业界都在寻找新的突破口。中国工程院院士李国杰就指出,未来十年是体系结构的黄金时期,下一个十年将出现全新计算机架构的 " 寒武纪 " 大爆发,学术界和工业界计算机架构师将迎来一个激动人心的时代。

" 传统的发展都是围绕摩尔定律研发,但是没有人关注性能结构,以后的改进则要依靠结构改进。最近这几年来看,尽管有很多提法,但目前还没有看到新的革命性成果。" 他如此表示。

新计算世代的车轮滚滚向前,将由谁接着扛起大旗,有待产业界共同谋求突破。

文章来源:21Tech

更多有趣的科技新闻,欢迎关注 21 世纪经济报道旗下 21Tech(ID:News-21)

更多内容请下载 21 财经 APP

以上内容由 "21 世纪经济报道 " 上传发布

相关文章
评论
没有更多评论了
取消
12 我来说两句…
打开 ZAKER 参与讨论