观察者网 7小时前
国内首个国产千卡级工科智算集群启动
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

6 月 25 日,海光信息与同济大学在上海正式签署战略合作协议,共同启动国内首个国产千卡级工科智算集群。此次围绕人工智能赋能工程教育、工程科研和产业创新展开,为高校科研与产业应用协同提供实践案例。

同济大学 · 海光信息千卡集群启动仪式观察者网

据介绍,该集群基于海光 CPU 与 GPU/DCU" 双芯 " 算力底座和融合架构建设,面向 AI4E(AI for Engineering)场景进行适配,可支撑人工智能训练推理、科学计算、工程仿真等多类任务。与传统通用算力平台不同,工科智算集群更强调工程软件迁移,要求算力底座在 " 兼容性、适用性和稳定性 " 方面提供支撑,服务对象更加贴近桥梁设计、建筑设计、汽车研发、海洋工程、CAD/CAE 等真实垂直应用。

同济大学党委书记、中国工程院院士郑庆华在致辞中表示,人工智能的发展离不开数据、算力和算法三大基础,其中算力是底层支撑平台。高校作为国家战略科技力量的重要组成部分,正在学科建设、人才培养和科学研究中产生更强的人工智能赋能需求。此次同济大学与海光信息共同打造国产千卡集群,目的在于支撑人工智能赋能学科创新,并为学校面向未来发展提供高性能计算和智能计算平台支撑。

海光先前在郑州国家超算互联网核心节点提到 AI4S( AI for Science),此次合作则将重点放在 AI4E 方向。二者都是国产算力面向人工智能应用的重要方向,但对平台能力的要求不同:AI4S 与大模型训练在规模需求上更接近,许多科学计算应用遵循 Scaling Law,对 Scale-out 规模、系统互联和整体调度能力要求较高,同时科学计算传统上强调高精度,过去多以 64 位精度为主。随着人工智能进入科学计算,混合精度也逐渐增多,以兼顾精确性和算力效率。

相比之下,AI4E 不一定追求数万卡规模,但工程计算场景长期积累了大量商业软件和历史代码,涉及 CAD、CAE、Fluent 等不同领域软件。因此,对 AI4E 而言,平台不仅要支撑高精度工程计算,更要提供适合工程软件迁移和转化的环境,可迁移性、可移植性、实时性和应用适配效率成为关键能力。

此次同济千卡集群落地,正是把国产算力从科学计算和模型能力支撑,进一步推向工程科研和工程软件生态适配的重要探索。

海光信息总裁沙超群指出,过去高校在算力应用中普遍面临适配难、迁移成本高、算力支撑不足等痛点,迁移到国产算力平台需要依托底层架构兼容、主流开发生态适配、算子、库与运行时优化,以及源码迁移机制等能力共同支撑。

基于海光 CPU/DCU" 双芯 " 底座,海光一方面通过延续 x86 架构和兼容主流开发生态降低适配门槛,另一方面针对计算密集型、数据密集型、通信密集型等不同工程场景,对系统进行优化,提升既有工程应用在国产算力环境中的适配效率和运行稳定性。

海光信息副总裁吴宗友就此次千卡集群落地同济向观察者网表示,此次合作并不只是合同关系,更是一种产业结合关系。其核心在于学校将应用需求输入给企业,企业再基于这些需求调整整个系统能力。双方通过前期充分交流,再提供相对贴合定制化需求的系统,使用户获得更高效率。

他还提到,未来,海光与高校的合作将以工程为起点,在同济大学校内拓展更多领域,同时也会走出同济大学,与更多高校开展更深入合作。

随着 AI 应用进入深水区,沙超群指出,CPU 将承担更多智能体编排、上下文调度、任务记忆和算力资源管理工作。未来 AI 算力竞争将不再只是单颗 GPU 的竞争,而是 CPU、DCU、互连、网络、存储和整机系统共同构成的系统级能力竞争。

面向未来国产算力建设,海光提出了系统能力提升、生态开放和软硬件协同三条方向。沙超群表示,海光将依托 CPU、DCU" 双芯 " 算力底座,以及高速交换芯片、RDMA 网卡和交换整机,结合光合组织生态,形成面向千卡、万卡规模的国产智算系统方案;同时继续推进 DCU、软件栈和 CPU 高速互联能力开放,并联合产业链伙伴、大模型厂商和 AI 优化合作伙伴,提升国产算力在模型训练、推理服务、AI4S 扩展和 AI4E 迁移适配等场景中的系统能力。

本文系观察者网独家稿件,未经授权,不得转载。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

人工智能 于海 同济大学 海光信息 科研
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论