国内首个国产千卡级工科智算集群启动

6 月 25 日，海光信息与同济大学在上海正式签署战略合作协议，共同启动国内首个国产千卡级工科智算集群。此次围绕人工智能赋能工程教育、工程科研和产业创新展开，为高校科研与产业应用协同提供实践案例。

同济大学 · 海光信息千卡集群启动仪式观察者网

据介绍，该集群基于海光 CPU 与 GPU/DCU" 双芯 " 算力底座和融合架构建设，面向 AI4E（AI for Engineering）场景进行适配，可支撑人工智能训练推理、科学计算、工程仿真等多类任务。与传统通用算力平台不同，工科智算集群更强调工程软件迁移，要求算力底座在 " 兼容性、适用性和稳定性 " 方面提供支撑，服务对象更加贴近桥梁设计、建筑设计、汽车研发、海洋工程、CAD/CAE 等真实垂直应用。

同济大学党委书记、中国工程院院士郑庆华在致辞中表示，人工智能的发展离不开数据、算力和算法三大基础，其中算力是底层支撑平台。高校作为国家战略科技力量的重要组成部分，正在学科建设、人才培养和科学研究中产生更强的人工智能赋能需求。此次同济大学与海光信息共同打造国产千卡集群，目的在于支撑人工智能赋能学科创新，并为学校面向未来发展提供高性能计算和智能计算平台支撑。

海光先前在郑州国家超算互联网核心节点提到 AI4S（ AI for Science），此次合作则将重点放在 AI4E 方向。二者都是国产算力面向人工智能应用的重要方向，但对平台能力的要求不同：AI4S 与大模型训练在规模需求上更接近，许多科学计算应用遵循 Scaling Law，对 Scale-out 规模、系统互联和整体调度能力要求较高，同时科学计算传统上强调高精度，过去多以 64 位精度为主。随着人工智能进入科学计算，混合精度也逐渐增多，以兼顾精确性和算力效率。

相比之下，AI4E 不一定追求数万卡规模，但工程计算场景长期积累了大量商业软件和历史代码，涉及 CAD、CAE、Fluent 等不同领域软件。因此，对 AI4E 而言，平台不仅要支撑高精度工程计算，更要提供适合工程软件迁移和转化的环境，可迁移性、可移植性、实时性和应用适配效率成为关键能力。

此次同济千卡集群落地，正是把国产算力从科学计算和模型能力支撑，进一步推向工程科研和工程软件生态适配的重要探索。

海光信息总裁沙超群指出，过去高校在算力应用中普遍面临适配难、迁移成本高、算力支撑不足等痛点，迁移到国产算力平台需要依托底层架构兼容、主流开发生态适配、算子、库与运行时优化，以及源码迁移机制等能力共同支撑。

基于海光 CPU/DCU" 双芯 " 底座，海光一方面通过延续 x86 架构和兼容主流开发生态降低适配门槛，另一方面针对计算密集型、数据密集型、通信密集型等不同工程场景，对系统进行优化，提升既有工程应用在国产算力环境中的适配效率和运行稳定性。

海光信息副总裁吴宗友就此次千卡集群落地同济向观察者网表示，此次合作并不只是合同关系，更是一种产业结合关系。其核心在于学校将应用需求输入给企业，企业再基于这些需求调整整个系统能力。双方通过前期充分交流，再提供相对贴合定制化需求的系统，使用户获得更高效率。

他还提到，未来，海光与高校的合作将以工程为起点，在同济大学校内拓展更多领域，同时也会走出同济大学，与更多高校开展更深入合作。

随着 AI 应用进入深水区，沙超群指出，CPU 将承担更多智能体编排、上下文调度、任务记忆和算力资源管理工作。未来 AI 算力竞争将不再只是单颗 GPU 的竞争，而是 CPU、DCU、互连、网络、存储和整机系统共同构成的系统级能力竞争。

面向未来国产算力建设，海光提出了系统能力提升、生态开放和软硬件协同三条方向。沙超群表示，海光将依托 CPU、DCU" 双芯 " 算力底座，以及高速交换芯片、RDMA 网卡和交换整机，结合光合组织生态，形成面向千卡、万卡规模的国产智算系统方案；同时继续推进 DCU、软件栈和 CPU 高速互联能力开放，并联合产业链伙伴、大模型厂商和 AI 优化合作伙伴，提升国产算力在模型训练、推理服务、AI4S 扩展和 AI4E 迁移适配等场景中的系统能力。

本文系观察者网独家稿件，未经授权，不得转载。

宙世代

一起剪

相关标签