IT 之家 7 月 14 日消息,亚马逊 AWS 在发布于 6 月 24 日的一篇文章中介绍了其大型分布式集群 Project Rainier,该项目有望成为世界上最强大的 AI 模型训练计算机。
Project Rainier 分布在美国境内的多个不同数据中心中,基于 AWS 旗下 Annapurna Labs 芯片部门开发的 AI 芯片 Trainium2:每个服务器配备 16 颗 Trainium2,每 4 个服务器合为一个 UltraServer,数以万计的 UltraServer 互联构成 Project Rainier 这一 UltraCluster 超级集群。
在互联方面,蓝色电缆的 NeuronLinks 负责 Tn2 UltraServer 内部高速互联,而单一数据中心内部和跨数据中心互联则交由黄色电缆的 Elastic Fabric Adapter ( EFA ) 技术负责。
Anthropic 将使用 Project Rainier 构建和部署旗舰模型 Claude 的未来版本,Annapurna Labs 产品和客户工程总监 Gadi Hutt 表示, Project Rainier 可提供五倍于 Anthropic 目前最大训练集群的算力。
登录后才可以发布评论哦
打开小程序可以发布评论哦