微软甩出3nm自研AI芯片！算力超10PFLOPS，干翻AWS谷歌

HBM3e 容量达 216GB、读写速度达 7TB/s。

编译 | ZeR0

编辑 | 漠影

芯东西 1 月 27 日报道，今日，微软宣布推出自研 AI 推理芯片Maia 200，并称该芯片是 " 目前所有超大规模数据中心中性能最高的自研芯片 "，旨在显著提升 AI token 生成的经济效益。

Maia 200 采用台积电 3nm工艺制造，拥有超过1400 亿颗晶体管，配备原生FP8/FP4张量核心，重新设计的内存子系统包含216GB HBM3e（读写速度高达7TB/s）和272MB 片上 SRAM，以及能确保海量模型快速高效运行的数据传输引擎。

Maia 200 专为使用低精度计算的最新模型而设计，每块芯片在 FP4 精度下可提供超过10PFLOPS的性能，在 FP8 精度下可提供超过5PFLOPS的性能，所有这些都控制在750W的 SoC TDP 范围内。

其 FP4 性能是亚马逊自研 AI 芯片 AWS Trainium3 的3 倍多，FP8 性能超过了谷歌 TPU v7。

▲ Azure Maia 200、AWS Trainium3、谷歌 TPU v7 的峰值规格对比

Maia 200 重新设计的内存子系统以窄精度数据类型、专用 DMA 引擎、片上 SRAM 和用于高带宽数据传输的专用片上网络（NoC）架构为核心，从而提高 token 吞吐量。

互连方面，Maia 200 提供2.8TB/s双向专用扩展带宽，高于 AWS Trainium3 的 2.56TB/s 和谷歌 TPU v7 的 1.2TB/s。

Maia 200 也是微软迄今为止部署的最高效推理系统，每美元性能比微软目前部署的最新一代硬件提升了30%。

01.

能运行当前最大模型，

将支持 GPT-5.2

根据微软博客文章，Maia 200 可轻松运行当今最大的模型，并为未来更大的模型预留了充足的性能空间。

作为微软异构 AI 基础设施的一部分，Maia 200 将支持多种模型，包括 OpenAI 最新的 GPT-5.2 模型，从而为 Microsoft Foundry 和 Microsoft 365 Copilot 带来更高的性价比。

▲ Maia 200 芯片

Maia 200 与微软 Azure 无缝集成。微软正在预览 Maia 软件开发工具包（SDK），其中包含一套完整的工具，用于构建和优化 Maia 200 模型。

它包含全套功能，包括 PyTorch 集成、Triton 编译器和优化的内核库，以及对 Maia 底层编程语言的访问。这使开发者能够在需要时进行细粒度控制，同时实现跨异构硬件加速器的轻松模型移植。

微软超级智能团队将利用 Maia 200 进行合成数据生成和强化学习，以改进下一代内部模型。

在合成数据管道用例方面，Maia 200 的独特设计有助于加快高质量、特定领域数据的生成和筛选速度，为下游训练提供更新、更具针对性的信号。

Maia 200 已部署在微软位于爱荷华州得梅因附近的美国中部数据中心区域，接下来将部署位于亚利桑那州凤凰城附近的美国西部 3 数据中心区域，未来还将部署更多区域。

02.

支持 2.8TB/s 双向带宽、

6144 块芯片互连

在系统层面，Maia 200 引入了一种基于标准以太网的新型双层可扩展网络设计。定制的传输层和紧密集成的网卡无需依赖专有架构，即可实现卓越的性能、强大的可靠性和显著的成本优势。

每块芯片提供2.8TB/s双向专用扩展带宽，以及在多达6144 块芯片的集群上公开可预测的高性能集体操作。

▲ Maia 200 刀片服务器的俯视图

每个托架内，4 块 Maia 芯片通过直接的非交换链路完全连接，实现高带宽的本地通信，以获得最佳推理效率。

机架内和机架间联网均采用相同的通信协议，即Maia AI 传输协议，能够以最小的网络跳数实现跨节点、机架和加速器集群的无缝扩展。

这种统一的架构简化了编程，提高了工作负载的灵活性，并减少了闲置容量，同时在云规模下保持了一致的性能和成本效益。

该架构可为密集推理集群提供可扩展的性能，同时降低 Azure 全球集群的功耗和总拥有成本。

03.

将芯片部署时间缩短一半，

提升每美元和每瓦性能

Maia 200 芯片首批封装件到货后数日内，AI 模型就能在其上运行，从首批芯片到首个数据中心机架部署的时间可缩短至同类 AI 基础设施项目的一半以上。

这种从芯片到软件再到数据中心的端到端解决方案，直接转化为更高的资源利用率、更快的生产交付速度，以及在云规模下持续提升的每美元和每瓦性能。

▲ Maia 200 机架和 HXU 冷却单元的视图

这归因于，微软芯片开发计划的核心原则是在最终芯片上市之前，尽可能多地验证端到端系统。

从架构的早期阶段开始，一套精密的芯片前开发环境就指导着 Maia 200 的开发，它能够高保真地模拟大语言模型的计算和通信模式。

这种早期协同开发环境使微软能够在首块芯片问世之前，将芯片、网络和系统软件作为一个整体进行优化。

微软从设计之初就将 Maia 200 定位为数据中心内快速、无缝的可用性解决方案，并对包括后端网络和第二代闭环液冷热交换器单元在内的一些最复杂的系统组件进行了早期验证。

与 Azure 控制平面的原生集成，可在芯片和机架级别提供安全、遥测、诊断和管理功能，从而最大限度地提高生产关键型 AI 工作负载的可靠性和正常运行时间。

04.

结语：在全球基础设施部署，

为未来几代 AI 系统托举

大规模 AI 时代才刚刚开始，基础设施将决定其发展的可能性。

随着微软在全球基础设施中部署 Maia 200，微软已在为未来几代 AI 系统进行设计，并期望每一代系统都能不断树立新的标杆，为重要的 AI 工作负载带来更出色的性能和效率。

微软诚邀开发者、AI 创企和学术界人士使用全新 Maia 200 SDK 开始探索早期模型和工作负载优化。

该 SDK 包含 Triton 编译器、PyTorch 支持、NPL 底层编程以及 Maia 模拟器和成本计算器，可在代码生命周期的早期阶段优化效率。

宙世代

一起剪

相关标签