谷歌称 AI 已迎来 " 推理时代 "。
作者 | 陈骏达
编辑 | 心缘
芯东西 4 月 10 日报道,今天,在谷歌云 Next 大会上,谷歌发布第七代 TPU 芯片 Ironwood。谷歌机器学习、系统和云 AI 副总裁兼总经理 Amin Vahdat 称,Ironwood 是谷歌迄今为止最强大、最节能的 TPU,专为支持思考、推理类模型的大规模应用而设计。
每块 Ironwood 芯片的峰值算力为4614 TeraFLOPS(第六代 TPU 芯片 Trillium 的 5 倍),内存高达192GB(Trillium 的 6 倍);HBM 带宽达到7.2 Tbps(Trillium 的 4.5 倍);其每瓦峰值算力为29.3 TeraFLOPS,是 Trillium 的 2 倍多。
通过芯片间互连(ICI)网络,Ironwood 实现1.2 Tbps的芯片间双向带宽,最高可扩展至 9216 个液冷芯片组成的 Pod,总算力达42.5 ExaFLOPS,是目前世界上最大超算 El Capitan 算力的24 倍多。
对于谷歌云客户,Ironwood 提供两种尺寸:256 芯片配置和 9216 芯片配置。开发者还可以利用谷歌的 Pathways 软件堆栈,管理数万个 Ironwood TPU 的综合计算能力。全面推出的 Cluster Director 允许用户部署和管理具有计算、存储和网络功能的大型加速虚拟机集群。
谷歌称,Ironwood 代表着 AI 及其基础设施的发展迎来重大转变,从提供实时信息供人类解读的响应式 AI,转变为主动生成解读的 AI 模型,迎来 " 推理时代 "。
Ironwood 旨在 " 优雅地管理 " 思考模型复杂的计算和通信需求,包括大语言模型(LLM)、混合专家模型(MoE)和高级推理任务等这些需要大规模并行处理和高效的内存访问的场景。
具体而言,Ironwood 能在执行大规模张量操作的同时,最大限度地减少芯片上的数据移动和延迟。
由于顶级思维模型的计算需求远远超出了任何单个芯片的容量,谷歌为 Ironwood TPU 配备了低延迟、高带宽的 ICI 网络,以支持全 TPU Pod 规模的协调同步通信。
Ironwood 还配备了增强版 SparseCore 专用加速器,可用于处理高级排名和推荐任务中常见的超大嵌入。增强版 SparseCore 可以加速更多领域的任务,从传统的 AI 任务扩展到金融和科学等领域。
大会现场,谷歌云宣布他们将很快推出A4X 和 A4 VMs(虚拟机),由英伟达 GB200 NVL72 和 B200 Blackwell GPU 提供算力支持,谷歌云也将成为首批提供 Vera Rubin GPU 的云服务厂商。
英伟达创始人兼 CEO 黄仁勋特地为谷歌云 Next 大会录制了一段视频,他称英伟达与谷歌云的 " 超级合作伙伴关系 " 涵盖了每一层面的计算,英伟达将与谷歌云一起推出加密计算服务,面向全球的高监管与高风险行业客户。
Ironwood 的发布正值 AI 芯片领域的竞争不断加剧。尽管英伟达在该领域处于领先地位,但包括亚马逊和微软在内的科技巨头也在纷纷推出自己的内部解决方案。亚马逊通过 AWS 提供了 Trainium、Inferentia 和 Graviton 处理器,而微软则为其 Cobalt 100AI 芯片提供 Azure 实例。
随着 AI 与行业、场景的集成越来越深入,谷歌正通过对 Ironwood 等推理场景专用硬件的投资,为这一未来做好准备。
登录后才可以发布评论哦
打开小程序可以发布评论哦