
图片来源:unsplash
年底,AI 芯片领域的竞争愈发激烈。继 11 月,谷歌发布自研 TPU,引发市场广泛关注,英伟达随即入股新思科技加码推广自身 GPU 后,亚马逊刚发布的新产品,也很有可能成为搅动市场的另一极。
美国时间 12 月 2 日,在拉斯维加斯举办的亚马逊云科技 re:Invent 全球大会上,亚马逊正式推出了新一代自研 AI 芯片 Trainium 3。这是亚马逊首款 3nm 制程的 AI 芯片,由台积电代工生产。
根据亚马逊 AWS 首席执行官马特 · 加曼(Matt Garman)的介绍,Trainium 3 的计算能力较之 Trainium 2 大幅提升,是在当前的人工智能浪潮中,专为满足下一代生成式 AI 工作负载的高性能需求而设计打造的,能够帮助客户更快地建立更大的模型,并在部署模型时提供卓越的效能。
AWS 方面同时拿出了集成 144 颗新一代芯片的 Trainium3 UltraServer 服务器。该公司给出的数据显示,新服务器的计算能力是上一代产品的 4.4 倍,内存带宽是上一代产品的 4 倍,能够将能效提升 40%,同时大幅提高了产品部署能力上限,通过服务器之间的互联互通,最多能部署多达百万颗 Trainium 3 芯片,将此前的天花板提高了 10 倍。
从 AWS 披露的数据来看,Trainium 3 的产品性能是更新换代级别的存在,但市场更关注的,还是其与占据绝对主导地位的英伟达和正在崛起的谷歌之间的比较。
不过,AWS 方面拒绝直接就其新一代芯片的性能与英伟达、谷歌进行对比,没有提供太多相关信息。
Barron's 等提到,从内存来看,每颗 Trainium 3 集成了 144GB 高带宽内存,而谷歌最新 TPU 是 192GB,英伟达最新的 Blackwell GB30 更是高达 288GB,同时,性能更强的英伟达超级新品 Rubin 也即将走向市场。
从这方面来看,目前几大巨头之间的芯片在性能上仍有明显差距。
科技媒体 IMPLICATOR.ai 撰文指出,与英伟达的 GPU 不同,亚马逊的 Trainium 芯片是专为在 AWS 云服务中训练和运行大模型而设计的定制化 AI 芯片,会针对 AWS 的云基础设施和 Bedrock 平台进行针对性优化。
AWS 也在官方新闻中,着重强调了专用芯片的 " 性价比优势 ",称与同等 GPU 系统相比,Trainium 在相关场景中可以将训练和推理成本降低 50%。
实际上,谷歌的 TPU 是专为加速机器学习和深度学习任务而设计的。英伟达在这些竞争者冒头时曾发声表示,公司的产品领先业界一代,是唯一能够运行所有 AI 模型并应用于计算场景的平台。
与专为特定 AI 框架或功能设计的产品相比,英伟达芯片提供了更高的性能、多功能性和可互换性。
就在亚马逊发布新品的同一时间,英伟达首席财务官科莱特 · 克雷斯(Colette Kress)在瑞银全球技术与 AI 大会上表示,其他芯片竞品绝无可能动摇英伟达的地位。
她还表示,英伟达的护城河不只芯片,而是标准和生态,所有模型都运行在英伟达的平台上,市场地位非常稳固。
不过,相较于竞争关系,亚马逊与英伟达的合作同样值得关注。
大会期间,AWS 与英伟达共同宣布,前者将在下一代芯片 Trainium 4 中使用后者的 NVLink Fusion 技术。
该技术能够实现不同类型芯片之间的高速连接,以及不同服务器之间的快速通信。芯片领域的头部企业英特尔、高通都是使用者。
通过引入该技术,AWS 得以构建规模更大、适用性更强的 AI 服务器,进一步提高互联互通能力,再次推高部署能力的上限,帮助客户更好地训练大模型。
IMPLICATOR.ai 的文章分析称,相较于 " 打不过就加入 ",AWS 引入英伟达技术更类似一种引流策略,在无法快速实现芯片替代的情况下,这种合作能够帮助那些依赖英伟达工作负载的企业更轻松地逐步迁移到 Trainium 基础设施中。
英伟达 CEO 黄仁勋则表示,英伟达和 AWS 将携手打造 AI 产业革命的计算架构,加速世界迈向智能化的道路。
令人好奇的是,谁成为亚马逊新 AI 芯片第一批拥趸?
亚马逊强调,新一代的芯片和服务器都是为了让云服务客户能以更低成本享受更好的服务,训练出质量更高的大模型来实现自身的 AI 雄心。
事实上,除了自用外,Trainium 3 目前的市场前景仍然成疑。
以往,Trainium 的主要客户是 Anthropic、理光(Ricoh)等公司,用户基础本就不多。其中,Anthropic 一直是最大客户。实际上,AWS 方面此前就曾表示,计划在今年底之前向 Anthropic 提供 100 万个 Trainium 芯片。
摩根大通分析师道格・安穆斯(Doug Anmuth)称,考虑到亚马逊对 Anthropic 的投资及两者历来的紧密关系,Trainium 最新芯片预计仍会首先供应这家打造出了 Claude 的公司。
未来,只要电力等供应充足,AWS 可以在新的服务器上复制为 Anthropic 打造的架构,吸引其他大型客户,让自己的芯片被更广泛地使用。
不过,就算是 Anthropic,这家公司对芯片也有多种选择。除了英伟达的主流产品,该公司去年还曾表示与谷歌达成协议,将采购后者 100 万颗 TPU 芯片。
另外,在今年的 re:Invent 大会中,AWS 还发布了包括推理模型、语音模型、纯文本模型在内的 Nova 2 系列模型,并推出了 " 开放式训练 " 服务 Nova Forge,允许使用者在训练的各阶段注入自己的数据,支持更多行业为特定知识定制大模型,同时通过 Nova Act 进军代理服务市场,帮助使用者构建自动化网页操作智能体。
从基础设施、自研芯片,再到大模型、代理服务,这家云服务巨头已愈发凸显出全面押注 AI 垂直一体化的趋势。
而资本市场还无法明确判断该公司相关战略的前景。12 月 2 日亚马逊股价收盘微涨 0.23%,今年以来涨幅为 6.85%,在 " 美股科技七巨头 " 中与特斯拉相近,低于其他公司。(作者|胡珈萌,编辑|李程程)


登录后才可以发布评论哦
打开小程序可以发布评论哦