
11 月 25 日消息,谷歌正悄然加速其自研张量处理单元(TPU)芯片的商业化步伐。
据外媒报道,这家科技巨头不再满足于在自家云数据中心出租 TPU,而是将目光投向客户的 " 本地部署 " 环境,直接挑战英伟达在 AI 硬件市场的霸主地位。
知情人士透露,谷歌已启动针对现有云客户的推销行动,重点对象包括社交媒体巨头 Meta 以及多家大型金融机构。这些客户希望在自家数据中心运行 AI 模型,避免将敏感数据上传至公有云,从而降低泄露风险。
谷歌视此为关键增长引擎。
例如,高频交易公司需要实时处理海量数据,本地 TPU 部署能显著提升响应速度和安全性。不同于以往的云租赁模式,这种 "TPU@Premises" 计划允许客户直接采购并安装谷歌芯片,谷歌则提供配套软件和维护支持。
这一转变不仅拓宽了 TPU 的市场边界,还能帮助谷歌从英伟达的庞大 AI 芯片生态中分羹。
TPU 对外供应上,Meta 目前已成为这一战略的焦点。
据悉,双方正进行深入谈判,Meta 考虑从 2027 年起在自家数据中心大规模采用 TPU,潜在采购规模或达数十亿美元。在此之前,Meta 计划于明年通过谷歌云租赁 TPU 芯片,作为过渡测试。
据悉,Meta 有意用 TPU 训练全新 AI 模型,而非仅限于推理任务。这一点尤为引人注目,因为分析师以往普遍认为,挑战英伟达的最佳切入点在于推理芯片,后者对互联集群的要求较低。训练过程涉及海量并行计算,TPU 的矩阵运算专长在此大放异彩。
同时,Meta 也在自主研发 AI 推理芯片,以进一步分散风险并压低对英伟达的依赖。
长期以来,Meta 的 AI 基础设施高度依赖英伟达 GPU,后者驱动了其内容推荐和广告算法的核心计算。但随着 AI 模型规模激增,Meta 正寻求多元化供应,以降低成本和供应链风险。
如果交易敲定,这将为谷歌 TPU 注入强劲动力。谷歌云高管内部评估显示,TPU 业务有望蚕食英伟达年收入的 10%。
谷歌的定价策略是吸引客户的另一大亮点。TPU 的使用成本远低于英伟达的旗舰 GPU,后者的高价位令云服务商如甲骨文在租赁时利润微薄。
英伟达凭借其 CUDA 软件生态牢牢把控开发者社区,但谷歌通过优化 TPU 架构,在能效和训练速度上实现了突破。近期,谷歌推出的 Gemini 3 大语言模型便充分利用了 TPU 集群训练,收获了业内好评。
为降低客户切换门槛,谷歌推出 "TPU 命令中心 " 软件,这款工具旨在简化 TPU 的集成与管理。它借鉴了 PyTorch 框架——由 Meta 首创并开源的 AI 开发利器,允许开发者无需精通谷歌的 JAX 语言,即可操控 TPU 集群。
谷歌的这一创新,不仅提升了 TPU 的易用性,还借力 Meta 的开源贡献,形成生态闭环。通过该软件,客户能轻松监控集群性能、优化资源分配,甚至模拟云端环境。
不过,英伟达自然不会坐视不管。该公司首席执行官黄仁勋密切追踪 TPU 进展,并通过战略投资反击。
今年 10 月,在谷歌承诺向 Anthropic 提供多达 100 万个 TPU 后,黄仁勋迅速跟进,宣布数十亿美元注资 Anthropic,并换取其对英伟达 GPU 的承诺。
类似地,当 OpenAI 传出从谷歌云租赁 TPU 的消息时,英伟达敲定初步协议,拟投资高达 1000 亿美元助 OpenAI 建设数据中心,并探讨 GPU 租赁细节。
英伟达发言人强调,这些投资不附带强制采购条款,但黄仁勋在播客中直言,谷歌的七代 TPU 迭代 " 值得尊敬 ",暗示其已视 TPU 为严肃对手。(文 / 腾讯科技特约编译无忌,编辑 / 苏扬)


