本文作者:李笑寅
来源:硬 AI
全球数据中心正在面临放缓困境。
如火如荼的 AI 浪潮推升了数据中心的建设狂潮,但随着大模型对算力的要求每日俱增,数据中心升级的脚步似乎要跟不上持续强劲的 AI 需求了。
知名科技媒体 The Information 近日报道称,由于高质量数据吃紧以及昂贵的数据中心建造成本,AI 大模型的升级速度正在放缓,可能反过来拖累行业整体和数据中心建设的进展。
与此同时,马斯克正大举发力数据中心建设,在 " 鲶鱼效应 "(指引入强者后,激发弱者变强)下,一场更高难度的大型数据中心竞赛即将打响,数据中心的建设狂潮还能否延续?
" 数据饥饿 " 限制大模型迭代速度
据 OpenAI 员工向 The Information 表示,GPT 迭代放缓的原因之一是:可供大模型预训练所需的高质量文本和其他数据正在不断减少。
这些人士表示,在过去几年中, LLMs 使用来自网站、书籍和其他来源的公开文本和其他数据进行预训练过程,而如今,这类数据几乎已被 " 榨干 "。
据悉,在下一代旗舰模型 "Orion" 中,OpenAI 虽然已经开始尝试在训练阶段引入 AI 生成数据,但同时又面临一个新问题,即 Orion 最终可能在某些方面与旧型号的大模型相似。
同时,数据中心昂贵的建造成本可能也难以支撑起迭代所需的庞大算力要求,OpenAI 研究员 Noam Brown 在上个月的 TEDAI 会议上表示,开发更先进的模型在经济上可能并不可行。
" 我们真的要训练花费数千亿美元或数万亿美元的模型吗?有时候,扩展(scaling laws)的范式也会崩溃。"
此外,由于大模型迭代升级对服务器集群规模的要求越来越高,所需的功率也呈倍数级提升,散热问题正越来越成为数据中心升级的一大阻碍。
马斯克发力 AI,OpenAI 等担心被 " 后来居上 "
马斯克为 xAI 兑现 " 最大超算中心 " 的承诺的速度之快,已经向 OpenAI 等头部竞争对手成功制造了焦虑。
在今年 7 月 "GenAI Summit SF 2024" 人工智能峰会上,马斯克旗下的 AI 初创公司 xAI 宣布,计划在几个月内建成一个约 10 万 H100 芯片的数据中心,号称是 " 世界上最强大的 AI 训练集群 ",旨在训练更强大的 AI 模型。
同月,马斯克社交平台 "X" 上宣布,xAI 公司已开始在 "Supercluster" 上进行训练,该集群由 10 万个液冷英伟达的 H100 GPU 组成,在单个远程直接数据存取(RDMA)结构上运行。
马斯克的豪赌,基于 " 缩放定律 "(scaling laws):数据中心规模越大、训练出来的大模型就越好。
据悉,"Supercluster" 的集群规模是 Meta 等科技巨头已有数据中心规模的数倍。对比来看,OpenAI 训练 GPT4,需要用到 25000 块 A100 GPU,仅为 Supercluster 的 1/20。
并且,据英伟达方面向媒体透露,该数据中心仅用 122 天就建成,而根据其 CEO 黄仁勋的说法,这种这种规模的 GPU 集群通常需要三年的时间来规划和设计,还额外需要一年的时间才能投入使用。
尽管 xAI 的人工智能工具仍远远落后于 OpenAI,但他构建数据中心的速度引起了 Sam Altman 的警惕。据一位知情人士向媒体透露,马斯克在 X 上官宣了 Supercluster 的建成后,Altman 与微软的基础设施高管发生了争执,担心 xAI 的发展速度比微软快。
登录后才可以发布评论哦
打开小程序可以发布评论哦