三易生活 03-21
算力叙事摇摇欲坠,英伟达准备再造数据叙事
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在近日召开的全球人工智能领域 " 奥斯卡 " 英伟达 GPU 技术大会(GTC)上,黄仁勋公布了 Blackwell 架构的最新一代产品 Blackwell Ultra,以及英伟达在自动驾驶、AI 网络、机器人领域的进展。然而市场对于他此次在 GTC 上的演讲反应平平,并普遍认为英伟达并未展现出突破性的进展。

似乎是意识到了市场上的这种负面情绪,英伟达方面很快做出改变,仅仅在一天后就有了新动作。据海外媒体的爆料,英伟达以超过初创合成数据公司 Gretel 3.2 亿美元估值的价格,收购了这家公司。那么他们为何会斥巨资去收购一家从事合成数据服务的初创企业呢?事实上,这或许与当下英伟达的处境息息相关。

作为这一轮 AI 淘金热中的 " 卖水人 ",英伟达在过去两年的经历可谓是完美诠释了何为 " 春风得意马蹄疾 "。然而今年年初横空出世的 DeepSeek-R1 却改变了他们的算力叙事,别看黄仁勋在今年 GTC 上宣称,DeepSeek 发布的 R1 模型只会增加对计算基础设施的需求,担忧 " 芯片需求可能减少 " 毫无根据,但遗憾的是,华尔街对于这番表态却并不买账。

英伟达的股价在 3 月 18 日以 3.43% 的跌幅收盘,与此前在 1 月 7 日创下的历史高点相比,市值已经蒸发了超过 9000 亿美元。其实资本市场对于英伟达的疑虑,在于 DeepSeek 并不利空算力,先进的开源大模型无疑会催生更多的 AI 原生应用,而更多应用也就意味着更多的算力需求,可问题在于 DeepSeek 固然推高了算力需求,但也确实利空英伟达的 " 算力霸权 " 叙事。

Deepseek 通过稀疏化训练、动态网络架构、混合专家系统(MoE)等工程层面的创新,已经证明了 AI 大模型的性能提升不必依赖堆砌算力。毫无疑问,这就动摇了英伟达在过去两年渲染的基于万卡集群的算力叙事,让算力投入的边际效益骤降。

当算力叙事不再被资本市场认可,英伟达自然就要开始要寻求 " 第二增长曲线 ",数据就是他们选择的新赛道。训练出强大大语言模型的前提在于充足的高质量数据这件事,早已是 AI 业界的共识。可遗憾的是,现有的数据存量与人类创造新数据的速度,却远不足以支撑更先进 AI 的训练,从而也导致了 AI 的 " 石油危机 "。

既然 " 数据荒 " 已经是现实,那么如果 AI 业界还想延续目前基于 Scaling   Law 的研发路线,唯一的出路就是创造数据。如此一来,基于算法人为生成出符合真实世界情况的数据、也就是 " 合成数据 " 应运而生。

合成数据一般指的是基于物理仿真、统计模型、机器学习等方式,来模仿真实世界数据的特征产出的新数据。

相比于直接从现实世界采集的真实数据,合成数据具备更高效率和更低成本的优势。此前,知名信息技术研究机构 Gartner 就曾预测,到 2030 年合成数据将彻底取代真实数据,成为 AI 模型训练所使用数据的主要来源。

比如 Meta 就曾经在 Llama 3 上尝试使用合成数据进行训练,他们会先使用大模型本身来生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己,最终实现 " 左脚踩右脚上天 "。

这一次被英伟达收购的 Gretel,就是一家为希望构建生成式 AI 模型,但无法获得足够训练数据,或是对使用真实数据存在隐私担忧的开发者,提供合成数据和 API 的初创企业。其实除了高效率地解决数据荒,合成数据的另一大优势就是隐私性。

现阶段 AI 行业遇到数据荒,其中一个重要的原因就是有相当多的公司、机构,以及个人,并不愿意将数据提供给 AI 厂商,也不希望自己的数据会被用于训练 AI。事实上,几乎每一个 AI 大模型、AI 应用,都尽可能地在用户条款中明确 " 用户所提供内容会被用于训练模型 ",比如不久前 " 光速滑跪 " 的腾讯元宝就是典型。

使用合成数据来填充训练数据集的优势就在于前者是 " 凭空杜撰 ",可以消除偏见、并匿名化真实人类的数据。通过收购 Gretel,英伟达就可以在提供算力之外,开辟一条卖数据的新财路。也就是说除了算法之外,与 AI 有关的算力和数据,英伟达都准备参与。

当然,收购 Gretel 并不等于英伟达就一定能建立起 " 数据叙事 ",因为合成数据并非 " 免费的午餐 ",同样也有缺陷。虽然合成数据可以用来验证或扩展人类已知的领域,却无法揭示初始数据集中不存在的领域。也就是说使用合成数据训练的 AI,还无法摆脱欠拟合   ( Underfitting ) 的宿命,不能很好地学习到数据中的规律。

简而言之,尽管采用了精心设计的 prompt 和有监督的训练,但大语言模型固有的偏差和幻觉等问题仍可能会给数据集引入噪声,即便使用纯粹的真实数据,大模型也无法摆脱这些,更遑论使用凭空捏造的合成数据。事实上,业界也一直在担心使用合成数据训练的大语言模型会无法泛化到现实世界的缺陷。

不过对于当下的英伟达而言,合成数据尽管不是十全十美,却足以解决问题。他们现阶段还不需要真正意义上建立数据叙事,而是要让资本市场相信其有能力建立一个 AI 生态链,包括从 Blackwell 系列 GPU 为代表的 AI 算力、到 Gretel 代表的 AI 训练数据,再到 AI 应用开发者平台 NIM 的完整生态。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 ai 资本市场 黄仁勋 利空
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论