三易生活 前天
“搞数据”这件事,已经成为了AI行业的头等大事
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一个月前,微软为玩家带来了 AI 游戏助理 Gaming Copilot,帮助玩家应对高难度任务、提升游戏技能,以及详细讲解游戏内容。就在大家喜迎微软的这个 "AI 游戏搭子 " 时,有较真的玩家却发现,Gaming Copilot 居然是 " 特洛伊木马 "。

随着最近一次更新,自动安装在玩家电脑上的 Gaming Copilot 被海外游戏论坛 ResetEra 的用户发现,会自动上传游戏截图和录屏内容。在 Gaming Copilot AI 的隐私设置中," 文本模型训练 " 选项是默认开启状态。当然,这位用户也欣慰地表示,微软还没有彻底丧心病狂,收集用户对话语音的选项暂时处于未开启状态。

这次消息一出,瞬间就让玩家社区一片哗然。原本以为 Gaming Copilot 的存在可以让自己随时召唤 AI 来解决游戏过程中遇到的问题,不再需要频繁切出游戏查攻略,结果 Gaming Copilot 居然是一个隐藏的 " 间谍 ",目的居然是图谋大家的隐私数据。

只能说微软在 " 坑 " 游戏玩家这件事上几乎已经形成了习惯,此前的 "Edge 游戏助手 " 让电脑变卡也就罢了,如今的 Gaming Copilot 更是将玩家当 " 人肉电池 "。这一次 Gaming Copilot 悄悄收集数据并非微软的无心之举,而是有意为之,为的就是让玩家在不经意间将数据交出去。

关于微软为何要 " 口蜜腹剑 ",看完接下来这个消息,许多朋友想必就会明白。就在 Gaming Copilot 被玩家发现会自动上传数据的几乎同一时间," 美国贴吧 "Reddit 在纽约联邦法院起诉了 AI 搜索独角兽 Perplexity AI,指控后者通过 " 工业规模的非法抓取 " 行为,未经许可复制 Reddit 用户的评论以牟取商业利益。

数据如同化石燃料般正在枯竭、AI 革命正 " 吸干 " 互联网数据的海洋,这是 AI 专业人士自去年就开始不断发出的警告。而在 2025 年,AI 业界更是出现了一个有趣的现状,那就是各大 AI 厂商的大模型不约而同地放弃了通用化、开始追逐差异,诸如 OpenAI 的 GPT-5 长于搜索、谷歌的 Gemini 2 更擅长数学、Anthropic 的 Claude 4 则精通代码。

事实上,不同厂商的 AI 大模型各有所长,是因为他们在 RLHF(基于人类反馈的强化学习)上的差异。据 OpenAI 前首席科学家 Ilya Sutskever 的说法,决定 RLHF 阶段性效果的除了算法之外,数据的质量更是一个决定性因素。这背后其实就反映出了这样一个现实,即 AI 大模型的迭代从纯粹的参数规模膨胀,已经转向了萃取高质量数据。

AI 大模型的训练本就依赖海量数据,可如果输入的数据存在错误,训练出来的模型自然也就会 " 学坏 ",输出的结果同样是 " 垃圾 "。没错,与人类一样,一旦接触低质信息过多,大模型也会出现认知退化的 " 脑腐 "(Brain Rot)现象。

大模型持续暴露于垃圾数据的具体表现,就是推理能力下降、长上下文理解能力变差、伦理规范意识减弱等系统性的退化,并且这一趋势是不可逆的,难以通过后期的微调修复。为了避免自家大模型不进反退,各大 AI 厂商自然也就开始千方百计地寻求高质量的数据。

但遗憾的是,论文、书籍等高质量数据已经被消耗殆尽。由于 AI 厂商一口气挥霍了过去三十年间互联网世界积累的绝大部分知识,才造就了 AI 大模型在过去两年迎来 " 寒武纪生命大爆发 "。现在凝聚了人类智慧结晶的高质量数据断供,AI 厂商就被迫在沙海淘金,尽管 Reddit 的社交数据、Gaming Copilot 所收集的玩家行为数据确实质量堪忧,但好歹也是产出有保证的数据。

如今矛盾之处,就在于不仅仅是 AI 厂商认识到了一切数据都有价值,Reddit 这样的数据拥有者也一样。从某种意义上来说,AI 初创企业的至暗时刻其实是 2025 年,因此在此之后,巨头和初创企业获取数据能力的差异,会让后者再无弯道超车的机会。

以微软和 Perplexity AI 为例,在合法合规的情况下,前者获取数据的能力显然是碾压后者。毕竟微软旗下的产品极为丰富,诸如 Office 可以贡献办公数据、Gaming Copilot 能带来游戏数据,因此就是的微软能收集大而全的数据。

可反观 Perplexity AI,尽管作为 AI 搜索独角兽、并非 AI 赛道的无名之辈,甚至他们的 AI 搜索引擎还一度让谷歌搜索左支右绌。可 Perplexity AI 只有 AI 搜索这一个产品,就注定了他们只能从 1500 万活跃用户身上取得数据。如果仅仅从自家用户身上获取数据,Perplexity AI 就注定将迎来 " 加拉帕戈斯化 ",指的就是在孤立的市场环境下独自进行 " 最适化 ",从而丧失与区域外的互换性,进而导致产品与主流需求脱节。

如果 Perplexity AI 不向外 " 掠夺 " 数据,他们的 AI 出现 " 脑腐 " 的概率自然就要远高于微软的 Copilot。简而言之,AI 赛道百舸争流、千帆竞逐的场面,很有可能会在未来一两年内结束。因为拥有数据的内容平台不会再让 AI 厂商平白无故地拿走数据,这就会导致缺乏资金的初创企业失去了数据源。

毕竟当微软等 AI 大厂能利用旗下各种产品悄悄获取用户数据,而 Perplexity AI 等初创企业只能去 " 抢 " 的情况下,长此以往,双方的差距就只会越来越大。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 微软 reddit 美国 技能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论