AI 大厂终于意识到继续与内容平台对抗是条不归路。就在全球最知名的百科全书网站维基百科(Wikipedia)庆祝 25 周年之际,负责运营维基百科的维基媒体基金会方面宣布,亚马逊、Meta、微软、Mistral AI 以及 Perplexity 等多家 AI 大厂加入 " 维基媒体企业合作伙伴计划 "(Wikimedia Enterprise)。

因此也就意味着,这些厂商将付费获取维基百科的 " 企业级数据访问权 ",以获取这家百科全书网站的实时数据。而维基媒体企业合作伙伴计划则会根据他们的特定需求,对维基百科海量的文章数据进行结构化处理,使其更易于模型训练和商业用途。对此维基媒体基金会表示,来自亚马逊、微软等厂商的授权费用将直接用于支持该非营利组织的长期运营。
简而言之,维基百科将旗下的数据资产整理成 AI 更易懂的形式,以方便 AI 厂商即拿即用。
在 AI 大模型的训练中,结构化数据以其固有的清晰度、一致性和效率,成为了构建可靠且可扩展 AI 大模型的关键。尤其是那些用于分类、回归和预测等任务的模型,结构化数据更是必不可少。

比如在金融大模型中,交易金额、交易时间、交易类型等结构化的交易记录,就可以作为模型的输入特征,帮助 AI 学习和识别风险模式,从而提升输出结果的稳定性。不仅如此,结构化数据与知识图谱之间存在天然的协同关系,通过将两者结合,AI 大模型就可以更准确地理解数据的上下文和语义。
而维基百科之所以要向 AI 厂商提供结构化数据的访问权,是因为后者的爬虫已经成为了这家非营利组织的梦魇。维基媒体基金会产品高级总监 Marshall Miller 此前在博客文章中表示," 使用维基百科内容的 AI 聊天机器人必须引导更多用户访问维基百科,确保免费知识能够持续流通。访问量下降就意味着志愿者可能减少,内容更新和丰富的速度放缓,个人捐赠者对这项工作的支持也可能下降。"
为了保证内容的可访问性,维基媒体基金会针对维基百科的内容采取了分布式存储,然后根据一定的策略分配到不同的存储节点,使得数据可以就近存储,从而提高访问速度和效率。当某个内容被多次请求时,他们就会将内容缓存到离用户最近的数据中心,倘若某个内容很久都未被请求,那么就会存储在核心数据中心。
根据内容的热度存储数据,就使得维基百科能够尽可能地节省服务器开支。然而人类的偏好与 AI 截然不同,人类更关心时下的热点,而 AI 追求的是进化,后者倾向于囫囵吞枣式鲸吞所有数据。内容的热度对 AI 毫无意义,就意味着维基百科认为的冷门内容也会被频繁访问,也就是说 AI 比人类访客更能消耗宝贵的带宽。
其实维基百科想要找这些 AI 厂商要钱不难理解,可后者为何会在这个时间点选择付钱呢?过去三年,因 AI 爬虫抓取数据而引发的诉讼可谓比比皆是,AI 厂商更是一直在 " 白嫖 " 内容平台,甚至宁可打官司也不愿付钱。如今,这些厂商的想法却出现了 180 度的大转弯。
AI 大厂之所以愿意向维基百科付钱,是因为他们不希望看到维基百科倒下。AI 行业一直存在一个悖论,那就是如何在不依赖于人类提供的大量训练数据的情况下,让 AI 变得更智能?这就好比要求一个旱鸭子横渡长江,却不给 TA 配游泳教练。

目前,构建 AI 大模型的关键技术是基于人类反馈的强化学习(RLHF),不仅依赖人类标注员,更需要持续向大模型投喂数据。就像培养一个优秀学生需要优质教师一样,大模型的性能提升需要海量的预训练数据和高质量的指令微调 / 强化学习数据。
在跳出 RLHF 模式之前,AI 大模型的进化就需要汲取人类的智慧,还做不到在完全没有外部数据的情况下实现自我进化。谷歌、微软、亚马逊、Meta 已经意识到一味向内容平台单方面索取会导致人类创作者降低输出内容的热情,如果没有广大创作者在互联网上分享内容,难道要他们亲自上阵?
虽然目前已经有团队基于强化学习中的 " 自我博弈 "(Self-Play)开始探索 " 无数据自我进化 ",也就是 AI 给自己出题、自己解题、再从中学习,如此循环往复,来让 AI 变得更聪明。但问题是由于没有来自外部的 " 标准答案 ",评估每一个自生成问题的难度和可解性都需要让大模型实际解答,整个过程就如同反复试错的穷举法,极其耗费时间和算力。

换而言之,AI 的无数据自我进化尽管省去了获取外部数据的成本,却不得不面临预训练算力激增以及模型迭代需要更多时间。对于大厂而言,算力可能不是问题,但他们缺时间。以 OpenAI 为例,在 CEO 山姆 · 奥特曼宣布进入红色警报(Code Red)状态,推迟非核心项目应对谷歌 Gemini 的强势反扑后,只花 1 个月时间就拿出了 GPT-5.2。
当下 AI 业界的状态是 " 争先恐后 ",没有哪家厂商敢于慢工出细活。当不需要外部训练数据的方法还有暂时解决不了的缺陷时,AI 厂商就不得不回过头来与维基百科这种拥有高质量数据的平台和解。万一维基百科选择躺平摆烂,就该 AI 厂商头疼了。
更何况出钱从维基百科买数据反而更有性价比,毕竟 AI 厂商宝贵的人力资源要用于升级算法,让自家员工创作内容才是大材小用。
【本文图片来自网络】


登录后才可以发布评论哦
打开小程序可以发布评论哦