三易生活 07-03
AI爬虫无孔不入,Cloudflare要当网站的“救世主”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

随着不久前美国法官支持 Meta、Anthropic 的诉求,做出了 AI 厂商使用受版权保护的作品来训练 AI 大模型属于合理使用这样的判决,AI 业界真的是变天了。当法官认为硅谷 AI 大厂未经版权方许可的行为 " 符合版权激发创造力、促进科学进步的目的 ",直接让拥有内容的版权所有者变得人人自危。

就在全世界的内容创作者和版权方都惴惴不安时,知名云服务提供商 Cloudflare 站了出来,日前该公司宣布将默认阻止 AI 爬虫在未经网站所有者许可或补偿的情况下抓取内容。据悉,每一个新注册 Cloudflare 的域名都将被询问是否允许 AI 爬虫访问,从而有效赋予网站阻止 AI 爬虫抓取其数据的能力。

Cloudflare 的 CEO 马修 · 普林斯在相关声明中宣称," 我们的目标是将控制权交还给创作者,同时继续助力 AI 公司创新 "。同时他还强调 Cloudflare 并未选择与 AI 厂商敌对,该公司还将提供 AI 厂商 " 按次付费爬取 " 以获取内容,并表示 " 这是通过建立多方共赢的新模式,守护自由繁荣互联网未来的关键举措。"

当 AI 厂商从法律层面获得了使用爬虫抓取内容的合理许可之后,全世界的内容创作者就已经失去用法律武器保护自己的可能,双方的对抗将回归技术攻防范畴。可是面对拥有强大技术实力的 AI 厂商,版权方保护内容的防线说是纸糊的都不为过。所以在这时候,Cloudflare 的出现无异于是救内容创作者或版权方于水火之中。

当然,Cloudflare 也不是做慈善的,其反 AI 爬虫功能仅提供给使用 Cloudflare 服务的创作者。作为全球知名的网络服务提供商,Cloudflare 主要提供内容分发网络(CDN)、域名解析(DNS)、网络安全防护(如 DDoS 防御)等服务,反 AI 爬虫则是其用于吸引创作者、网站站长使用相关服务的 " 香饵 "。

事实上,大量的内容创作者、网站站长、出版商等一切版权拥有者也几乎绝对会咬钩,因为他们正面临着一场 " 生存危机 "。因为当下有越来越多的用户更喜欢通过与 Gemini AI、ChatGPT、DeepSeek、文小言等 AI 聊天机器人对话的方式,来获取所需信息,并且不愿意点击聊天机器人提供的原始链接。

根据 SEO 方案解决商 BrightEdge 公布的数据显示,谷歌搜索的 AI Mode 今年 6 月在美国市场上线时,直接就导致传统 URL 链接的用户点击率下降了 30%。要知道网站站长、出版商的商业模式是通过内容来吸引用户点击,再将用户访问产生的流量卖给广告商来赚钱。如果用户不访问,那么网站就无法获得维持运营所需的广告收入。

在版权方看来,他们与 AI 厂商之间已经不是 " 分赃不均 ",而是 AI 厂商的出现导致他们不得不面临 " 生存危机 ",并且有相当多的 AI 厂商并没有为 AI 爬虫获取的内容付费。有鉴于此,一切能阻碍 AI 厂商使用自己数据迭代 AI 大模型的手段,在版权方看来都是可以接受的。

那么 Cloudflare 有能力抵抗 AI 爬虫的进攻吗?据悉,Cloudflare 的 5 秒盾(5-second challenge)可谓是反爬虫领域的一面旗帜,其会通过 5 秒等待时间配合多维度验证(如请求头、User-Agent、Cookies   等)来区分真人用户与自动化工具,从而让无数爬虫在此折戟。

事实上,Cloudflare 不仅在传统的反爬虫领域有口皆碑,在面对新兴的 AI 爬虫时同样也有建树。AI 爬虫之所以会让相当多传统的反爬虫手段失效,盖因其实际上可以被视为是一种智能体,它们可以完全与真人一样操作浏览器,从而导致以往被用于分辨机器和人类的验证码、浏览器等常规反爬虫手段变得形同虚设。

对此 Cloudflare 拿出了被称为 "AI 废话迷宫 " 的 AI Labyrinth,它属于通过诱导式陷阱来消耗爬虫的资源,而非直接拦截的 " 蜜罐技术 "。具体来说,Cloudflare 会在网页中嵌入含有仅对爬虫可见的隐藏链接,这些链接则指向由 AI 生成的虚假页面,虽然内容看似真实、但与被保护的网站无关。

简而言之,Cloudflare 不仅不会拦截 AI 爬虫,而是选择引诱爬虫走进一个精心编织的多层嵌套虚假页面迷宫。AI 爬虫一旦被引诱,就会在无意义的内容中团团转,从而浪费计算资源和带宽。其实 Cloudflare 的这番操作之所以会有效,核心机制就在于正常人不会对 AI 生成的无意义内容感兴趣。

如此一来,AI Labyrinth 就实现了消耗 AI 厂商宝贵的算力和带宽,让后者觉得使用爬虫爬取你的网站缺乏性价比。不仅如此,Cloudflare 方面还宣称陷入迷宫的 AI 爬虫行为会被记录,用于训练 Cloudflare 的识别模型,以形成 " 检测 - 诱捕 - 优化 " 的反馈闭环。

当然,Cloudflare 也明白一味与 AI 厂商对抗,只会导致双方陷入无意义的消耗战。所以他们 Cloudflare 还提供了一个 " 按次付费爬取 " 的方案,允许网站所有者向 AI 厂商收取访问内容的相关费用,为 AI 行业合理获得内容提供了一条具备可行性的路径。

其实财大气粗的 AI 厂商不是不愿意为内容付费,例如谷歌就每年花费 6000 万美元获取 Reddit 的内容,OpenAI 也宣布将付费使用德国出版巨头施普林格旗下出版物的内容。只是问题在于,互联网世界的内容提供商有如恒河沙数,AI 厂商没有时间和人员逐个与不同的主体谈判,所以就只能抓大放小,针对小网站用技术手段、面对大网站则使用金钱攻势。

Cloudflare 的这个方案,妙就妙在一边用技术手段将小网站武装成 " 刺猬 ",另一边则提供了一个标准化的内容付费渠道。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 聊天机器人 美国 ddos
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论