三易生活 08-06
AI独角兽视共识于无物,互联网公地悲剧即将上演
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

去年 AI 研究公司 Epoch AI 曾经做出预测,到 2028 年互联网上所有高质量的文本数据都将被使用完毕,AI 业界将会撞上 " 数据墙 "(data wall ) 。而急于获得更多数据来训练更强模型的 AI 厂商与待价而沽数据拥有者之间的博弈,更堪称是过去两年间互联网世界最有看点的斗争之一。

当斗争日趋激烈,互联网世界过去二十余年建立的一系列准则就被弃之如敝履,曾经大家熟悉的一切似乎都变成了过去式。日前,知名云服务提供商 Cloudflare 发布博客文章,指控 AI 搜索独角兽 Perplexity 在网站已明确标注禁止 AI 爬虫抓取的情况下仍进行抓取,并采用了多种不同的方式来绕过防火墙、以隐匿其抓取行为。

Cloudflare 在博文中指出,相关网站已经在 robots.txt 中声明禁止 Perplexity 的爬虫抓取内容,但他们发现 Perplexity 并没有遵守这一规范。甚至在相关网站检测到 Perplexity 爬虫或其爬虫所属的 ASN(自治系统号)时,选择返回 HTTP 403,即服务器理解了本次请求、但拒绝执行该任务的方式来阻止 Perplexity 爬虫访问。

据悉,Perplexity 的做法是更换用户代理(UA),而后者则代表用户进行网络活动的软件实体,它可以是任何能够发起网络请求的软件。用户代理的主要作用是向服务器发送请求,并接收、解析服务器返回的响应,可被视为是一张 " 网络身份证 "。而 Perplexity 则会将自己的爬虫伪装成 Chrome UA 来躲避网站的拦截,即在网站面前冒充 Chrome。

为了帮助自家客户免遭 Perplexity 爬虫的骚扰,Cloudflare 宣布将后者从已验证的机器人列表中删除。对此,Perplexity 公司发言人 Jesse Dwyer 直接否认了 Cloudflare 的说法,并宣称 Cloudflare 的行为就是在推销自己的服务,其博文中的截图显示没有内容被 Perplexity 爬虫访问,甚至提及的爬虫都不属于他们。

不得不说,Perplexity 的公关水平相当在线。但作为一家知名的 AI 搜索独角兽,Perplexity 在使用爬虫不合理抓取内容上,称得上是前科累累。早在去年春季,AWS 就曾宣布对 Perplexity 展开调查,原因是后者被指控未经网站所有者同意,使用托管在 AWS 服务器上的爬虫程序抓取数据,且涉嫌违反 robots.txt 协议。

随后在今年 6 月,英国广播公司(BBC)也向 Perplexity 发出法律信件,以遏制 Perplexity 未经授权抓取其内容的行为。如果只是 Cloudflare 指责也就罢了,在云服务商 AWS、新闻机构 BBC 都先后站出来的情况下,Perplexity 的爬虫未经授权抓取内容几乎是板上钉钉的事情了。

面对这一不利局面,Perplexity 的做法相当聪明,他们并没有选择澄清,而是攻击 Cloudflare 别有二心、并非急公好义。不久前 Cloudflare 宣布推出 Pay Per Crawl 平台,为内容创作者和 AI 厂商提供了一个数据交易的场所,同时他们还向用户提供阻止 AI 爬虫的机制。

不难看出,面对 AI 厂商无孔不入的爬虫,Cloudflare 也想在这个乱局中分到一杯羹,来赚反 AI 爬虫的钱。作为一个向网站提供数据安全服务的公司,Cloudflare 想要让更多网站使用他们的服务,如今还有什么是比渲染 AI 爬虫的威胁更有效呢?所以 Perplexity 就是抓住了这一点,使用了 " 共沉沦 " 的手段来减轻外界对自己的负面观感。

然而就算 Cloudflare 渲染 AI 爬虫威胁是为了自己的业务,显然要比 Perplexity 的行为好太多。要知道被 Perplexity 视若无睹的 robots.txt 是互联网世界的基石之一,它的唯一作用就是告诉网络爬虫,网站中的哪些内容是不对爬虫开放,哪些内容又能被抓取,可以理解为一种物权宣示。

robots.txt 的存在就避免了一大批网站收到来自搜索引擎等 UA 的过多请求,可以节省带宽和服务器资源。更有趣的是,robots.txt 其实并不具备任何强制力,它只是一个行业约定俗称的标准或者说是共识。有了这个共识,才有了大批网站愿意将线下的内容搬到线上,从而成就了互联网内容生态的繁荣。

当一家科技企业不在乎业界准则,或者说不要脸了,受害的一方居然做不到对等反制。这也就意味着 " 公地悲剧 ",最终会导致互联网内容资源被过度使用,直至创作者不再愿意分享自己的内容。

所以 Perplexity 这种破坏共识的行为,显然是一个很不好的开端。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai chrome 独角兽 互联网 aws
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论