三易生活 前天
被迫开放搜索数据,谷歌的渡劫宣告失败
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

美国司法部与硅谷巨头谷歌的反垄断案,现在已经变成了一出超长的连续剧,随着美国联邦法院做出最新裁定,谷歌放下的心又悬了起来。日前有消息显示,美国联邦法院裁定,谷歌方面必须向竞争对手开放部分核心搜索数据。

经过长达五年时间的拉锯,如今看来谷歌只是收获了一场惨胜。尽管无需剥离 Chrome 浏览器和 Android 操作系统,让谷歌逃脱了被拆分的命运,现有商业体系不至于被彻底重构,可开放核心搜索数据给竞争对手,真的有可能会动摇谷歌的根基。

这一次,谷歌必须向竞争对手交付的搜索数据包括搜索索引和用户交互数据,几乎等于是让他们亲手培育自己的竞争对手。为什么谷歌搜索引擎的江湖地位一直固若金汤,DuckDuckGo 等后继者从未对他们造成实质上的威胁?其中的奥妙就在搜索索引、用户交互数据等核心数据上。

作为几乎是最成熟的互联网业务,搜索引擎的产品形态从诞生开始就基本固定,都是依靠爬虫从网络上提取各网站的信息,然后将其保存在自己的数据库中、并建立索引。当用户发起搜索请求后,系统检索与用户查询条件匹配的相关记录,再按特定排列顺序将结果呈现给用户。

在上世纪 90 年代的互联网技术革命中,百度和谷歌的崛起就是技术制胜的结果。尽管早期的搜索引擎多如牛毛,AltaVista、Infoseek、WebCrawler 等基于布尔搜索的搜索引擎比 " 黄页 " 强得有限,它们往往直接抓取网页,然后通过 " 全文搜索 " 技术,将包含有用户查询关键词的网页链接返回。然而这类初级 " 搜索引擎 " 有一个致命缺陷,那就是它们并不知道哪个网页更好。

这时候百度依托于超链分析技术,通过分析网页链接的数量和质量来评估内容的权威性,就显著提升了搜索结果的相关性和准确性。而谷歌的 PageRank 算法也是通过分析网页之间的链接关系,来实现评估网页的效果,在技术层面上降维打击其他搜索引擎,这就是谷歌和百度崛起的关键。

随着谷歌、百度的壮大,通过算法分析链接之间的引用关系本身,就变成了人尽皆知的 " 大白菜 "。比如雅虎推出的 " 自建搜寻服务 "(Build Your Own Search service),可以让任何一个人从 0 开始搭建可用的搜索引擎。但问题在于,用户并不关心搜索引擎的原理,更关注的是 " 如何更好地获取信息 ",这就不仅仅涉及算法,更需要常年对用户搜索数据的积累。

进入新世纪的第二个十年,在数据共享和存储趋向于服务端的情况下,信息的获取和流动已经不是主要问题,但如何针对具体问题在海量的数据中找到相关性最高的信息,则是一个比较难的问题,而这也是一个水滴石穿的工作。

这也是为什么字节跳动当初为了搭建搜索业务,挖走了百度大搜索部门的许多工程师,可后续推出的 " 悟空搜索 " 表现一言难尽。这是因为即便工程师可以被挖,他们脑海里的算法也能带走,但用户数据可是带不走的。只有百度和谷歌在过去二十年来收集了无数用户的查询,才能投入资源去优化高频和长尾场景。

简而言之,同样是搜索一个关键词,谷歌总是能讨用户欢心,是因为他们的索引数据库庞大到难以想象。相比《大英百科全书》,谷歌的索引数据库才是包罗万象的百科全书。海量用户的搜索行为数据(如点击偏好、停留时间、地域分布),得以让谷歌的算法能够持续优化,形成 " 数据越大—算法越好—用户越多—数据更大 " 的飞轮效应。

尽管同样都是搜索引擎,可谷歌每一次提供的结果总是最符合你的心意,DuckDuckGo 则老是差点意思的情况下。久而久之,除了真正关心个人隐私的用户会盯着效果不佳这个缺陷,继续使用 DuckDuckGo,更侧重效率的普罗大众就必然会投入谷歌的怀抱。

现在法院要求谷歌交出 " 用户意图判断数据 "、" 匿名化的搜索结果排序逻辑数据 ",乃至索引数据库,就意味着友商也能获得谷歌的这些 " 秘籍 "。当 " 武林绝学 " 人人都能练的时候,谷歌搜索的危机自然也就真正到来了。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 搜索引擎 百度 互联网 美国
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论