被迫开放搜索数据，谷歌的渡劫宣告失败

美国司法部与硅谷巨头谷歌的反垄断案，现在已经变成了一出超长的连续剧，随着美国联邦法院做出最新裁定，谷歌放下的心又悬了起来。日前有消息显示，美国联邦法院裁定，谷歌方面必须向竞争对手开放部分核心搜索数据。

经过长达五年时间的拉锯，如今看来谷歌只是收获了一场惨胜。尽管无需剥离 Chrome 浏览器和 Android 操作系统，让谷歌逃脱了被拆分的命运，现有商业体系不至于被彻底重构，可开放核心搜索数据给竞争对手，真的有可能会动摇谷歌的根基。

这一次，谷歌必须向竞争对手交付的搜索数据包括搜索索引和用户交互数据，几乎等于是让他们亲手培育自己的竞争对手。为什么谷歌搜索引擎的江湖地位一直固若金汤，DuckDuckGo 等后继者从未对他们造成实质上的威胁？其中的奥妙就在搜索索引、用户交互数据等核心数据上。

作为几乎是最成熟的互联网业务，搜索引擎的产品形态从诞生开始就基本固定，都是依靠爬虫从网络上提取各网站的信息，然后将其保存在自己的数据库中、并建立索引。当用户发起搜索请求后，系统检索与用户查询条件匹配的相关记录，再按特定排列顺序将结果呈现给用户。

在上世纪 90 年代的互联网技术革命中，百度和谷歌的崛起就是技术制胜的结果。尽管早期的搜索引擎多如牛毛，AltaVista、Infoseek、WebCrawler 等基于布尔搜索的搜索引擎比 " 黄页 " 强得有限，它们往往直接抓取网页，然后通过 " 全文搜索 " 技术，将包含有用户查询关键词的网页链接返回。然而这类初级 " 搜索引擎 " 有一个致命缺陷，那就是它们并不知道哪个网页更好。

这时候百度依托于超链分析技术，通过分析网页链接的数量和质量来评估内容的权威性，就显著提升了搜索结果的相关性和准确性。而谷歌的 PageRank 算法也是通过分析网页之间的链接关系，来实现评估网页的效果，在技术层面上降维打击其他搜索引擎，这就是谷歌和百度崛起的关键。

随着谷歌、百度的壮大，通过算法分析链接之间的引用关系本身，就变成了人尽皆知的 " 大白菜 "。比如雅虎推出的 " 自建搜寻服务 "（Build Your Own Search service），可以让任何一个人从 0 开始搭建可用的搜索引擎。但问题在于，用户并不关心搜索引擎的原理，更关注的是 " 如何更好地获取信息 "，这就不仅仅涉及算法，更需要常年对用户搜索数据的积累。

进入新世纪的第二个十年，在数据共享和存储趋向于服务端的情况下，信息的获取和流动已经不是主要问题，但如何针对具体问题在海量的数据中找到相关性最高的信息，则是一个比较难的问题，而这也是一个水滴石穿的工作。

这也是为什么字节跳动当初为了搭建搜索业务，挖走了百度大搜索部门的许多工程师，可后续推出的 " 悟空搜索 " 表现一言难尽。这是因为即便工程师可以被挖，他们脑海里的算法也能带走，但用户数据可是带不走的。只有百度和谷歌在过去二十年来收集了无数用户的查询，才能投入资源去优化高频和长尾场景。

简而言之，同样是搜索一个关键词，谷歌总是能讨用户欢心，是因为他们的索引数据库庞大到难以想象。相比《大英百科全书》，谷歌的索引数据库才是包罗万象的百科全书。海量用户的搜索行为数据（如点击偏好、停留时间、地域分布），得以让谷歌的算法能够持续优化，形成 " 数据越大—算法越好—用户越多—数据更大 " 的飞轮效应。

尽管同样都是搜索引擎，可谷歌每一次提供的结果总是最符合你的心意，DuckDuckGo 则老是差点意思的情况下。久而久之，除了真正关心个人隐私的用户会盯着效果不佳这个缺陷，继续使用 DuckDuckGo，更侧重效率的普罗大众就必然会投入谷歌的怀抱。

现在法院要求谷歌交出 " 用户意图判断数据 "、" 匿名化的搜索结果排序逻辑数据 "，乃至索引数据库，就意味着友商也能获得谷歌的这些 " 秘籍 "。当 " 武林绝学 " 人人都能练的时候，谷歌搜索的危机自然也就真正到来了。

【本文图片来自网络】

宙世代

一起剪

相关标签