出品|虎嗅科技组
作者|SnowyM
编辑|陈伊凡
头图|视觉中国
"AI 原生 100" 是虎嗅科技组推出针对 AI 原生创新栏目,这是本系列的第「12」篇文章。
8 月 8 日,OpenAI 最新模型 GPT-5 正式发布,但性能提升幅度远没有达到人们期待的 " 下一代模型 " 水准,虽然性能有一部分大幅提升,但有相当一部分并未与 o3 或者是 Claude、Grok4 拉开距离。
这个现象背后,整个 AI 行业正在面临一个关键转折点:仅仅通过增加数据量和计算资源来提升模型性能的传统路径,可能已接近天花板。
此时,一家给 OpenAI 喂数据的公司浮出水面—— Turing。
2022 年年初,Turing 的 CEO ——乔纳森 · 西达尔特(Jonathan Siddharth)从美国硅谷帕洛阿尔托,驱车前往 OpenAI 的办公室。彼时的 Turing 是一家人力资源招聘公司。
在去的路上,他做好了给这家新兴的硅谷 AI 巨头推销 Turing 产品的准备—— Turing 可以帮助 OpenAI 招聘人才。
当走进办公室时,一堆 OpenAI 的研究员却向乔纳森提了一个需求——他们不要人,他们要数据。彼时,OpenAI 的研究员们发现,在训练 GPT-3 的数据集中,加入一些计算机代码,有助于提高模型的推理能力。因此,他们希望 Turning 能够给他们提供质量上乘的代码,用于 GPT-4 的开发中。
这次会议,成为了 Turing 发展的拐点。只用了 7 年时间,这家公司从零达到 22 亿美元估值,并且成为了继 Scale AI 之后,硅谷第二家风头正盛的数据标注公司。
如今随着大模型能力的演进,互联网上可公开的数据已经很少了,对更难生成的数据的需求将会急剧增长。随着 Scale AI 被 Meta 收购,Turing 将有希望在数据标注领域成为估值第一的公司。
虎嗅接触了 Turing 的早期投资方——硅谷风投资机构 UpHonest Capital,其投资人表示,他们对 Turing 团队的第一印象是沉稳从容的连续创业团队,对产品路线与商业化有清晰判断;同时,Turing 还通过高频、透明的进展汇报营造出强烈的 FOMO(形容创业者对新技术、新趋势敏感的表现),善于动员资源。
彼时的 Turing 与现在的业务相距甚远,UpHonest Capital 投资 Turing 是 2019 年,正值 Zoom 上市,Zoom 早期借助了亚洲工程人才红利快速成长,投资方认为,这是 " 人才地理套利 " 结构性机会,而 Turing 创始团队具备亚裔跨境背景与执行力,在这一赛道拥有天然优势。这也是他们投资 Turing 的原因。
不过,业内投资人也表示,Turing 这样的数据标注公司,本质上还是一种人力资源外包型企业,毛利率不高,需要精细化运作和控制成本。随着如今数据标注公司越来越多,数据的质量成为了竞争的胜负手。
Turing 的上升空间和想象
Turing 正在书写着 " 经济上行期 " 的故事。
Turing 最初切入的是远程工程师招聘市场,凭借 AI 驱动的人才云(Talent cloud,Turing 积攒的人才网络)平台快速壮大。
2021 年,公司成功跻身独角兽行列。此时,他们已经有了 400 万专业开发者的庞大人才网络和 ALAN AI 平台(Turing 自研的 AI 模型开发工具平台),并成为了最大、最国际化的开放人才平台之一。
但这远不是故事的结局。
当 OpenAI 等顶级 AI 基础模型厂商对数据的需求正在疯涨时,Turing 捕捉到这一机遇,果断转型为 AGI 基础设施提供商,将以往积攒的庞大资源(软件工程代码数据及模型评估能力)包装成标准化服务。
如今,头部模型厂商基本都是 Turing 的客户,例如,OpenAI、Anthropic、Google、Meta 等顶级 AI 实验室,Turing 为他们提供模型训练、微调和智能体开发等底层支持。
如果了解大语言模型的诞生经过就知道,大模型会先将大量从网页上收集到的数据进行预训练,然后再经过微调和后训练,让 AI 模型学习如何回答问题,在监督微调中,模型可以通过专门的数据,学会新的技能。这个专门的数据,就是 Turing 提供的,标注过的,高质量数据集。
这个目的是让模型学习和泛化。因此,数据标注的专业性在这个环节就显得尤为重要。
Turing 的人才库中,有涉及不同领域的专家。乔纳森表示,他们要做的就是提供互联网上搜不到的数据。
资本市场对 Turing 的认可度可以用 " 估值翻倍 " 来概括。2021 年底的 Series D 轮融资中,公司筹得 8700 万美元,投后估值约 11 亿美元,正式成为独角兽。
2025 年 3 月完成的 Series E 轮融资:1.11 亿美元的资金注入让估值直接翻倍至 22 亿美元。这轮融资由马来西亚主权财富基金 Khazanah Nasional Berhad 领投,WestBridge Capital、Sozo Ventures、UpHonest Capital 等十多家机构参投。
截至 Series E 完成,Turing 累计融资总额约 2.25 亿美元。更值得关注的是其业绩表现:2024 年公司年度收入达到 3 亿美元规模,较上一年增长三倍,并成功实现盈亏平衡。
我们梳理了 Turing 的融资历史:
2018-2019 年:获得种子资金,2019 年完成 1400 万美元种子轮
2020 年 12 月:完成 3200 万美元 Series B 轮,由 WestBridge Capital 领投
2021 年 12 月:完成 8700 万美元 Series D 轮,估值 11 亿美元成为独角兽
2025 年 3 月:完成 1.11 亿美元 Series E 轮,估值 22 亿美元
最新财务数据显示,Turing 的 年度经常性收入(ARR)约 3 亿美元。
创始人:连续创业者的故事
Turing 由 Jonathan Siddharth 和 Vijay Krishnan 于 2018 年联合创立。
Vijay Krishnan (左)Jonathan Siddharth(右)
两位创始人均拥有斯坦福大学计算机科学硕士背景,在校期间因对机器学习的共同兴趣而结识,并萌生了联合创业的想法 。研究生毕业后,他们多次合作技术项目并尝试创业。
2008 年,他们联合创办了内容推荐平台 Rover,后于 2016 年被 Revcontent 收购 ,两人深刻体会到仅依赖湾区本地招募顶尖工程师的局限,于是开始尝试远程分布式团队的模式 。
在这个过程中,他们逐步摸索出如何高效甄别和管理全球各地的人才,并 " 无心插柳 " 地获得了打造 AI 驱动的人才云平台的灵感。
2018 年,Jonathan 和 Vijay 将这一洞见付诸实践,创立了 Turing ,以机器学习技术对工程师进行技能审核和匹配,帮助企业 " 云端组建 " 全球开发者团队。
正如 Jonathan 所强调的,传统线下招聘和外包模式已难以满足高速发展的科技行业需求,他们希望通过 Turing 打造全球人才网络,让企业 " 不受地理位置限制找到世界上最优秀的人才 "。
一个 AI 转型企业的教科书式样本
Turing 的华丽转身值得细说,因为他们所上演的故事几乎堪称传统企业向 AI 企业转型的标准教科书。
在收到 OpenAI 需求时,乔纳森坦言,他们当时完全没料到 ChatGPT 会引发 AI 热潮,更没想到 " 软件工程师的代码对教会大语言模型思考和推理如此重要 "。" 他们的要求简直是疯了,他们想要在这么短的时间内获得大量数据。" 乔纳森回忆。
但最后,Turing 确实给 OpenAI 在模型性能上提供了巨大帮助,使得 ChatGPT 能够在发布后,震惊世界。
另一面,Turing 并没有完全抛弃原有业务。创始人强调,各条业务线都在增长,只是把主要资源投入到 AI 相关的新业务上。这种务实的做法为新战略提供了现金流支撑。
Turing 的 AI 业务
转型后的 Turing 形成了两大核心业务板块,即公司内部称为 "Turing AGI Advancement" 和 "Turing Intelligence" 的两条业务线。
Turing AGI Advancement 专门服务全球顶级 AI 实验室,帮助提升前沿基础模型的各项能力。简单说,就是让 AI 模型变得更聪明。他们为 OpenAI、Anthropic、Google、Meta 等顶尖公司提供高质量训练数据、代码生成、模型微调等服务。
Turing Intelligence 则致力于将前沿 AI 能力转化为企业应用。面向财富 500 强企业和政府机构,构建定制的 AI 系统和解决方案,帮助传统企业实现智能化升级。
两条产品线分别对应 " 造模型引擎 " 与 " 用模型赋能 ",既服务 AI 行业本身,又将 AI 能力推广到各行各业。
支撑业务发展的是 Turing 的两大核心资产,这两大资产又能够形成闭环,为 Turing 提供源源不断的专业数据资产。
Turing 的 AI+ 人才循环
首先是 AI 驱动的人才云平台。Turing 声称通过自动化测试筛选,Turing 从全球数百万报名者中筛选出 400 万技术人才,堪称全球最大的人类智能网络之一。当 AI 项目需要特定专家时,平台能迅速匹配合适团队。
例如,当 OpenAI 需要大量 Python/C++ 工程师编写代码来丰富模型训练数据集时,Turing 可以迅速组建起一支分布式的专业开发者团队投入任务 ;又如某制药企业需要生命科学背景的标注人员来给模型做专业数据标记,Turing 也能从人才库中筛选出合格的 PhD 等高端人选。
其次是自研的 ALAN AI 工具平台,用于高效编排 AI 模型开发的各类工作流。ALAN 将人类专家与机器算法紧密结合,支持从数据生成到模型评估的全流程自动化。Turing 通过这个平台实现了模型训练与优化的 " 流水线式 " 标准化生产。
Turing 最初采用典型的人力资源外包模式,通过撮合企业与远程开发者并抽取佣金盈利。
转型后,商业模式变得更加多元:
在 Turing AGI Advancement 板块,公司的主要客户是全球顶级的 AI 模型研发机构。这些 AI Labs 利用 Turing 来获取大规模的定制数据服务和人类反馈,例如为模型生成代码语料、构建评测基准、执行模型对比测试,以及提供成百上千名有特定领域专业的标注人员进行 RLHF 微调等 。
Turing Intelligence 板块,则类似软件项目制或订阅制,从需求分析到部署运维,提供端到端的 AI 应用开发服务。在多个行业已有显著成果,例如帮助医院降低 15% 库存成本、将制药晶体分析时间从 250 小时缩短到 2-3 小时、提升银行客服响应速度 40%
2024 年,Turing 实现了盈利,这也证明了商业模式的可持续性。投资者也给予高度评价,从 Foundation Capital、WestBridge 到马来西亚主权基金,每轮融资都有顶级机构背书。
数据标注进入 " 精英喂养 " 时代
根据市场研究机构预测,全球 AI 数据收集与标注市场 2024 年的规模已达到约 180 亿美元,预计 2025 年将增至约 220 亿美元,此后几年维持 20 – 30% 的年复合增长率 。
这一领域受到资本的热烈追捧:Scale AI 等头部公司的高估值就是明证。例如 Meta 斥资 143 亿美元 收购 Scale AI 49% 股权,将该数据标注独角兽估值推高至 290 亿美元,并挖走其 CEO 负责 Meta 的超级智能项目 。
OpenAI 的内部评估亦印证了这种趋势——其表示,下一代模型若按传统方式训练,性能增益将大幅低于预期,GPT-5 就是最好的例子 。为突破瓶颈,各大实验室纷纷寻求解决方案,包括从企业自身业务中挖掘私有数据、生成合成数据、引入更多人类反馈等。
去年 12 月,OpenAI 展示了一项叫做 "Test-Time Scaling" 的新技术测试结果,这被业界视为大模型在后预训练时代提升能力的重要突破。这个技术简单来说,就是让 AI 在回答问题时花更多时间 " 思考 ",从而给出更准确的答案。
2024 年下半年,OpenAI 秘密开发了一个代号为 "Orion" 的新模型。公司内部原本计划将它作为万众瞩目的 GPT-5 发布,期望它能比当时最强的 GPT-4o 模型表现更出色。然而,测试结果让人失望—— Orion 的表现并没有达到预期的大幅提升。
从 Orion 到 GPT-4.5 再到 GPT-5,海外媒体的许多报道印证了一个事实:性能提升确实不够显著。这期间,关于 OpenAI 面临数据瓶颈的消息不断传出。特别值得注意的是,OpenAI 前首席科学家 Ilya Sutskever 在一次公开演讲中曾表示,支持 Scaling Law(算力越大越好)的高质量训练数据已经不多了。
一个显而易见的趋势是,数据标注正在进入 " 精英喂养 " 时代,各领域的专家,取代了初级数据标注员。
其中,引入海量高质量人类标注和代码数据被证明是近期最有效的手段之一 。例如,Meta 在训练 Llama3 模型时投入了超过 1000 万条人类标注数据 。但如此巨量且高质量的数据获取绝非易事,必须建立起专业化的数据生产流水线。
这正是像 Turing 这样的 AI 数据服务商崛起的背景:它们填补了 AI 实验室 " 数据生产能力 " 的空白,帮助后者源源不断地获取所需的 " 燃料 ",从而延续 Scaling Law。
乔纳森在 Turing 官网上发布了一篇文章提出,领先的前沿实验室正在面临新的挑战——需要具有适当深度、多样性和反馈结构的数据,从而真正释放能力提升——这意味着,数据标注领域,正在进入 " 精英喂养 " 的模式。乔纳森则表示,Turing 采取的是中立的态度,不会与任何实验室对抗。
Surge AI 的创始人 Edwin Chen 表示,质量高于一切。Turing 则能够提供 400 多万软件工程师、数据科学家、领域专家的人才库;能够即时招聘跨专业领域的博士、奥林匹克级别的人才;发起人工智能驱动的审查,确保每位贡献者的质量一致。
不过,随着资本不断涌入,这个赛道正变得越来越拥挤。数据质量是决定这个行业的胜负手,并且,当大语言模型的性能提升曲线逐渐平缓,对数据标注的质量要求将越来越高。
Turing 的挑战:精细化运营和数据质量
在 AI 数据服务领域,Turing 和 SurgeAI 这两家十分有潜力的 AI 公司走出了截然不同的路子,就像两个基因不同的物种,各有各的生存策略。
硅谷三大数据标注公司情况 虎嗅根据公开信息整理
Turing 更像一个什么都能干的 " 一站式平台 "。由于一开始的人才云业务积累,它的业务范围很宽,既能提供技术人员(工程师、数据科学家),又能提供高质量的代码数据和评测,并依靠这些能力帮助企业搭建 AI 系统。
而 Surge AI 走的是精品路线,主要做多轮对话标注、AI 安全测试、复杂评测等高难度任务,需要顶级专家和严格流程来保证质量。业内提到它的融资时,都会强调 " 人类在环 " 这个定位。其创始人 Edwin Chen 在谈及 SurgeAI 业务时,十分 " 骄傲 ",并始终强调 " 质量为王 "。
它的扩张逻辑与 Turing 完全不同:不求量大,但求价值高。围绕高质量数据这个核心,不断完善工具和流程,让每个数据样本都更值钱。
在 AI 数据提供这方面,SurgeAI 虽然晚成立 2 年,但已经围绕数据深入做好了相关技术储备,甚至被称为 " 业内早已公认超越了 ScaleAI",而 Turing 的资源池积累相对更大一些,未来的 Turing 还有多大上升空间,值得关注。
登录后才可以发布评论哦
打开小程序可以发布评论哦