投资界 05-26
红杉中国,刚刚发了一篇Paper
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

红杉中国,以出乎意料的方式刷屏国内 AI 圈。

今天,红杉中国对外宣布推出一款全新的 AI 基准测试工具 xbench,并发布了一篇解释其工作原理的论文。这是自 2022 年 ChatGPT 点燃 AGI 赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的 AI 圈增添了新的话题。

过去两年多里,AI benchmark 渐渐成为评估基础大模型和 AI Agent 能力的通用工具,海内外高校、研究机构和 AI 公司推出了大量不同维度的测试体系,而众多的基础大模型和 AI Agent 就像一个个高三学生,不断在各种题库里刷题,测试能力、提升成绩。

然而快速发展的基础模型和 AI Agent 毕竟不是普通的高三学生,题库很快被刷爆,并且频频获得高分甚至满分的成绩。这时候,一个重要的问题就出现了:到底是学生变聪明了,还是卷子出了问题?

红杉中国出品,有何不同?

xbench 最早是红杉中国在 2022 年 ChatGPT 推出后,对 AGI 进程和主流模型进行的内部月评与汇报。在建设和不断升级 " 私有题库 " 的过程中,发现主流模型 " 刷爆 " 题目的速度越来越快,基准测试的有效时间在急剧缩短。

图片来源:OpenAI 研究员姚顺雨个人博客(评估的有效时间在急剧缩短)

在官宣的技术报告中,红杉中国提出了这个让 AI 界头疼的问题:想要真实地反映 AI 的客观能力正变得越来越困难,如何构建更加科学、长效和如实反映 AI 客观能力的评价体系,正成为指引 AI 基数突破与产品迭代的重要需求。

科学、长效和如实反映,切中了当前 AI 基准测试的痛点。红杉中国表示,xbench 的推出,是在 " 评估和推动 AI 系统提升能力上限与技术边界 " 的同时," 重点量化 AI 系统在真实场景的效用价值,并采用长青评估的机制,去捕捉 Agent 产品的关键突破 "。

xbench 采用双轨评估体系,构建多维度测评数据集,同时追踪模型的理论能力上限与 Agent 的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:第一,评估 AI 系统的能力上限与技术边界;第二,量化 AI 系统在真实场景的效用价值(utility value)。其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。

此外,xbench 采用长青评估(Evergreen Evaluation)机制,通过持续维护并动态更新测试内容,以确保时效性和相关性。xbench 会定期测评市场主流 Agent 产品,跟踪模型能力演进,捕捉 Agent 产品迭代过程中的关键突破,进而预测下一个 Agent 应用的技术 - 市场契合点(TMF,Tech-Market Fit)。

实用和长青,成为了 xbench 最大的两个亮点:前者让 xbench 脱离了市面上很多基准测试中单纯的 " 智力测验 ",后者则形成对 AI 能力的连续性评估,从而更早更快地判断出 AI 技术或产品实现落地的 " 奇点 " 将出现在哪里。

价值在哪里?

如果仅仅是推出一款基准测试工具,这在形式上并不新鲜,但结合 xbench 的特点以及红杉中国的行业地位,此举的意义和造成的影响可能会超越普通的基准测试本身。

两年多前,ChatGPT 的横空出世终于让 AI 不再是纸上谈兵,给大众看到了实实在在的价值。这就像 iPhone 的诞生被视为移动互联网的开端一样,不少人将其比喻为 AI 时代的 iPhone moment。

10 多年前,iPhone 等智能终端的出现和移动通信技术的进步,给移动互联网时代夯实了地基,最直接的表现就是智能手机 APP 的大爆发。如今,大模型成为了 AGI 时代的基础设施,AI 应用正在像 " 全民 APP" 时代一样,呈现出雨后春笋的苗头。

那个 " 英雄不问出处 " 的年代似乎又重现了。移动互联网时代的一切都有望被 AGI 重构,而且大大降低了创新的成本。未来,一个有划时代意义的 AI Agent,不一定非来自于大厂,它或许是某位计算机专业大学生的课后作业,甚至是某个高中生极客的灵光一现。

在这个新叙事下,TMF(技术 - 市场契合)正成为 AGI 创业的新范式:对大模型的能力和发展有清晰了解,并在这个基础上找到场景,开发出真正有需求的产品。

xbench 的出现,就切中了大模型和 Agent 的 TMF 上。在技术报告里,红杉中国用三张图详细解释了 TMF 在 Agent 领域创业的阶段:

第一个阶段,未达成 TMF:技术可信与市场接受区域没有交集,此时 Agent 应用仅是工具或概念,无法交付结果或规模化产生价值;Agent 对人的影响较小。

第二个阶段,Agent 与 Human 共同工作:技术可信与市场接受区域发生交集,交叉区域是 AI 带来的价值增量,包括:一,以低于最低人类成本提供可行服务;二,帮助提升应对重复性、质量要求中等的工作内容。而高水准的工作内容,由于数据稀缺、难度更高、依然需要人来执行,此时由于稀缺性,企业获取的 AI 收入可能会被用于支付高端工作产出。

第三个阶段,专业化 Agent:领域专家在构建评估体系,并指引 Agent 迭代。专家的工作从交付结果转向构建专业评估训练垂类 Agents,并提供规模化服务。

阶段 1 到阶段 2 的转变是由于 AI 技术突破、算力与数据的规模扩张带来的;阶段 2 到阶段 3 的进展则依赖于熟悉的垂类需求、标准、历史经验的专家。

如果说这是 AGI 时代的价值转移之路,那 xbench 就有望成为这条转移之路上的瞭望塔,第一时间看到和抓到 AI 技术与产品的突破。

投资机构扎的更深了

在此之前,几乎很少有投资机构会去发表一篇学术论文。投资人更多还是在商业化的指标里去评估一个项目的价值,再辅之以一系列感性的、微妙的判断。

当 AGI 的大潮汹涌到来之时,传统的打法正在发生变化。xbench 在技术报告最后,发出了社区共建的号召:基础模型与 Agent 开发者可以使用最新版本的 xbench 评测集来第一时间验证产品效果,得到内部黑盒评估集得分;垂类 Agent 开发者和相关领域的专家或企业,可以与 xbench 共建与发布特定行业垂类标准的 Profession-Aligned xbench;以及从事且具有明确想法的 AI 评测研究者,可以获取专业标注并长期维护 xbench 的更新。

成为标准的制定者,打造一个高人才密度的社区,在不断探求和推动 AI 技术上限的过程中寻找商业化落地的机会,这或许是红杉中国在 AGI 时代给出的投资新范式。

本文来源投资界,原文:https://news.pedaily.cn/202505/550180.shtml

【本文为投资界原创,网页转载须在文首注明来源投资界(微信公众号 ID:PEdaily2012)及作者名字。微信转载,须在微信原文评论区联系授权。违规转载必究责。】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

红杉 ai 库里
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论