钛媒体快报 05-26
红杉中国发布xbench,全球首家投资机构定义的AI基准测试
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

钛媒体 App 5 月 26 日消息,红杉中国于今天正式推出一款全新的 AI 基准测试工具 xbench(xbench.org),并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world Evaluations》。

首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类 Agent 评测框架。评测结果和方法论可通过 xbench.org 网站实时查看。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

红杉 ai 钛媒体 互联网
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论