新浪科技讯 6 月 18 日下午消息,全球电子表格自动化领域权威基准 SpreadsheetBench 公布最新榜单,WPS AI 表格 Agent(Seed 2.0)以 73.46% 登顶 Full 912(全量榜单) ,位列全球第一,超越 Google、Microsoft、OpenAI、Anthropic 等国际知名科技公司旗下产品,还首次超越该榜单设定的人类专家基准线。这意味着 WPS AI 处理复杂表格任务的能力,已经跨越了一个关键门槛。
SpreadsheetBench 是业界衡量表格 AI 实战能力的权威基准,它源自 2024 年发表于 AI 顶级学术会议 NeurIPS 的研究论文。该基准包含 912 个来自真实 Excel 论坛的实际问题,其中 42.7% 的表格含非标准结构,35.7% 含多表格,还涉及颜色、跨工作表等复杂操作。换句话说,它考的不是 AI 会不会 " 读表格 ",而是 AI 能不能像人一样,理解任务意图、把结果做出来。论文发布时测定的 Excel 专家人类基线为 71.33%,此后也被视为衡量 AI 表格能力的重要参照。
据悉,此次登顶的 WPS AI(Seed 2.0),是金山办公基于自研表格 AI 基座 Qingqiu Agent 打造的业务 Agent。今年 5 月,Qingqiu Agent 已在 SpreadsheetBench Verified 400(专家精标榜单)以 94.75% 的成绩登顶;此次 Full 912(全量榜单)再度夺冠,首次超越 71.33% 的人类专家基准线,实现了从基座能力到产品能力的完整跑通。(文猛)


登录后才可以发布评论哦
打开小程序可以发布评论哦