量子位 昨天
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在 HLE(" 人类最后考试 ")的专家校验子集上,首次有系统突破 60 分大关!

就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA 万冠呈,牛津大学尹榛菲,Eigen AI 金帝、王瀚锐等团队联合开发的 Eigen-1 多智能体系统实现了历史性突破——

在 HLE Bio/Chem Gold 测试集上,Pass@1 准确率达到 48.3%,Pass@5 准确率更是飙升至 61.74%,首次跨越 60 分大关。这一成绩远超谷歌 Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和 Grok 4(30.2%)。

最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的 DeepSeek V3.1 搭建

在这个开源底座上,研究团队通过叠加 Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创新机制,实现了质的飞跃。

下面详细展开——

技术创新:三大支柱撑起 60 分突破

当 AI 开始挑战人类知识的终极边界,一场前所未有的较量正在上演。

当大模型在 MMLU、GPQA 等传统基准上纷纷 " 卷到 90 分 " 时,这些测试逐渐失去了区分力。为了追踪 AI 在科学推理前沿的真实进展,Center for AI Safety 与 Scale AI 联合推出了 " 人类最后的考试 "(Humanity ’ s Last Exam,HLE)——

涵盖数学、自然科学、工程学、人文社科等百余领域共 3000 道博士级难题,被视为 AI 知识推理的终极试炼。

而 HLE Bio/Chem Gold 则是HLE 的黄金标准子集,包含 149 道经过领域专家人工审核和纠正的题目。

相比原始 HLE 数据集,这个子集排除了可能存在歧义或错误答案的问题,确保了标签的准确性和可靠性,因此成为评估 AI 科学推理能力最可信的基准。

正是在 HLE Bio/Chem Gold 子集上,Eigen-1 系统首次跨越 60 分大关,而这背后离不开其三大创新机制。

1. Monitor-based RAG:告别 " 工具税 " 的隐式检索增强

传统的检索增强生成(RAG)系统就像一个频繁暂停的视频播放器——每次需要外部知识时,都必须中断推理流程、构建查询、处理结果,再重新整合上下文。

研究团队将这种开销形象地称为 " 工具税 "(Tool Tax)——每次工具调用都会打断思考流程,导致上下文丢失。

传统 RAG 系统的 " 工具税 " 问题在下图的人口遗传学案例中展现得淋漓尽致。左侧显示模型过度自信地使用错误公式,右侧则展示了即使通过显式 RAG 获得正确公式,推理流程的中断导致模型无法将知识重新整合到原始问题中。

Eigen-1 的 Monitor-based RAG 彻底改变了这一范式:

隐式监控:Monitor 持续监测推理流中的不确定性,像一位细心的助手,在后台默默关注着每一个可能需要帮助的时刻。扫描推理轨迹以便在不确定时触发 RAG。

精准查询:Querier 在检测到不确定性时,精准提取最小关键词集合,避免搜索空间的不必要扩展。

无缝注入:Injector 则将检索到的知识无缝融入推理流,就像在对话中自然地补充背景信息,而不是生硬地插入引用。

实验数据显示,与显式 RAG 相比,Monitor-based RAG 将 token 消耗减少 53.5%,将工作流迭代次数减少 43.7%,同时保持了更高的准确率。

见下图单倍型计数案例,Monitor 检测到重组约束的不确定性,Querier 生成针对性查询,Injector 注入两个关键事实,使模型能够排除无效案例并得出正确的 30 个单倍型答案。

2. Hierarchical Solution Refinement (HSR):从 " 民主投票 " 到 " 层级精炼 "

除了隐式知识增强,Eigen-1 还革新了多智能体的协作模式。

传统的多智能体系统采用 " 民主投票 " 机制,所有候选方案被平等对待,容易 " 稀释 " 最优解。

而 Eigen-1 引入的分层解决方案精炼(HSR)打破了这种假设。HSR 采用 " 锚点—修复 " 结构:一个候选作为 anchor,其余作为参考依次修正,形成层次化协作。

在 HSR 框架下,每个候选解决方案轮流充当 " 锚点 ",其他方案则作为 " 参考 " 提供针对性修正。这种设计让强方案能够吸收弱方案的有价值见解,而不是简单地进行平均。

具体包括四种修复维度:逻辑补全(填补缺失的推理步骤)、数值修正(纠正计算错误)、方法替换(用更优策略替代较弱方法)、表达优化(提升清晰度而不改变实质)。

这种设计让优质方案能吸收其他方案的有价值见解,而非简单平均。

下图通过一个图像识别任务生动展示了 HSR 的工作原理。

面对昆虫识别和花朵计数的复合任务,锚点解决方案最初选择了 ResNet(选项 C),但存在部署时间计算错误。通过引入其他解决方案作为参考,系统进行了四类针对性修正。

3. Quality-Aware Iterative Reasoning ( QAIR ) :质量驱动的迭代优化

质量感知迭代推理(QAIR)能根据解答质量自适应地调整迭代深度:高质量解答可提前收敛,低质量解答则触发更多探索,从而在效率与准确率之间取得平衡。

该机制为每个方案评估三个维度:逻辑性、答案正确性、解释完整性。只有未达标的方案才会进入下一轮修正,避免在低质量候选上浪费计算资源。

全面碾压:不止于 HLE

Eigen-1 的优势不限于 HLE:

1、HLE Bio/Chem Gold(149 题)

Pass@1: 48.30%(领先 SciMaster 13.4 个百分点)

Pass@5:  61.74%(首破 60%)

2、SuperGPQA 生物学(Hard 版)

Pass@1: 69.57%

Pass@5: 78.26%

3、TRQA 文献理解

Pass@1: 54.65%

Pass@5: 79.07%

深层洞察:成功背后的规律错误模式分析

Figure 7 的饼图揭示了一个关键洞察:92.78% 的错误涉及推理过程问题,88.66% 涉及知识应用问题,且两者存在大量重叠。

这表明科学推理的核心挑战不在于单纯的知识检索或逻辑推理,而在于如何将知识与推理无缝整合。

相比之下,执行遵循错误(13.40%)和理解错误(9.28%)占比较小,说明模型在指令理解和执行层面已经相对成熟。

组件贡献的精确量化

团队通过增量构建消融实验精确量化了每个组件的贡献。

基线系统在没有任何外部知识的情况下只能达到 25.3% 的准确率,消耗 483.6K tokens。加入显式 RAG 后,准确率提升到 41.4%,但代价是工作流步骤从 43.4 激增到 94.8,这正是 " 工具税 " 的直观体现。

当引入 Monitor 组件后,虽然准确率略降至 34.5%,但 token 消耗骤降至 218.4K,工作流步骤也降至 51.3。

随着 Querier 和 Injector 的加入,准确率恢复到 40.3%。HSR 的引入将准确率提升至 43.7%,最后 QAIR 将完整系统的准确率推至 48.3%,同时保持了高效的资源利用(218.9K tokens,53.4 步骤)。

消融实验从另一个角度验证了各组件的必要性。移除 Monitor 导致 token 消耗激增至 461.3K,工作流步骤增至 95.3,显示了隐式增强的巨大价值。

移除 HSR 或 QAIR 分别导致准确率降至 44.8% 和 43.7%,证明了层级精炼和质量感知迭代的重要作用。

多样性与共识的微妙平衡

作者通过散点图和回归分析揭示了一个违反直觉但极具启发性的发现。

在信息检索任务(339 个样本)中,解决方案之间的一致性与准确率呈现较弱的正相关(斜率 0.369),意味着不同的检索路径和视角能带来互补信息,多样性是有益的。

而在推理任务(392 个样本)中,情况完全相反——一致性与准确率呈现强正相关(斜率 0.851),表明当多个推理路径得出相同结论时,这个结论很可能是正确的。

因此,检索型任务应鼓励解法多样性与并行路线;纯推理型任务应倾向早期共识与收敛。

这一发现为未来智能体系统的任务自适应设计提供了重要指导。

工具税的精确量化

最后,作者通过对比准确率提升与 token 减少的关系,直观展示了隐式增强相对于显式 RAG 的巨大优势。

传统的基线 +RAG 方案虽然能提升准确率,但以巨大的计算开销为代价,在图中表现为向右上方延伸(准确率提升但 token 增加)。

而 Eigen-1 则位于左上象限,在大幅提升准确率的同时减少了 53.5% 的 token 消耗,工作流迭代次数也从 94.8 步降至 53.4 步,减少了 43.7%。这种 " 既要又要 " 的成果,正是架构创新的价值所在。

意义:科学 AI 的新范式

Eigen-1 首次突破 60 分的意义远超一个基准测试:Eigen-1 更预示着 AI 辅助科学研究的新范式

当 AI 能够真正理解和推理人类知识前沿的复杂问题时,它将成为科学家的强大助手,加速从基础研究到应用转化的全过程。

研究团队表示,未来将继续优化架构设计,探索向其他科学领域的扩展,并研究如何将这些技术整合到更广泛的科学工作流中。随着更多研究者加入这一开源生态,我们有理由期待科学 AI 将迎来更快速的发展。

正如团队所言:"HLE 可能是我们需要对模型进行的一次重要的考试,但它远非 AI 的最后一个基准。" 当开源社区携手推进,人类与 AI 协作探索未知的新时代正在加速到来。

论文链接:https://arxiv.org/pdf/2509.21193v1  

项目地址:https://github.com/tangxiangru/Eigen-1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 考试 开源 技术创新
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论