Agent不会搞科研？人大微软开源框架&工具包解决盲目试错通病，抱抱脸日榜第一

写代码、跑实验、改项目、迭代方案，现在的 AI 智能体样样都能搞定。

但绝大多数 Agent，始终跨不过一道核心门槛：只是强大的执行器，不会进行自主科研。

它们可以一次次修改代码、运行评测、记录日志，但很难稳定地把假设、证据、失败与经验组织成一个持续演化的研究状态。

随着任务变长，Agent 往往会退化成线性的局部试错：试一个方向，失败；再试一个方向，再失败；即便偶尔成功，也很难把成功背后的机制沉淀下来，指导后续探索。

为此，来自中国人民大学高瓴人工智能学院和 Microsoft Research 的研究者提出了 Arbor：通用且实用的自主科研的框架与开源工具包。

借助 Hypothesis-Tree，Arbor 对优化空间进行结构化探索，不是通过 test-time scaling 让 Agent 尝试更多方向，而是通过特有的 insight 回传机制让每一次尝试都能加深 Arbor 对问题的理解。

目前 Arbor 在国内外社区收获了较高的关注度，同时荣登 Huggingface Daily Paper 日榜第一！

Demo 视频：

Definition：自主科研究竟在关注什么？

Agent 的飞速发展让 Autoresearch 不再只是一个概念：如果给 Agent 一个真实研究项目，它是否可以像研究者一样，持续提出想法、实现方案、运行实验，并在反馈中不断修正自己的判断？

这类问题在论文中被形式化为Autonomous Optimization，简称AO。系统会给定一个初始 artifact，例如模型训练代码、agent harness、数据生成 pipeline；同时给定一个研究目标和可执行 evaluator。

Agent 需要在没有逐步人工监督的情况下，只可见 dev 集，通过多轮实验不断改进这个 artifact，最终保证 test 集上效果提升。这一定义不绑定具体 task，无论是训练模型、改进代码、调整流程，都能被划归到 AO 的定义中来：

这一设定更关注真实科研中的核心循环：我们不是让 Agent 回答一个问题，而是让它持续优化一个研究对象。它需要长期工作，需要处理延迟反馈，需要面对失败，也需要决定下一步应该继续哪个方向、放弃哪个方向、合并哪个结果。

Problem：为什么当前 Agent 还不能胜任 AO 任务？

在真实科研中，进展很少来自孤立的一次尝试。一个研究者可能会同时思考多个方向：某个方向看起来有潜力，但实验结果不稳定；另一个方向分数提升明显，但可能只是过拟合开发集；还有一个方向虽然失败了，却暴露出了关键问题。

这些信息都需要被比较、抽象和保留，而不是每一轮实验都像从头开始。

而许多现有 Agent 系统的状态表示并不适合这种长期科研过程。对话历史又长又散，难以承载结构化的研究判断；工作目录记录了代码变化，但并不解释这些变化对应的假设；日志保存了结果，却很难告诉 Agent 为什么成功或失败。最终，Agent 虽然能执行很多次 trial，但这些 trial 不一定能汇聚成真正的 research progress。

Arbor 试图解决的正是这个问题：如何把一次次短暂的实验，组织成可以长期积累、可以被审计、可以指导未来探索的研究状态。

△Arbor 概览。（a）一次 Math-Reasoning Data Synthesis（数学推理数据合成）运行得到的假设树（hypothesis tree）与（b）对应的 development score（开发集分数）曲线；（c）全部任务上归一化后的 held-out 增益。Method：Arbor，迈向通用 + 实用的自主科研

Arbor 想强调并实现两个要点：

通用性。Arbor 不绑定某一个特定 benchmark 或任务形态，只要有待优化的 artifact、明确的目标和可执行的反馈信号，无论是 model、harness、data 都可以优化。

实用性。为了让框架真实可用，Arbor 开源了独立 CLI 和 Agent Skill：你既可以直接使用完整的 CLI 进行长时间自动化研究实验，也可以在 Codex/Claude Code 等环境中加载 Arbor-style skills 实现平替的效果。

Hypothesis-Tree Refinement：持续演进与动态选择

Arbor 的核心机制是 Hypothesis-Tree Refinement，HTR。它将整个研究过程外化为一棵持续演化的 Hypothesis Tree。在这棵树中，每个节点都代表一个研究假设。这个假设不是一句随意的想法，而是一个可以被验证或证伪的 claim：如果我们以某种方式修改 artifact，是否会改进目标指标？

每个节点绑定四类信息：

Hypothesis，即当前节点想验证的研究主张

Artifact version，即该假设对应的代码、配置或数据 pipeline 修改

Experimental evidence，包括开发集分数、运行日志、错误信息、执行状态以及必要的 held-out 验证结果

Distilled insight，即这次实验沉淀出的可复用经验：为什么成功，为什么失败，在哪些条件下有效，哪些方向可能只是局部过拟合，后续探索应当继承或避免什么。

HTR 的关键设计在于 insight 回传：如何让这些记录下的信息持续回流到研究过程本身。每次完成一个假设验证后，Arbor 会观察实验结果并提取 distilled insight，沿着父节点回写到整个 Hypothesis Tree，借助这次实验更新对全局的认识。因此之后的改进并不是从空白上下文重复试错，而是基于整棵树中已有的假设、证据和经验，动态决定下一步应该扩展哪个 leaf、合并哪个改动、剪枝哪个方向，或者生成哪些新的后续假设，保证每一步都是当前理解下的最优解。

这样一来 Hypothesis-Tree 不只是一个搜索树，也不是普通的实验日志，它同时承担三种角色：

搜索空间：记录哪些方向正在探索，哪些方向已经失败，哪些方向值得进一步展开。

长期记忆：把成功和失败都转化为结构化经验，而不是散落在对话历史或日志文件里。

研究记录：将每一次 artifact 修改和背后的假设、证据、决策连接起来，让整个过程可追踪、可审计。

通过这种机制，Arbor 不再让 Agent 沿着单一轨迹盲目 trial-and-error，而是让 Agent 在一棵持续生长的研究树上工作：每一次实验都会改变树的结构，每一次 insight 都会影响后续探索，整个系统因此能够在长时间、多分支的研究过程中不断积累证据、修正方向，并逐步逼近真正有效的 artifact 改进。

Coordinator+Executor：长期策略与短期实验分离

为了维护这棵 Hypothesis Tree，Arbor 采用了一个清晰的两级架构：长期存在的 Coordinator和短期存在的 Executor。

Coordinator 可以理解为" 研究负责人 "。它维护全局 Hypothesis Tree，观察当前研究状态，提出新的研究假设，选择值得执行的方向，并根据实验结果决定哪些方向应该继续、剪枝或合并。

Executor 则更像" 实验执行者 "。每个 Executor 只负责一个具体假设。它会在隔离的 worktree 中修改代码、运行 evaluator、检查失败原因，并将结果以结构化形式返回给 Coordinator。返回的信息不仅包括分数，还包括 artifact reference、实验现象和 distilled insight。

这种设计对应长期科研需要的两种不同能力：一方面要有全局策略，知道整个研究过程走到了哪里；另一方面要有局部执行能力，能够把一个具体想法落地成代码并跑通实验。如果把这两者混在同一个长上下文里，低层执行细节很容易淹没全局研究判断。Arbor 通过 Coordinator-Executor 分离，让全局研究状态保持清晰，让每个实验的证据能够准确回到对应的假设节点上，并借助 git 将功能实际落地。

Pipeline：不断进化的自主科研飞轮

Arbor 的运行过程可以概括为一个持续循环的科研飞轮：

观察研究状态→提出候选假设→选择探索方向→分派实验执行→回传结构化证据→抽象 insight →决定合并、剪枝或继续探索。

Coordinator 首先读取当前 Hypothesis Tree，包括已有方向、最近实验结果、失败归因、已验证 insight 和当前 best artifact。随后，它会根据现在对问题的理解，自主选择一个当然最优的父节点继续展开，生成若干子假设。

随后 Coordinator 会从当前 frontier 中挑选最有价值的叶子节点交给 Executor。Executor 在独立环境中实现假设，并用 development evaluator 运行实验。实验完成后，Executor 返回分数、结果记录、代码引用和 insight。

接下来是关键的 insight 回传，Arbor 的 backpropagation 传播的不是一个简单 reward，而是更接近科研判断的结构化信息。例如，一个局部实验发现 " 某种接口不兼容导致方向失败 "，这个 insight 可能会被抽象为更高层方向的约束，进而影响后续所有相关假设的生成。这一认知随着树结构天然向上传播，从而改进 Arbor 对当前实验的理解与认识。

最后 Arbor 决定当前候选是否应该被合并为新的 best artifact。为了避免开发集过拟合，Arbor 引入 held-out merge gate：只有当候选在 held-out evaluator 上超过当前最优结果时，它才会被真正合并。

这使得 Arbor 同时具备探索性和验证性：开发反馈用于探索，held-out 反馈用于确认真实进展。

Experiment：真实 AO 任务覆盖模型训练、Harness Engineering 与数据合成

为了验证 Arbor 是否真的能支撑通用自主科研，论文构建了六个真实 AO 任务，覆盖三类研究 artifact：

Model Training：包括 optimizer design 和 architecture design，要求 Agent 改进训练算法、超参数或模型结构，在固定预算下获得更好的训练表现。

Harness Engineering：包括 Terminal-Bench 2.0 和 BrowseComp，要求 Agent 改进另一个 Agent 的控制逻辑、工具使用方式或测试时推理流程。

Data Synthesis：包括 Search-Agent Data Synthesis 和 Math-Reasoning Data Synthesis，要求 Agent 改进数据生成 pipeline，使生成数据能更好地刻画搜索智能体或数学推理能力。

这六个任务都来自真实研究场景，而不是单一 toy benchmark。每个任务都包含初始材料、自然语言目标、development evaluator、held-out test evaluator 和任务原生指标。这样的设置模拟了真实科研中常见的模式：研究者可以在开发反馈上反复实验，但最终结果必须在独立测试上验证。与 Arbor 对比的是两个强大的单轨迹 coding agent baseline：Codex 和 Claude Code。它们同样可以查看文件、修改代码、运行实验，并在相同资源预算下持续迭代。

△在六类 AO 任务上的评测结果

如上表所示，Arbor 在六个真实 AO 任务上都取得了最佳 held-out 结果。在 BrowseComp 上，初始 ReAct-style search harness 的 held-out accuracy 为 45.33，Codex 提升到 50.00，Claude Code 提升到 53.33，而 Arbor 提升到 67.67。在 Math-Reasoning Data Synthesis 上，Arbor 将 held-out pass-gap 提升了 19.79 个点，而 Codex 和 Claude Code 分别提升 5.21 和 7.29 个点。在 Terminal-Bench 2.0 上，Arbor 也取得了最高 held-out pass rate，从初始 69.81 提升到 77.36。

总体来看，Arbor 获得了超过 Codex 和 Claude Code 平均相对 held-out gain 2.5 倍的提升。这说明，在长程 AO 任务中，瓶颈不只是局部执行能力。即便强大的 coding agent 能写代码、能跑实验，如果缺少结构化的研究状态，它们仍然很难稳定地把多轮尝试积累成更强的 artifact。

△MLE-Lite 上的评测结果

除了六个真实 AO 任务，Arbor 还在 MLE-Bench Lite 上进行了评测。结果显示，Arbor with GPT-5.5 达到 86.36% Any Medal，达到了当前 SOTA。这进一步说明，Arbor 的方法并不只适用于作者构建的任务套件，也能够迁移到已有的长程机器学习工程 benchmark 上。

Analysis：不是更多试错，而是更好的研究组织

Arbor 的实验分析进一步表明，其提升并不只是来自 " 跑了更多实验 "。真正关键的是 Hypothesis Tree 对研究状态的组织方式。

更高效的探索

在六个任务的效果的成本日志里，Arbor 消耗的 token 与 Claude Code 等基线属于同一量级，却拿到了更大的 held-out 增益。这说明差距不在于花掉多少算力，而在于算力被组织利用的方式：它被拿去维护相互竞争的假设、跑隔离执行、对比证据、更新搜索树，而不是在一条轨迹上闷头试到底。

更有效的研究组织

论文在 MLE-Bench Lite 上消融了 HTR 最核心的两个组件：去掉假设树后，Any Medal 从 81.82% 掉到 63.64%；在保留树的前提下、再去掉 insight 的向上传播，进一步掉到 54.54%。一个有点反直觉的结论是，只去掉洞察传播，比直接去掉整棵树掉得还多，这说明光有层次结构是不够的，一棵不传播经验的树只能把实验排排坐，却给不出后续决策真正需要的语义记忆。Arbor 的核心价值，正是让 agent 的探索过程变得结构化、可积累、可验证，而不是简单地在 agent 外面套一个循环。

这也带来一个值得关注的 insight：自动科研的本质不是让 Agent 无限试错，而是让它在试错中逐步形成对问题的理解。

在 Arbor 中，失败不是被丢弃的负样本，而是被归因、被抽象、被传播的研究证据。成功也不是一个孤立的分数提升，而是可以被复用的局部发现。

随着 Hypothesis Tree 不断演化，Agent 的搜索分布会被已有 evidence 持续塑形：它会更少重复已经失败的路径，也更容易围绕有效机制继续细化。

这让 Arbor 更接近人类研究者的工作方式。人类做研究时，也不会只记住 " 哪个实验分数最高 "。我们会记住哪些想法失败了、失败原因是什么、哪些约束不能违反、哪些局部改动可能具有更广泛的意义。Arbor 正是试图把这种研究记忆显式化，并变成 Agent 可以操作的系统状态。

Future：通用自主科研的下一步

当然，Arbor 并不意味着 Agent 已经具备人类研究者级别的创造力。当前 Agent 生成 idea 的质量仍然有很大提升空间。在困难任务中，它可能难以提出真正新颖的机制，也可能过早放弃一个潜在方向。自动科研仍然面临大量 open questions：如何产生更高质量的研究假设，如何更准确地区分真实提升和偶然过拟合，如何在更长周期中维护可靠记忆，如何让人类研究者与自主 Agent 更好协作。

但 Arbor 给出了一个重要答案：要让 Agent从 " 执行任务 " 走向 " 自主科研 "，不能只依赖更长上下文、更强模型或更多工具。我们还需要一种机制，把多轮探索组织成持续演化的研究状态。

从这个角度看，Arbor 的意义不只是提出了一套新的 agent framework。它希望回答一个更大的问题：

当 Agent 已经能写代码、跑实验之后，怎样才能让它真正积累研究进展？

Arbor 的答案是：让 Agent 像研究者一样维护假设、证据、失败和 insight，让每一次实验都成为下一次探索的基础。

这也许正是从执行型 Agent 走向研究型 Agent 的关键一步。

作者简介：

本文第一作者金佳杰，中国人民大学高瓴人工智能学院博士一年级，导师为窦志成教授。他的主要研究方向包括智能体、检索增强生成等。以第一 / 共同第一作者身份在 ICLR、NeurIPS、ACL 等国际顶级会议发表论文多篇论文；代表工作包括 FlashRAG，FinSight，WebThinker，Search-o1 等，受到国内外研究者的广泛关注，个人 GitHub 项目累计获得星标 5000 余枚。

共同第一作者扈煜阳，中国人民大学高瓴人工智能学院博士一年级，导师为窦志成教授，主要研究方向为长程智能体，包括智能体记忆、自进化智能体等。

本文的通信作者为人大窦志成教授。

论文标题：Toward Generalist Autonomous Research via Hypothesis-Tree Refinement

论文链接：https://arxiv.org/pdf/2606.11926

代码仓库：https://github.com/RUC-NLPIR/Arbor

项目主页：https://ruc-nlpir.github.io/Arbor/

作者金佳杰个人主页：https://ignorejjj.github.io/

作者扈煜阳个人主页：https://namespace-eri.github.io/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签