Nature：首个End-to-End的AI科学家

导语

从自动发现数学猜想的AM到辅助化学结构解析的DENDRAL，人类对"机器自主科研"的追求已跨越近半个世纪。然而，早期系统受限于知识表示的僵化与推理能力的不足，始终未能真正实现从问题提出、实验设计到成果撰写的端到端闭环。2024年，The AI Scientist[1]的问世标志着这一梦想的重大跨越——它不仅能自主提出研究假设、编写执行实验代码，还能将发现整理为格式规范的学术论文，并通过模拟审稿流程评估论文质量，从而构成了首个覆盖完整科研链条的自动化系统。本文将深入解读这一里程碑式工作，剖析其以树搜索为核心的实验探索引擎，并探讨其对科学研究范式的深远影响。

关键词：AI科学家、科研自动化、树搜索（Tree Search）、大语言模型（LLMs）、自主科研、实验探索、AI论文生成、科学发现、科研智能体、科研范式变革

贾梓杏丨作者

赵思怡丨审校

论文标题：Towards end-to-end automation of AI research

论文链接：https://www.nature.com/articles/s41586-026-10265-5

发表时间：2026年3月26日

发表期刊：Nature

一、为什么重要：从自动化发现到完整论文

科学自动化的构想几乎与AI学科本身一样古老。论文引言开宗明义地指出：

"The automation of science is a long-standing ambition in artificial intelligence (AI) research."

回望这段历史，我们可以看到一个清晰的能力演进脉络。早期系统专注于高度专业化的单一任务：AM[3]自动发现数学定理，DENDRAL[4]从质谱数据中推断化学结构——它们是特定领域的"专家"，却缺乏通用的科研推理能力。中期发展见证了AI在更复杂科学问题上的突破：AlphaFold[5]以原子级精度预测蛋白质三维结构，材料发现AI自主设计具有目标性能的新材料。但这些系统本质上仍是高度特化的工具，人类研究者需要围绕它们组织整个研究流程。

LLM时代带来了新的可能性。大语言模型开始辅助假设生成、自动撰写文献综述、甚至编写实验代码。然而，正如论文所指出的：

"Although the community has made substantial progress in automating individual components of the scientific process, a system that autonomously navigates the entire research life cycle—from conception to publication—has remained out of reach."

换言之，AI可以很好地完成科研链条上的某个环节，却很少有系统能够独立走完从"灵光一现"到"见刊发表"的完整旅程。也正因为如此，The AI Scientist的出现才显得格外特殊。

要理解这种特殊性，一个很好的参照对象是2025年NeurIPS发表的GeCCo[2]（Generating Computational Cognitive Models using Large Language Models）。GeCCo的pipeline设计精巧：给定任务描述、参与者行为数据和代码模板，LLM生成候选认知模型，通过拟合数据获得反馈，迭代优化模型结构。它展现了AI在特定科研场景下的强大能力——在四个认知领域中，LLM生成的模型与文献中最优的领域专用模型不相上下。但GeCCo的输出是什么？是模型代码。研究者拿到这些代码后，仍需自己解读结果、撰写论文、组织引用、回应评审。它是一个出色的科研工具，而非独立的科研主体。

The AI Scientist则实现了质的飞跃。它的输出是一篇完整的、符合学术规范的研究论文，包含引言、方法、实验结果、相关工作讨论和参考文献列表。系统不仅"做实验"，还要"讲故事"——解释为什么这个问题重要、方法的设计理念、结果的理论含义，以及这项工作如何嵌入更广阔的学术版图。这种从代码输出到论文输出的跨越，本质上是从工具到自主科学家的范式转换。

那么，这种范式转换到底达到了什么水平？为了验证系统的真实能力，研究团队进行了一场大胆的"图灵测试"——将AI生成的论文提交至ICLR 2025 ICBINB workshop（录取率约70%），且事先获得了会议组织者和机构伦理委员会的批准。评审人被告知部分投稿可能由AI生成，但不知道具体是哪几篇。在三篇投稿中，一篇获得了平均6.33分（具体评分为6、7、6），超过了录取阈值。workshop组织者明确表示，如果不是因为研究团队预先承诺会撤回AI生成论文，这篇稿件将被正式接收。有趣的是，这篇被接收的论文报告了一个负面结果（关于抑制快速学习特征以避免捷径依赖），恰好契合ICBINB workshop关注"有趣失败"的主题。

不过，作者团队保持了诚实：他们明确指出，这只是workshop水平的成功。ICLR主会的录取率仅32%，AI生成的论文距离真正的一流会议标准仍有差距。但他们同时提出了一个发人深省的观点：在机器学习领域，一旦某种方法"开始工作"，即使存在明显缺陷，往往只需几年时间，随着模型能力、计算规模和技术方法的提升，系统就可能超越人类表现。The AI Scientist或许正处于这个临界点。

二、系统框架：四大阶段串联科研全链条

The AI Scientist的整体架构可以用Fig 1中的流程图来概括：四个主要阶段依次衔接，形成一个完整的科研自动化闭环。

Fig 1. The AI Scientist 系统整体流程图（图源论文Fig.1a）

系统的工作流依次为Ideation（想法生成）、Experimentation（实验执行）、Write-up（论文撰写）和Review（自动审稿）。在Ideation阶段，LLM iteratively生成研究想法档案，每个想法包含标题、核心假设和实验计划。随后进入Experimentation阶段，系统通过树搜索执行实验，包括代码实现、超参数调优和消融研究。实验完成后，Write-up模块将结果填充到LaTeX模板中，逐节生成符合学术规范的论文。最后，Automated Reviewer对生成论文进行科学质量评估。这一设计涵盖了人类科研活动的全部关键环节——从创意产生到成果发表再到质量把关——全部由AI自主完成。

在执行层面，系统支持两种实验模式。Template-based模式依赖预定义的实验模板，适用于有成熟实验框架的研究领域（如机器学习中的特定基准测试）。这种模式的优势在于稳定性高，生成的实验更具可复现性。Template-free模式则给予LLM更大的自由度，让它自主设计实验架构，适用于探索性更强的新兴方向。两种模式各有侧重，前者适合快速验证已知范式下的新想法，后者则为突破式创新保留了空间。

研究想法的质量直接决定了整个系统的上限。The AI Scientist在Ideation模块中进行了精心的prompt工程设计：LLM被要求从"新颖性""可行性""潜在影响力"三个维度对每个想法进行自评估。系统还会自动调用Semantic Scholar[12]的API，检索相关文献以验证想法的新颖性——如果LLM提出的想法与已发表论文过于接近，系统会将其过滤并提示重新生成。值得一提的是，Ideation模块的设计受到了MAP-Elites算法[10]的启发。与MAP-Elites在行为特征空间中维护多样性档案类似，Ideation模块也会维护一个"想法档案"，确保生成的研究假设在研究类型、方法论和现象解释等维度上保持多样性，避免系统过早陷入局部最优。

当想法确定后，论文撰写模块采用了Aider作为代码编辑工具，负责从实验日志中提取结果、生成图表并填充到论文模板中。在引用管理方面，系统通过Semantic Scholar[12]检索与论文内容相关的文献，自动插入恰当的引用。Toolformer[11]的思想在此得到了延伸——LLM不仅学会了使用工具，更学会了在学术写作中准确地引用前人工作。系统支持LaTeX和Markdown两种输出格式，并会自动处理图表排版、公式编号等细节。

论文完成后，进入系统的"内部质控"环节。Automated Reviewer遵循NeurIPS的审稿指南，从"原创性""方法论""实验设计""写作质量"等多个维度对论文进行评估。系统会生成5份独立的审稿意见，然后由LLM模拟Area Chair的角色进行meta-review，综合各方意见形成最终的审稿结论。为了校准审稿标准，研究团队利用OpenReview平台上公开的真实审稿数据[13]对模型进行了训练，使其审稿风格尽可能贴近人类专家。

三、核心创新：树搜索驱动的实验探索

科学研究本质上是一个在巨大组合空间中的探索过程。与围棋或象棋这类具有明确规则和目标的问题不同，开放式科研面临的挑战更加严峻：实验空间没有预设边界，"正确答案"事先未知，且每一次实验运行都可能消耗大量计算资源。如果让AI漫无目的地尝试所有可能的实验组合，成本将高到不可承受。

树搜索的核心洞见在于，它天然契合人类研究者"先验证、后深入"的科研直觉。人类研究者面对一个新想法时，通常不会立即投入全部资源做大规模实验，而是先用最小成本构建一个原型，快速验证核心假设的可行性；如果方向可行，再逐步扩大实验规模，深入优化。树搜索的计算结构——从根节点出发，分层展开候选分支，根据反馈动态剪枝——正是这一方法论的精确计算化实现。在The AI Scientist中，LLM负责在每个节点上生成具体的实验方案（代码、参数、数据集配置），而树搜索负责在宏观上分配计算资源、剪除无效分支、保留最有前景的路径。两者的结合，使得系统能够在无边界的实验空间中有序推进，而不是在黑暗中盲目摸索。

树搜索的渐进逻辑在实践中如何展开？让我们跟随一个具体的研究主题，看看系统是如何从最初的原型构想到完整的消融分析，一步步在搜索树中推进的。这个研究主题是"抑制快速学习特征以避免对捷径的依赖"（suppressing fast-learning features to avoid shortcut reliance），一个关于模型鲁棒性的经典问题。

Fig.3 "抑制快速学习特征"主题的四阶段树搜索实例。展示了系统如何从最初的原型构建逐步发展到完整的消融分析，每个阶段的Best节点（深蓝色）被选中作为下一阶段的起点。（图源论文 Fig.3b ）

第一阶段（初步调查）：系统首先构建了一个带有颜色偏置的MNIST数据集，测试"减缓特定权重的学习速度是否能提升对捷径的鲁棒性"。根节点成功后，LLM生成了多个子节点探索不同的实验方向。经过评估，一个节点被标记为最优，进入下一阶段。这一阶段的目标极其明确：用最小成本排除明显不可行的路径。

第二阶段（超参数调优）：系统基于上一阶段的最优节点展开搜索。一个关键改进是"在训练和测试划分中平衡所有颜色-数字组合以避免空组"；同时修复了训练崩溃问题，添加了CelebA数据集，并增强了可视化。另一个分支则调整了抑制强度并使用早停策略。最终选出的最优节点在进入第三阶段前进行了进一步细化。这一阶段的核心是在已验证可行的方向上，系统性地寻找最佳参数配置。

第三阶段（研究议程执行）：系统引入Waterbirds数据集扩展评估范围，将偏斜划分替换为分层抽样，并使用预训练的ResNet替代从头训练，还修复了数组错误。这一阶段产生了多个成功执行的节点，最优节点汇总了多数据集上的稳定结果。此时，方法的普适性已得到充分验证。

第四阶段（消融实验）：最后阶段系统对三个关键因素进行了消融分析：预热期时长、动态惩罚因子自适应、惩罚应用强度等。这些消融实验为论文的方法论部分提供了坚实的因果证据。

这个案例清晰展示了树搜索的"渐进式深化"策略：从最简单的MNIST原型出发，逐步扩展到CelebA、Waterbirds等多个数据集，实验设计也越来越精细化。但更重要的是，这不是一条预先规划好的线性路径，而是一条从众多分支中被筛选出来的成功路径——每一阶段都有其他分支被尝试、被判定为不如当前节点，因此被系统剪除。树搜索的价值，正在于它能够在探索过程中动态地集中资源到高价值区域。

上述实例中的四个阶段，并非独立的项目管理流程，而是树搜索在宏观上的"深度控制策略"。它们定义了搜索树如何分层生长，以及系统何时应该"剪枝"并"深入"。

第一阶段的目标是快速验证研究想法的基本可行性，系统会构建最简化的实验原型，在小型数据集上运行核心算法。结束条件是"一个基本可用的原型已成功执行"——代码没有致命错误，能够产生有意义的输出。这类似于人类研究者在确定研究方向前进行的"可行性摸底"：用最少的时间和资源排除明显不可行的路径。每个节点的最大实验运行时间为1小时，防止因代码问题导致资源浪费。

当初步原型验证通过后，系统进入超参数优化阶段。LLM会提出不同的超参数配置方案（如学习率、批量大小、正则化强度等），并通过树搜索系统性地探索这些配置的组合。结束条件是"实验结果趋于稳定"——具体表现为训练曲线收敛，且至少在两个不同的数据集上成功执行。这一阶段对应人类研究中"调试代码、调优参数"的过程，是确保实验结果可靠的关键环节。

在前两个阶段确认了核心方法的有效性和超参数的合理性之后，系统进入主要研究议程的全面执行阶段。这一阶段会在更大规模的数据集和更完整的实验设置下系统地验证研究假设，可能涉及多数据集对比、基线方法比较等。结束条件是"分配的计算预算耗尽"——因为在方法已经验证可行的情况下，扩大实验覆盖面和深度本身就是核心价值所在。

最后一个阶段专注于消融分析，目的是理解方法中各个组件对最终性能的贡献。系统会系统地移除或修改方法中的特定部分（如某个正则化项、某个网络模块），观察性能变化。消融实验是学术论文中"方法论"部分的核心内容，它为研究结论提供了因果层面的证据支持。同样，这一阶段的结束条件是计算预算耗尽。

阶段间的衔接机制是树搜索策略的关键所在：在每个阶段结束时，一个基于LLM的评估器会审查所有叶子节点，并选择最有前景的一个作为下一阶段探索的根节点，从而有效地剪除不太有前景的研究方向。这种设计确保了系统能够集中精力深入最有希望的实验路径，避免资源浪费在效果不佳的方向上。

下图Fig 2展示了这一四阶段树搜索的完整结构。每个阶段都构建一棵独立的搜索树，节点之间通过特定的语义关系连接，虚线箭头表示阶段间的衔接——选择最优节点作为下一阶段的根节点。

Fig 2. 四阶段树搜索示意图。每个阶段构建独立的搜索树，虚线箭头表示阶段间的衔接（选择最优节点作为下一阶段的根节点）。右侧图例展示了系统中定义的完整节点类型体系。（图源论文 Fig.3a ）

四阶段策略定义了搜索的宏观结构，但搜索树的具体生长还依赖更微观的机制：系统如何标记一个实验节点的状态？如何确保代码执行和结果的质量？Fig 2右侧的图例还展示了节点间的转换关系：Refine（细化，灰色箭头）表示在已有结果基础上改进实验设计；Debug（调试，红色箭头）表示对出错代码进行修复。这些转换操作由LLM根据当前节点的状态和实验反馈自主决定。每个节点在树中都有明确的类型标记，这些类型是对搜索过程中实验状态的结构化记录：

每个节点在树中经历一个完整的生命周期。当一个新节点被创建时，系统首先生成或修改实验代码，然后在一个隔离的计算环境中执行实验。实验运行受到严格的时间约束——每个节点的最大运行时间为1小时，这防止了因代码问题（如无限循环）导致的资源浪费。

实验完成后，系统会对结果进行多层次的验证。首先进行基础的代码执行检查：代码是否成功运行？是否产生了预期的输出文件？其次，VLM（视觉语言模型）会对训练曲线图等可视化结果进行审核，判断实验是否真正收敛、结果是否合理。只有通过所有检查的节点才会被标记为Non-buggy，进入候选集；未通过的节点则被标记为Buggy，留待后续调试或剪枝。

系统中融入了视觉语言模型（VLM）作为额外的质量审核层。VLM能够"查看"训练曲线图、注意力可视化等实验输出图像，判断实验是否正常收敛、结果是否合理。这一设计弥补了纯文本LLM在视觉模式识别方面的不足，使得系统能够发现那些"代码运行成功但结果无意义"的隐蔽问题。为了提升效率，系统采用了并行化执行策略：同一层的多个节点可以同时运行，充分利用多GPU环境的计算能力。树搜索的异步特性意味着系统不需要等待一个分支完全探索完毕才启动另一个分支——这在实践中显著缩短了整体实验周期。节点类型的丰富设计、VLM的质量审核层以及并行化执行，共同构成了树搜索策略的底层支撑。它们确保系统不仅能够高效地探索实验空间，还能以结构化的方式记录整个探索历程，保证最终产出结果的可靠性与可复现性。

四、实验评估

AI Scientist究竟是真的具备科研能力，还是只是一个复杂的自动化流水线？研究团队从两个角度展开了系统性验证。他们首先追问一个根本性问题：科研能力（以论文得分来反应）本身是否遵循Scaling Law？如果答案是肯定的，那么随着底层模型能力的提升，AI Scientist的产出质量应该呈现可预测的提升——这意味着科研自动化不是一个静态的能力，而是一个会随着模型进步不断进化的动态系统，其性能天花板可以被持续推高。论文测试了从GPT-3.5到Claude Sonnet 4等15款主流模型，时间跨度从2023年7月到2025年7月。图1b展示了模型能力与论文质量之间的强关联：

Fig.4 从GPT-4到Sonnet-4的模型Scaling趋势。横轴为时间线，纵轴为AI审稿人给出的论文评分。绿色实线为线性拟合（R² = 0.517, P < 0.00001），阴影区域为95%置信区间。蓝色圆点代表基于模板的论文生成，红色圆点代表无模板论文生成。（图源论文 Fig.1b ）

数据显示，随着底层模型能力的提升，AI Scientist的论文评分呈现显著上升趋势（R² = 0.517, P < 0.00001）。早期模型如GPT-4的评分集中在1分左右，而最新的Sonnet-4和Gemini-2.5已能稳定产出3.5分以上的论文，部分无模板生成的论文甚至接近4.5分。这意味着模型能力的进步可以直接"翻译"为科研产出的质量提升——更强的代码理解、更优的实验设计、更严谨的论文写作，共同推动了这一Scaling效应。如果科研能力确实存在Scaling Law，那么随着模型能力的持续提升，AI Scientist的产出质量还有巨大的上升空间。

模型能力的提升确实带来了显著改善，但这引出了另一个同样关键的问题：在固定模型能力的前提下，我们能否通过增加计算投入来"榨取"出更高质量的科研成果？这直接关系到系统究竟只是一个被模型能力决定的"自动化流水线"，还是一个可以通过系统性探索来放大现有模型潜力的"科研放大器"。四阶段树搜索的Stage 3和Stage 4以计算预算耗尽为终止条件，因此可以通过调节node数量来观察test-time compute scaling的规律。此处需要补充澄清一个关键概念：这里提到的"node"（节点），指的是一次独立的实验运行，而不是说Tree Search的node。每个node包含一个完整的实验周期：代码生成、执行、可视化、VLM审核。论文设定每个node的最大运行时间为1小时。四阶段树搜索中，Stage 1和Stage 2有明确的结束条件（工作原型成功执行、实验在两个数据集上稳定运行），而Stage 3和Stage 4以计算预算耗尽为结束条件。因此，"计算node数"本质上就是系统投入的实验运行次数——投入越多，探索越充分，论文质量越高。

Fig.5 实验节点数与论文得分的关系（图源论文 Fig.3c ）

实验结果清晰地展示了这一趋势：当实验节点数从5个增加到30个时，论文质量持续提升。每个实验节点代表一次完整的实验尝试（代码生成、执行、可视化、审核），这意味着系统可以进行更广泛的超参数搜索、更充分的实验验证、更细致的论文打磨。从5到30个节点的扩展中，论文评分呈现近似线性的增长关系。这一发现与test-time compute scaling的研究[15]形成呼应——增加推理时的计算投入，能够显著改善复杂任务的表现。更重要的是，它表明AI Scientist并非只是简单地将模型能力"搬运"到论文中，而是通过系统性的探索和迭代，能够从相同的底层模型中"榨取"出更高质量的科研成果。这些量化指标固然鼓舞人心，但真正能说明问题的，还是把论文拿到真实学术场景中去检验。研究团队将AI Scientist生成的论文匿名提交至ICLR 2025 ICBINB workshop（录取率约70%），且事先获得了会议组织者和机构伦理委员会的批准。评审人被告知部分投稿可能由AI生成，但不知道具体是哪几篇。

在三篇投稿中，一篇获得了平均6.33分（具体评分为6、7、6），超过了录取阈值。workshop组织者明确表示，如果不是因为研究团队预先承诺会撤回AI生成论文，这篇稿件将被正式接收。有趣的是，这篇被接收的论文报告了一个负面结果（关于抑制快速学习特征以避免捷径依赖），恰好契合ICBINB workshop关注"有趣失败"的主题。

作者保持了令人尊敬的诚实：他们明确指出这只是workshop水平的成功。ICLR主会的录取率仅32%，AI生成的论文距离真正的一流会议标准仍有差距。但他们同时提出了一个发人深省的观点：在机器学习领域，一旦某种方法"开始工作"，即使存在明显缺陷，往往只需几年时间，随着模型能力、计算规模和技术方法的提升，系统就可能超越人类表现。

五、批判与反思

作者对系统的局限性保持了难得的坦诚。首先，AI科学家目前仍局限于机器学习领域——它需要可执行代码、可量化的指标、以及论文模板的支撑，难以扩展到需要湿实验（wet lab）的生物学或化学领域。即使在这些领域有类似尝试[16]，也远未达到端到端的自动化。其次，树搜索虽然在超参数优化和模型架构搜索上表现良好，但尚不具备提出全新理论框架的能力。它更像是一个高效的"实验执行者"，而非"理论开创者"。当前系统产出的论文多聚焦于empirical findings（实证发现），而非conceptual breakthroughs（概念突破）。此外，系统对计算资源的消耗不容小觑。30个实验节点意味着30小时的GPU计算，加上树搜索本身的推理开销，单次完整运行的成本相当可观。这也引出了一个现实问题：当所有研究者都使用类似的AI科学家系统时，是否会陷入"同质性研究"的陷阱——大家都在相似的搜索空间内探索相似的方向？

论文专门设置了伦理讨论章节，这在技术论文中并不多见。作者指出，AI科学家可能被滥用于生产大量低质量或虚假研究，加剧科学文献的"污染"问题。为此，论文提出了一套伦理红线：所有AI生成的论文必须明确标注其自动化性质，且不得投稿至需要人类作者身份认证的正式期刊。更深层的忧虑在于科研不端行为的检测难度。如果AI科学家被恶意使用来捏造实验数据、篡改p值或虚构引用，其高度逼真的论文格式可能让审稿人难以察觉。为此，作者开源了自动化审稿人的代码，希望学术界能共同开发更robust的AI论文检测工具。这与METR团队关于AI能力评估的研究[15]形成对照——我们需要在加速科研与维护学术诚信之间找到平衡点。

尽管存在上述局限，AI科学家所展示的趋势不容忽视。底层模型的进步速度惊人：从GPT-4到Sonnet-4，短短两年内论文质量提升超过300%。METR的研究表明，AI可靠完成任务的长度大约每7个月翻一番[15]——这意味着AI能够独立处理的研究复杂度正在指数级增长。如果这一趋势持续，AI科学家有望在5年内达到成熟研究者的水平，能够独立提出研究问题、设计实验方案、完成数据分析并撰写高质量论文。一个更远的展望是"AI科研生态"的涌现：AI科学家负责实验设计和执行，AI审稿人负责质量评估，AI元科学家（meta-scientist）负责识别研究空白并提出新的研究方向。在这种生态中，人类的角色将从"做研究"转向"定义研究应该解决什么问题"——这或许是科学研究范式的又一次根本性变革。

结语及笔者观点

AI科学家不仅仅是一个技术demo，它代表了一种全新的科研范式——用AI来研究AI。当AI系统能够自主生成、执行和评估研究时，科学发现的速度可能会迎来质的飞跃。AlphaFold解决了蛋白质折叠这一单一难题，而AI科学家试图解决的，是"如何做研究"这一元问题。

当然，我们离真正的全自动科学发现还有距离。当前系统在理论创新、跨学科整合和直觉洞察方面仍远不及人类研究者。并且，"为什么AI科学家沿着这样的Pipeline做研究是高效可行的"（一个具体的问题是"为什么选择Tree Search而不是贝叶斯的优化方法？"），文中并没有给出详细解释或者数学定量分析；以及，The AI Scientist作为一个End-to-End的新研究范式，如果人类希望在其研究的过程中介入，又应该如何实现。但无论如何，它已经证明了核心概念的可行性：LLM + 树搜索 + 自动化实验 = 可产出人类可接受论文的AI科学家。

下一步的关键问题或许是：怎么找到让AI科学家做研究最高效可行的Pipeline？以及我们人类应该如何利用它？

参考文献

[1] Lu, C., et al. "Towards end-to-end automation of AI research." Nature, Vol 651, pp. 914–919, 2026. https://doi.org/10.1038/s41586-026-10265-5

[2] Rmus, M., et al. "Generating Computational Cognitive Models using Large Language Models." NeurIPS, 2025.

[3] Lenat, D.B. "Automated theory formation in mathematics." IJCAI, pp. 833–842, 1977.

[4] Buchanan, B.G. & Feigenbaum, E.A. "Dendral and meta-dendral: their applications dimension." Artificial Intelligence, Vol. 11, pp. 5–24, 1978.

[5] Jumper, J., et al. "Highly accurate protein structure prediction with AlphaFold." Nature, Vol. 596, pp. 583–589, 2021.

[6] Hayes, T., et al. "Simulating 500 million years of evolution with a language model." Science, Vol. 387, pp. 850–858, 2025.

[7] Boiko, D.A., et al. "Autonomous chemical research with large language models." Nature, Vol. 624, pp. 570–578, 2023.

[8] Lu, C., Hu, S. & Clune, J. "Automated capability discovery via model self-exploration." arXiv:2502.07577, 2025.

[9] Hu, S., Lu, C. & Clune, J. "Automated design of agentic systems." ICLR, 2025.

[10] Mouret, J.B. & Clune, J. "Illuminating search spaces by mapping elites." arXiv:1504.04909, 2015.

[11] Schick, T., et al. "Toolformer: language models can teach themselves to use tools." NeurIPS, Vol. 36, pp. 68539–68551, 2023.[12] Fricke, S. "Semantic Scholar." Journal of the Medical Library Association, Vol. 106, pp. 145, 2018.

[13] Gonzalez-Marquez, R. & Kobak, D. "Learning representations of learning representations." ICLR DMLR Workshop, 2024.

[14] Beygelzimer, A., et al. "The NeurIPS 2021 consistency experiment." NeurIPS Blog, 2021.

[15] Kwa, T., et al. "Measuring AI ability to complete long tasks." METR Blog, 2025.

[16] Baek, J., et al. "ResearchAgent: Iterative research idea generation over scientific literature with large language models." ACL, pp. 6709–6738, 2025.

[17] Lu, C., et al. "AIDE: AI-driven exploration in the space of code." ICLR, 2025.

[18] Ma, Y.J., et al. "Eureka: Human-level reward design via coding large language models." ICLR, 2024.

参考文献可上下滑动查看

报名读书会：「Vibe Modeling」

集智俱乐部联合同济大学长聘副教授陈小杨和北京林业大学副教授李周园共同发起「Vibe Modeling」读书会，将在集体实践中探索 vibe modeling 在不同领域的通用模式与特殊需求，沉淀可复用的提示策略、评估方法与工作流，为这一范式搭建早期社区基础，助力 AI 赋能的跨学科研究与人才培养落地。

读书会自2026年5月17日起，每周日下午14:00-16:00线上开展，持续10周，包含主讲分享与讨论交流，并提供会后视频回放，诚邀相关领域研究者及跨学科兴趣者参与。

扫描海报中二维码报名参加读书会

详情请见：「Vibe Modeling：从技术框架到跨学科应用」读书会

2. AI科学家做研究：他们的观点会一致吗？

3. 科学家都开始用起了AI，事实果真如此吗？

4. 9900分可兑换"涌现"文化衫，报名任意读书会送299积分！

5. 集智学园精品课程免费开放，解锁系统科学与 AI 新世界

6. 高考分数只是张入场券，你的科研冒险在这里启航！

7. 加入集智字幕组：成为复杂科学知识社区的"织网人"

#解读

点击"阅读原文"，报名读书会

宙世代

一起剪

相关标签