AI版三个臭皮匠！ChatGPT/Gemini/DeepSeek合体拿下AGI测试最高分

ChatGPT 的对话流畅性、Gemini 的多模态能力、DeepSeek 的长上下文分析……

能不能让它们强强联合，共同解决问题呢？

那个由 Transformer 作者之一 Llion Jones 创立的明星 AI 公司Sakana AI，提出了新方法AB-MCTS，核心思想是：

最伟大的成就往往源于不同思想的协作，我们相信这一原则同样适用于人工智能。

AB-MCTS，全称为自适应分支蒙特卡洛树搜索（Adaptive Branching Monte Carlo Tree Search），是一种使多个人工智能模型同时处理问题的算法。模型之间交换并完善建议，协同工作，就像人类团队一样。

在具有挑战性的 ARC-AGI-2 基准测试中，多 LLM AB-MCTS 解决的问题比单独工作的任何单个模型（Single-LLM AB-MCTS）都多。

有几种情况下，只有不同模型的组合才能得出正确答案。

Sakana AI 已将该算法以TreeQuest的名称开源，链接可见文末。

两种搜索策略

AB-MCTS 结合了两种不同的搜索策略：它可以完善现有解决方案（深度搜索），也可以尝试全新的方法（广度搜索）。

主要的技术挑战是将无界分支引入 MCTS。

标准 MCTS 仅选择并扩展叶节点（即每个节点最多被扩展一次），且扩展会添加固定数量的子节点。然而，由于在非零温度下对 LLM 的每个查询都可能从相同提示中产生不同的输出，分支因子理论上无限。

为了充分利用 MCTS 的无界分支的潜在性能提升，AB-MCTS 允许那些已经扩展过一次的节点再次被扩展并进一步分支，并引入 GEN 节点来明确表示生成新子节点的动作。

在 AB-MCTS 的搜索树中，每个节点 N 均附带一个 GEN 子节点。选中带有 GEN 节点的父节点时，会从 N 生成一个新子节点。

与传统的 MCTS 不同，AB-MCTS 不会将宽度作为静态超参数固定。

相反，在搜索树的每个节点上，AB-MCTS 会自适应地决定是探索（" 变宽 "）通过生成新的候选响应，还是利用（" 变深 "）通过改进现有的响应，利用外部反馈信号。

在底层，AB-MCTS 通过贝叶斯后验预测分布估计节点潜力，并用 Thompson 采样选择动作，以确保每次扩展都以原则性的方式平衡探索和利用。

这种设计自然地扩展了多次采样，使 AB-MCTS 能够在必要时利用 LLMs 多样化且庞大的输出空间。

在以上基础上，Sakana AI 还提出了两个变体：AB-MCTS-M 和 AB-MCTS-A。

简单地说：

AB-MCTS-M：更分层。使用混合效应模型共享子树间的统计信息，通过分层贝叶斯推断平衡全局与局部探索。

AB-MCTS-A：更轻量。通过 CONT 节点显式分离 " 生成 " 与 " 优化 " 动作，并基于共轭先验实现高效后验更新，简化计算。

其利断金

对 AB-MCTS 进行基准测试，结果显示，AB-MCTS 在各种基准测试和 LLMs 中始终表现出色，获得的平均排名最高并优于既定基线。

这种持续的成功源于 AB-MCTS 独特的动态调整搜索策略的能力，它通过精确平衡探索和利用来适应每个问题的不同需求，而基线方法中几乎缺乏这种适应性。

LiveCodeBench 和 CodeContest

上图左侧和中部报告了 GPT-4o 在 LiveCodeBench 和 CodeContest 上的成功率与生成预算的关系，可以看到，所有方法在计算预算增加时都表现出性能提升。在这两个基准测试中，AB-MCTS 算法通常优于基线方法。

在 LiveCodeBench，即使预算很小，AB-MCTS 也开始超越基线方法；在 CodeContest，预算为 32 及以上时，AB-MCTS 表现出优于基线的性能。

ARC-AGI

上图右侧展示了 GPT-4o 在 ARC-AGI 这一特别具有挑战性的基准测试上的性能表现。可以看到，重复采样在该设置中证明是一种强大的基线，这表明对于这项任务，广泛的探索非常重要

虽然标准 MCTS 在预算增加时只能带来微小的改进，但 AB-MCTS 框架实现了与重复采样相当的性能。这表明 AB-MCTS 能够通过在有利时动态扩展其搜索范围来有效地探索潜在解。

MLE-Bench

上表展示了使用 GPT-4o 在 MLE-Bench 三个竞赛中的性能表现。由于 MLE-Bench 在训练和评估机器学习模型时需要大量的 GPU 资源，研究团队仅使用了 GPT-4o，并专注于基线方法和 AB-MCTS-M。

结果显示，最佳性能的基线方法在不同竞赛中有所不同，这再次强调了不同任务受益于不同的探索 - 利用权衡。

相比之下，AB-MCTS-M 在这些任务中始终表现出色。

这种在不同竞赛中的一致成功突显了 AB-MCTS-M 在有效适应其搜索策略以应对不同问题结构方面的内在优势。

为了定量分析 AB-MCTS 如何平衡探索与利用，论文的研究团队还考察了生成的搜索树在每个深度的平均深度和平均宽度。

如上图显示，与标准 MCTS 相比，AB-MCTS 方法倾向于生成更宽的树。这是因为 AB-MCTS 可以从任何现有节点自适应地决定探索更宽（选择 GEN 节点），而标准 MCTS 则不能。这种机制使得在不同树深度上能够进行更灵活的探索。

除了探索宽度的灵活性之外，AB-MCTS 在顺序优化表现优异的基准测试中也取得了优异的性能，这表明 AB-MCTS 通过选择现有子节点进行优化，能够有效地识别并利用了有潜力的分支。这种自适应特性使其能够结合探索与利用的优势，在多种基准测试中表现出强大的性能。

为了研究 AB-MCTS 的扩展特性，使用 DeepSeek-V3 对 ARC-AGI 的实验进行了扩展，将生成预算增加到 512。如上图所示，随着预算从 200 增加到 500，AB-MCTS 的性能继续显著提高，而重复采样的改进率开始趋于平稳。

标准 MCTS 在增加预算后也继续改进，但与 AB-MCTS 方法相比，其成功率显著较低。这种性能差距表明，AB-MCTS 在大型计算规模下更有效地将搜索导向搜索树中更有希望的分支。

上图展示了由 AB-MCTS-M 和标准 MCTS 生成的搜索树示例。这些可视化展示了 AB-MCTS-M 相比标准 MCTS 具有更强的自适应分支特性。

这种自适应性表明，AB-MCTS-M 在整个搜索过程中灵活地平衡探索与利用，能够动态分配预算以探索多样化的新候选者（" 拓展宽度 "）和优化有潜力的候选者（" 深入挖掘 "）。

以上结果表明，即使考虑到重复采样的固有优势，AB-MCTS 仍是一种有前景的方法，能够高效利用生成预算在各种场景中取得更优结果。

在具有挑战性的 ARC-AGI-2 基准测试中，AB-MCTS 结合 ChatGPT、Gemini 和 DeepSeek 解决了 30% 的 ARC-AGI-2 谜题，而顶尖的独立模型仅解决了 23%。

结果显示，有几种情况下，只有不同模型的组合才能得出正确答案。

自然启发与创新之路

上述关于 AB-MCTS 的研究并非凭空产生，它基于 Sakana AI 2024 年在进化模型融合方面的工作，该团队将重点从 " 混合以创造 " 转向 " 混合以使用 " 现有的强大 AI。

他们是这样说的：

在 Sakana AI，我们始终致力于通过应用受自然启发的原则（如进化和集体智能）来开创新型 AI 系统。

他们也确实这样做了：

不仅仅是 2024 年的进化合并模型，就在今年 5 月，Sakana AI 还和哥伦比亚大学的科研人员共同开发了达尔文 - 哥德尔机（DGM）——这是一个旨在自我进化的 AI 框架，并非针对固定目标进行优化，而是从生物进化与科学发现中汲取灵感，通过开放式搜索和持续的自我修改来生成新的解决方案。

而前段时间，有两位物理学家以生物系统自我组装的过程为参考，揭示了扩散模型 " 创造力 " 的本质……

这些发现和创造都是 " 自然式启发 " 的体现。

参考链接：

[ 1 ] https://the-decoder.com/sakana-ais-new-algorithm-lets-large-language-models-work-together-to-solve-complex-problems/

[ 2 ] https://x.com/SakanaAILabs/status/1939854145856708910

论文：https://arxiv.org/abs/2503.04412

算法（TreeQuest）: https://github.com/SakanaAI/treequest

ARC-AGI 实验：https://github.com/SakanaAI/ab-mcts-arc2

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签