当大模型从 " 回答问题 " 走向 " 自己搜索、验证、综合证据 ",Deep Search Agent 正在成为下一阶段智能体能力的重要方向。
这类 Agent 不再满足于一次检索、一次回答。它需要在开放网络中多轮搜索,交叉验证,排除错误,并在足够证据支撑下给出最终答案。
但真正训练这种能力,首先要解决一个基础问题:什么样的搜索数据,才是真的难、真的有用?
来自至知创新研究院(IQuest Research)、中国人民大学高瓴人工智能学院、KAUST 等机构的研究团队提出了FORT,一个面向 Deep Search Agent 的 shortcut-resistant training-data synthesis framework。
与单纯经验式构造复杂问题不同,FORT 首先从理论上建模 Deep Search 任务中的 shortcut collapse,再将这些风险转化为数据合成中的显式控制项。
基于 FORT 生成的搜索轨迹,研究团队训练得到 FORT-Searcher。该模型使用 Qwen3-30B-A3B-Thinking-2507 作为基座,仅通过监督微调(SFT)训练,就在多个挑战性 Deep Search 基准上取得了同规模开源 Agent 中最优的整体表现。
△FORT-Searcher 在 BrowseComp 和 BrowseComp-ZH 上的主要结果。为什么高难搜索题会 " 塌缩 "?
FORT 的核心理论出发点是:Deep Search 任务的难度不是一个静态属性。
一个问题设计得多复杂,只说明它的 apparent difficulty 很高;但当这个问题真正交给一个搜索 Agent,在具体检索接口和具体模型能力下执行时,难度可能会发生变化。真正重要的是 realized difficulty:模型在真实搜索中是否必须经历充分的证据获取过程,才能识别答案。
论文将 Deep Search 问题形式化为多约束检索任务。完整约束集合可以唯一确定答案,但模型在实际求解时不一定需要验证所有约束。只要某个较小的约束子集已经足以识别答案,并且这个子集可以通过很短的搜索路径被验证,任务难度就会塌缩。
论文将这条低成本答案识别路径称为cheapest identifying route。
这揭示了一个关键问题:真正决定搜索难度的,不是设计者预设的完整推理链,而是所有可能识别答案的路径中,是否存在一条足够便宜的路径。
基于这一视角,论文将难度塌缩分成两类。
第一类是 route-level collapse。它来自问题和检索环境本身。例如,一个线索就足够锁定答案,多个线索被同一个网页共同覆盖,或者题面暴露了后续搜索本应逐步发现的中间常量。
第二类是 solver-level collapse。它来自具体模型自身。例如答案实体足够知名,模型可能在检索证据充分出现前,就凭参数知识提前提出答案。
FORT 将这些现象总结为四类 shortcut risks:
Evidence Co-coverage:多个线索被同一个证据源覆盖,使多步验证退化成少量检索;
Single-clue Selectivity:某个或极少数线索过于独特,已经足够定位答案;
Exposed Constants:题面暴露人名、作品名、年份、数字等可直接搜索的常量,使后续 query 提前可执行;
Prior-knowledge Binding:模型在证据充分出现前,凭参数知识提前提出答案。
FORT 的理论贡献在于,它不是孤立地观察这些现象,而是把它们放入统一的 shortcut-aware difficulty framework 中,解释它们如何降低真实搜索成本,并指导后续数据合成。
FORT:把理论风险变成数据构造控制项
FORT 的目标不是简单把问题做长,而是系统性减少 cheap identifying route,让模型更难通过单个线索、单个网页、题面常量或参数知识提前获得答案。
整个合成流程包括四个阶段:Graph Initialization、Graph Construction、Question Formulation 和 Adversarial Refinement。
△FORT 整体数据合成 pipeline。从长尾实体出发,降低先验捷径
FORT 首先从 Wikidata 中选择 root entity,并初始化 seed graph。
为了降低 prior-knowledge binding,FORT 优先选择长尾实体,尤其是没有英文 Wikipedia 页面、模型不太可能直接记住的实体。同时,FORT 会进行轻量级预搜索,过滤掉外部证据不足的实体,保证问题仍然可解。
除了实体选择,FORT 还尽可能使用 cycle-based initialization,而不是简单线性链条。线性链条在问题生成时容易暴露中间实体,导致后续 query 从一开始就能执行;cycle seed 则可以让关系表达更间接,减少 exposed constants 风险。
构造异构证据图,而不是单纯把图做大
从 seed graph 出发,FORT 会扩展 evidence graph。这里的重点不是图有多大,而是 facts、sources 和 dependencies 是否能支持真正 search-heavy 的问题。
具体来说,FORT 会从多种外部来源收集事实,降低 evidence co-coverage 风险;构造 derived facts,避免 clue 直接对应网页原文;并选择那些 " 单独看平凡,但组合起来能够定位答案 " 的 facts。
Derived facts 是 FORT 的关键设计之一。它们不是简单摘取网页中的一句话,而是通过跨记录匹配、计数聚合、数值关系或元信息抽取等方式构造新的约束。
例如,问题可以不直接说 " 某人出生于某年 ",而是描述 " 某人的导师比他年长多少岁 ";也可以不直接给出作品标题,而是通过歌词、章节结构或出现次数形成间接约束。
这种设计让每个 clue 都有贡献,但又避免任何单个 clue 过强。
隐藏中间实体,模糊精确常量
在 Question Formulation 阶段,FORT 会将 answer-bearing subgraph 渲染成自然语言问题。
为了减少 exposed constants,FORT 会隐藏中间实体名称,用关系描述替代直接命名。例如,不直接给出某个人物、作品或机构名称,而是通过其属性、关系或事件间接描述。
对于必须出现的数值、日期或名称,FORT 会进行exact-value fuzzing。比如,将精确年份、数字或日期改写成范围、类别、数字特征或间接约束。这样可以避免模型直接复制题面中的精确字符串去搜索,同时保证问题仍然真实、可验证。
很多看似多跳的搜索题并不真正难,因为题面已经给出了下一跳的搜索关键词。FORT 的问题生成阶段试图避免这种情况:不是让问题变得模糊不可解,而是让关键中间信息必须通过搜索逐步发现。
用强搜索模型攻击草稿题,修复残余捷径
构造阶段的控制并不能保证问题在真实搜索接口下一定没有 shortcut。因为 shortcut 往往只有在具体搜索引擎、具体模型和具体轨迹中才会暴露。
因此,FORT 引入 Adversarial Refinement:让强 search agent 实际求解 draft question,并观察轨迹中的 solving cost、answer hit time 和 prior-shortcut 行为。
如果模型过早命中答案,FORT 会修复最早出现的 shortcut-prone clue;如果问题因为过度 fuzzing 或歧义导致不可解,FORT 会收窄 clue、恢复必要约束或移除歧义事实。
这一步让 FORT 从 construction-time control 闭环到 trajectory-level diagnosis。也就是说,FORT 不只是理论上避免捷径,而是用真实搜索轨迹来检查和修复残余捷径。
30B 级 FORT-Searcher 达到同规模开源 SOTA
基于 FORT 生成的 shortcut-resistant search trajectories,研究团队训练得到 FORT-Searcher。
FORT-Searcher 使用 Qwen3-30B-A3B-Thinking-2507 作为基座模型。该模型总参数规模为 30B,推理时约激活 3B 参数,并支持 256K 上下文窗口。该基模未提前对搜索能力进行优化,因此能更好反映 FORT 数据带来的提升。
评测覆盖五个挑战性 Deep Search 基准:BrowseComp、BrowseComp-ZH、xbench-DeepSearch-2505、xbench-DeepSearch-2510 和 Seal-0。
△FORT-Searcher 与其他 Deep Search Agent 的主结果对比。
实验结果显示,FORT-Searcher 在 comparable-size open-source agents 中取得最高 Overall 分数 66.2,超过 MiroThinker-1.7-mini 的 64.6 和 Qwen3.5-35B-A3B 的 59.9。
在 BrowseComp 上,FORT-Searcher 达到 72.2,高于 MiroThinker-1.7-mini 的 67.9;在 BrowseComp-ZH 上达到 75.0,高于 MiroThinker-1.7-mini 的 72.3;在 xbench-DeepSearch-2505 上达到 80.8,也超过同规模开源基线。
更重要的是,FORT-Searcher 只使用 SFT 训练,推理时约激活 3B 参数,却在 BrowseComp 上超过多个更大规模开源 Agent;在 BrowseComp-ZH 上,也取得了表中所有开源 Agent 的最高结果。
这说明 FORT 的贡献不只是合成了一批复杂问题,而是生成了真正有效的搜索监督数据。
不是简单让轨迹变长,而是提高答案发现成本
FORT 的进一步分析聚焦于一个问题:训练数据的难度到底体现在哪里?
长轨迹本身并不等于高质量搜索监督。后续搜索可能有助于验证和补充证据,但 Deep Search 训练还需要关注答案出现之前的证据发现过程:模型是否必须跨越多个约束、多个证据来源和必要的中间依赖,才能逐步识别答案。
因此,论文引入了一组trajectory signatures:
Solving cost():模型完成任务所需的总体搜索成本;
Answer hit time():答案首次出现在轨迹中的轮次;
Prior-shortcut rate():模型在证据充分出现前提前提出答案的比例。
△FORT 与已有开源 deep-search 数据的 trajectory signatures 对比
相比已有开源 deep-search 数据,FORT 带来了更高的 solving cost 和更晚的 answer hit time。具体来看,相比最强开源数据基线 REDSearcher,FORT 将平均 solving cost 从 92.1 提升到 141.0,将 answer hit time 从 18.7 推迟到 46.9,同时 prior-shortcut rate 保持在相近水平。
这说明 FORT 并不是简单诱导模型多搜几步,而是在构造阶段减少 cheap identifying route,使答案发现过程本身更难被绕过。
进一步的 training-data difficulty analysis 也验证了这一点。
△Training-data difficulty analysis:轨迹长度之外的答案发现成本。
结果显示,单纯提高平均轨迹长度只能带来有限提升;而在相近轨迹长度下,答案发现过程更长、prior-shortcut 更少的训练数据,最终带来了更好的训练效果。
这也是 FORT 的核心经验:高质量搜索监督的关键,不只是轨迹有多长,而是答案发现过程是否足够必要、足够难以被捷径绕过。
从 " 复杂问题 " 到 " 不可绕过的搜索过程 "
FORT-Searcher 的意义不只是提出了一个更强的 30B Deep Search Agent。更重要的是,它系统回答了一个基础问题:高难 Deep Search 数据为什么难造?
过去,Deep Search 数据构造往往关注问题有几跳、图结构有多复杂、轨迹有多长。但 FORT 指出,这些都只是 apparent difficulty。真正关键的是 realized difficulty:答案是否必须通过真实搜索中的充分证据获取才能出现。
为此,FORT 从理论上建模了 shortcut collapse,并将四类 shortcut risks 转化为数据构造中的具体控制机制,包括长尾实体选择、异构证据图构造、derived facts、name withholding、exact-value fuzzing 和 adversarial refinement。
最终,基于 FORT 数据训练得到的 FORT-Searcher,在多个挑战性 Deep Search benchmark 上取得同规模开源 Agent 中最优整体表现。进一步分析也表明,FORT 的提升来自更高的答案发现成本、更少的真实搜索捷径,以及更有效的搜索监督。
FORT-Searcher 的核心价值不只是 30B 级 Deep Search Agent 新 SOTA,而是提出了一套从理论建模到数据合成再到模型训练的闭环方法:让搜索数据不只是看起来复杂,而是真的能训练模型进行长程证据发现。
关于至知创新研究院
至知创新研究院(IQuest Research)以 " 做更有价值的 AI" 为核心理念,致力于破解尖端研究与真实场景应用之间的转化鸿沟。作为创新型研究组织,至知集探索者、实战派、连接器三重角色于一身:聚焦下一代 AI 基础架构,推动自主可控的全栈自研;深耕智慧医疗、生物技术、能源电力、数学智能等高壁垒研究与应用场景,打造端到端智能解决方案;依托全球资源网络,打通从理论到实践的转化链路。研究院汇聚顶尖人才,持续培养复合型 AI 人才。至知创新研究院将持续以智能计算重写科学规则,以系统方案重塑产业路径,开启 AI 更具价值的未来。
论文题目:FORT-Searcher:Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents
arXiv:https://arxiv.org/abs/2606.12087
GitHub:https://github.com/RUCAIBox/FORT-Searcher
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
【学术投稿】请在工作日发送邮件至:ai@qbitai.com,标题注明【投稿】,并告诉我们:你是谁,从哪来,投稿内容附上项目 / 主页链接,以及联系方式。
我们会 ( 尽量 ) 及时回复你 : )
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦