快科技 9 月 17 日消息,今日凌晨,阿里开源旗下首个深度研究 Agent 模型——通义 DeepResearch,并登顶开源第一。
该模型在 HLE、BrowseComp-zh、GAIA 等多个权威评测集上取得 SOTA 成绩 ( State-of-the-art ) ,超越 OpenAI Deep Research、DeepSeek-V3.1 等 Agent 模型。
目前,通义 DeepResearch 的模型、框架和方案均已全面开源,用户可在 Github、Hugging Face 和魔搭社区社区下载模型和代码。
作为当前研究热点," 深度研究 " 的现有方法通常是 " 单窗口、线性累加 " 的信息处理模式,所有中间思路和检索到的信息堆积在单一上下文中。
当处理长周期任务时,Agent 会面临 " 认知空间窒息 " 和 " 不可逆的噪声污染 " 的挑战,导致推理能力下降,最终难以完成真正长程、复杂的研究任务。
为此,通义团队构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。
该链路以 Qwen3-30B-A3B 模型为基座进行优化,团队创新性地设计了覆盖真实环境与虚拟环境的 RL 算法验证与真实训练模块,并结合高效异步强化学习算法及自动化数据策展(Data Curation)流程,显著提升了模型的迭代速度和泛化能力。
在推理阶段,团队设计了 ReAct 和基于自研的 IterResearch 的 Heavy 两种模式。
前者用于精准考察模型的基础内在能力,后者则通过 test-time scaling 策略,充分挖掘并展现了模型所能达到的性能上限。
即使在长任务中,也能实现高质量的推理。
目前,在 Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA 以及 Frames 等权威 Agent 评测集上,通义 DeepResearch 模型以 3B 激活参数,性能超越基于 OpenAI o3、DeepSeek V3.1 和 Claude-4-Sonnet 等旗舰模型的 ReAct Agent。
今年以来,阿里已连续开源 WebWalker、WebDancer 和 WebSailor 等多款检索和推理智能体,并全部斩获开源 SOTA 成绩。
登录后才可以发布评论哦
打开小程序可以发布评论哦