谷歌深夜重磅开源！深度研究Agent拿下SOTA，比GPT-5 pro便宜90%

智东西

编译 | 程茜

编辑 | 心缘

智东西 12 月 12 日消息，今日凌晨，比 OpenAI 早一个小时，谷歌甩出了 3 个 Agent 大招：

Deep Research Agent 功能更新，并首次向开发者开放；开源新网络研究 Agent 基准 DeepSearchQA，旨在测试 Agent 在网络研究任务中的全面性；推出新交互 API（Interactions API）。

Gemini Deep Research 是一款专为长期上下文采集和综合任务优化的 Agent，其背后的模型是 Gemini 3 Pro，通过多步强化学习的扩展搜索，Agent 能够自主地以高精度导航复杂的信息环境。此次更新包括针对特定数据进行网页搜索、更低成本生成研究报告等。

谷歌 DeepMind 产品经理路卡斯 · 哈斯（Lukas Haas）在社交平台 X 上透露，新 Gemini Deep Research Agent 已经实现 SOTA，在谷歌新基准测试上得分 46.4%，在 BrowseComp 上与 GPT-5 Pro 相当，价格是其 1/10 左右。

Deep Research Agent 很快将在谷歌搜索、笔记本、谷歌金融中提供，并在 Gemini 应用中升级。

DeepSearchQA 内置了 900 个手工设计的 " 因果链 " 任务，涵盖 17 个领域，可以评估 Agent 在复杂、需要多步查询信息等任务上的能力。

交互 API 作为其与 Gemini 模型和 Agent 的统一交互界面，通过 Google AI Studio 中的 Gemini API 公开测试版向开发者开放。开发者可以通过 Agent 开发套件（ADK）和 A2A 协议使用交互 API。

有网友评论，谷歌这是把 " 一个数字版的福尔摩斯交给了开发者 "，现在你只需要一边喝咖啡，一边就能让每个应用像写论文一样展开深度调查。

DeepSearchQA 开源地址：

https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

一、Deep Research Agent：更新网页搜索、低成本生成研究报告功能

谷歌博客称，Deep Research 背后的 Gemini 3 Pro 模型是他们迄今为止最真实的模型，该模型经过专门训练，旨在减少幻觉并最大化复杂任务中的报告质量。

Deep Research 通过迭代式流程运行，它会提出问题、阅读结果、识别知识空白，然后再次进行搜索。其新版本大幅提升了网页搜索功能，使其能够深入网站查找特定数据。

新 Gemini Deep Research Agent 在完整 HLE 测试中达到 46.4%，Gemini 3 Pro 为 43.2%，GPT-5 Pro 为 38.9%。在 DeepSearchQA、BrowseComp 的测试中以微小优势胜出。

谷歌还优化了该 Agent 以更低成本生成深度研究报告的功能。

Gemini Deep Research Agent 已经在需要高精度和基于早期反馈、测试的复杂领域应用，包括金融服务、生物技术和市场调研等行业，这些领域都可以利用 Gemini Deep Research 完成初步调研任务。

对于构建下一代自动化研究工具的开发者来说，Gemini Deep Research Agent 能够综合信息并生成详细报告：

统一信息综合：Gemini Deep Research 通过文件上传和文件搜索工具分析用户的文档和公共网络数据，还能处理长上下文，允许用户直接在提示中放置大量背景信息；

报告可控性：用户可以通过提示定义结构、头部，或指定数据表生成和格式来控制输出；

详细引用：其会提供细粒度的来源，允许用户验证数据来源；

结构化输出：支持 JSON 模式输出，便于下游应用解析研究结果。

二、DeepSearchQA：新 Agent 基础，涵盖 17 大领域、900 条任务

DeepSearchQA 是 Deep Research Agent 的测试基准。

现有基准测试往往无法反映现实世界多步网络研究的复杂性，谷歌开源新基准 DeepSearchQA，是用于评估 Agent 在复杂、需要多步查询信息等任务上。

DeepSearchQA 有 900 个手工设计的 " 因果链 " 任务，涵盖 17 个领域，每一步都依赖于事先分析。与传统的基于事实的测试不同，DeepSearchQA 衡量的是全面性，要求 Agent 生成详尽的答案集。这不仅评估研究的准确性，也包括检索的记忆能力。

DeepSearchQA 还可以作为衡量 " 思考时长 " 效率的工具。谷歌在内部评估中发现，当允许 Agent 执行更多搜索与推理步骤时，其性能会获得显著提升。

三、交互 API：集成专为 Agent 应用开发设计的接口

交互 API 原生集成了一套专属接口，该接口专为 Agent 应用开发场景设计，可高效处理交错式消息、思维链、工具调用及其状态信息的复杂上下文管理工作。除 Gemini 模型套件外，交互 API 还提供其首个内置 Agent Gemini Deep Research Agent。

下一步，谷歌将扩展其内置 Agent，并提供构建和引入其他 Agent 的功能，这将使开发者能够通过一个 API 连接 Gemini 模型、谷歌内置 Agent 和开发者的定制 Agent。

交互 API 提供了一个单一的 RESTful 端点，用于与模型和 Agent 交互。

通过指定模型参数与模型交互：

通过指定 Agent 参数与 Agent 互动，目前支持

deep-research-pro-preview-12-2025：

交互 API 通过现代 Agent 应用所需的功能扩展了生成内容的核心功能，包括：

可选的服务器端状态：能够将历史管理卸载到服务器。这简化了开发者的客户端代码，减少了上下文管理错误，并通过增加缓存命中率可能降低成本。

可解释和可组合的数据模型：一个为复杂的 Agent 历史设计的干净图式。开发者可以对交错的信息、思维、工具及其结果进行调试、流式分析和推理。

背景执行：能够将长期运行的推理环路卸载到服务器，而无需维护客户端连接。

远程 MCP 工具支持：模型可以直接调用模型上下文协议（MCP）服务器作为工具。

结语：Gemini 生态再扩容，谷歌简化 Agent 开发模式

目前，Deep Research Agent 已经在金融、科学研究等诸多领域有所应用。此次谷歌不仅更新了这一 Agent，还发布了交互 API，以简化与 Gemini 模型和 Agent 的交互流程，构建更易用的开发生态。

谷歌博客提到，其未来的更新还将聚焦于更丰富的输出，如原生生成图表以支持可视化分析报告，以及通过模型上下文协议（MCP）支持扩展连接性，更轻松地访问自定义数据源，并努力将 Gemini Deep Research 引入企业用的 Vertex AI。

宙世代