小红书提出DeepEyesV2，从“看图思考”到“工具协同”，探索多模态智能新维度

还记得今年上半年小红书团队推出的 DeepEyes 吗？

是的，就是那款能像人一样「放大图片细节找线索」，基本实现了类似 o3「用图像思考」的多模态模型。

如今，更强大的版本—— DeepEyesV2，重磅发布。

先说结论：DeepEyesV2 不仅延续了 DeepEyes 的视觉推理优势，更突破性地实现了「代码执行 + 网页搜索 + 图像操作」的全工具协同，从「会看细节」进化为「能主动解决复杂问题的智能体」。

下面详细展开——

多工具协同的多模态推理

现有的多模态大模型虽然能够理解文本和图像等多种信息，但是这些模型更像「信息解读器」——只能被动感知信息，却不能主动调用外部工具来解决问题。

因此，受限于两大痛点：

痛点 1：工具调用能力薄弱。

当你对着一张陌生植物的照片询问 AI ——「这是什么花？」

传统多模态模型要么完全不具备工具调用能力，只能依赖内部知识库进行基础理解；

要么，只能单一调用某类工具，无法形成组合策略。

比如，DeepEyes 虽能通过裁剪工具实现图像细粒度感知，却因缺乏信息检索能力，无法仅凭内部知识确定花朵品种；

相比之下，MMSearchR1 虽支持搜索，却因没有细粒度感知能力，常因「看不清图像细节」导致检索失败。

这种「单工具依赖」，让模型在面对复杂任务时束手无策。

痛点 2：多能力协同缺失。

人类解决问题时，会自然串联「观察（感知）→查资料（搜索）→算结果（推理）」等步骤，但传统多模态模型却难以实现这种协同。

感知、搜索和推理往往是「各自为战」，只能完成其中 1-2 个步骤，难以像人类一样串联成完整解决方案。

DeepEyesV2 如何解决这些痛点？

相比于之前的模型，DeepEyesV2 通过多工具协同推理，可以解决真实场景中的复杂问题。

比如，当面对「根据图中股票走势图，计算该公司 2024 年 4 月 4 日 9:30-16:00 的跌幅，并对比同期 Tootsie Roll Industries（TR）的跌幅。

而涉及到「判断谁更大」这一复杂问题时，DeepEyesV2 则展现出强大的推理能力。

整体过程可以分为三步：

第一步：图像搜索，获取更多信息。

DeepEyesV2 首先调用图像搜索，尝试获取关于股价的更多信息。

第二步：文本搜索，尝试获取股价。

由于图像搜索无法提供有效的信息，DeepEyesV2 转而进行文本搜索，查询股价数据。

第三步：代码执行，API 访问并计算。

文本搜索也无法提供当时的股价数据，DeepEyesV2 选择生成代码，通过 API 访问雅虎金融获取股价数据，并进行数值计算，得到最后的结果。

通过多次搜索、代码执行以及复杂推理，DeepEyesV2 最终成功解答这一复杂问题。

值得注意的是，通过代码访问 API 的行为在团队的训练数据中并不存在，但是 DeepEyesV2 通过强化学习自主获得了这一技能。

DeepEyesV2 模型细节

与 DeepEyes 类似，DeepEyesV2 是一个具有智能体特性的多模态模型，但它的工具使用能力得到了巨大扩展，不止于简单的裁剪操作。

在 DeepEyesV2 中，程序化代码执行和网络检索作为外部工具可以在推理过程中被交互调用，并结合工具结果进行进一步推理。

给定图像输入及相应的用户查询后，DeepEyesV2 首先会生成初步的推理计划，并明确判断该问题是可以通过内部推理直接解决，还是需要调用工具。

如果有必要使用工具，DeepEyesV2 会生成可执行的 Python 代码或发出网络搜索查询。

代码执行在沙箱环境中进行，能够产生结构化输出，如经过处理的图像、数值测量结果、计算数组、图表或执行日志。

图像查询通过 SerpAPI 提交，返回排名前五的视觉匹配网页；文本查询返回五个最相关的网页，以及标题和片段……所有工具输出都会被添加到模型的上下文当中。

之后，DeepEyesV2 会根据这些观察结果进一步思考，并可能计划进一步调用工具，重复这种推理—工具—整合循环，直至得出准确的答案。

简单来说，DeepEyesV2 能够动态选择、组合和使用工具。

这种整合带来了三个主要优势：

1、通过可执行代码，拓展并增强了分析能力；

2、能够从网络检索多模态证据，实现主动且实时的知识获取；

3、在推理过程中，代码执行和搜索可以在单一轨迹中动态结合，而非作为孤立的模块存在，提高了工具调用的灵活性。

这些特性共同使 DeepEyesV2 成为一个更通用、可靠且可扩展的多模态推理框架。

探索实验

DeepEyes 通过强化学习，就可以激发出模型的图像思考能力，因此团队参考 DeepEyes 的方式，在 Qwen2.5-VL-7B 上进行了探索实验。

通过研究是否可以通过强化学习让模型直接获得更加复杂的工具使用能力，团队观察到两个关键问题。

问题 1：早期工具探索「有心无力」，代码执行率低。

在训练初期，模型虽会生成 Python 代码调用图像裁剪、数值计算工具，但输出的代码大多存在语法错误或逻辑漏洞，导致代码执行成功率低。

随着训练进行，模型逐渐放弃代码生成，最终只收敛到生成简短的推理链，绕过了工具使用。

问题 2：「奖励黑客」现象，模型用「无效操作」骗取奖励。

为了改善工具调用效果，团队引入 DeepEyes 中验证有效的「工具使用奖励机制」，只要模型生成代码，就额外给予奖励。

初期确实看到了效果，代码执行成功率一度提升。

但在训练后期，模型开始「投机取巧」，只输出一个只有无意义注释的代码块，从而来骗取额外的奖励，陷入「奖励黑客」（Reward Hacking）的陷阱。

通过探索实验，团队发现，现有的多模态大模型由于自身能力的不足，无法仅通过直接的强化学习来可靠地学习到复杂的工具使用，也说明了冷启动的重要性。

两阶段训练

因此，团队采用了「冷启动 + 强化学习」两阶段训练策略，让模型从「会用工具」稳步升级到「善用工具」。

阶段一：冷启动—打基础

通过高质量数据集为模型打基础」，让其掌握工具调用的基本逻辑。团队精心筛选了四类数据：

感知类数据：需用图像裁剪、标记工具解决的问题。

推理类数据：需用代码计算工具解决的数学问题。

搜索类数据：需用联网工具解决的问题。

CoT 数据：纯文本的推理 CoT 数据。

同时，数据还经过两层严格过滤：

1、难度过滤，只保留基础模型无法解决的问题；

2、工具收益过滤，确保工具调用能显著提升答案准确率。

阶段二：强化学习—精优化

在冷启动基础上，通过「准确率 + 格式规范」双奖励机制优化工具调用策略。

与传统复杂奖励设计不同，DeepEyesV2 仅用两个简单奖励：

1、准确率奖励，根据最终答案与标准答案的匹配度打分；

2、格式奖励，对代码报错、搜索关键词无效等格式问题进行惩罚。

RealX-Bench

现有的评测集，往往只能测试模型的单一能力（比如看图识物、数学计算），但真实世界的问题需要「多能力协同」。

为此，团队构建了全新基准 RealX-Bench，包含 300 个真实场景问题，覆盖日常生活、媒体、体育、知识、游戏五大领域。

团队从真实场景中收集问题并改写，使得问题符合真实场景的需求，且很多问题都需要多个能力的结合才能解决。

准确率远超开源模型

团队首先在 RealX-Bench 上对现有模型和 DeepEyesV2，进行了评估。

测试显示，即使是最先进的通用模型，在 RealX-Bench 上的准确率也不足 50%，而 DeepEyesV2 凭借工具协同能力，准确率上表现远超开源模型，尤其是在需要多能力整合的任务上不表现突出。

此外，团队还在真实世界理解、数学推理、搜索任务上进行了评估。

结果显示：和现有的模型相比，DeepEyesV2 取得了巨大的性能提升，这证明了工具调用的重要性。

深度剖析：数据消融与工具偏好

在这之后，团队进一步通过多组消融实验，系统探究了不同数据类型对模型工具使用能力的影响。

先来看看冷启动数据。这一部分的核心目标是让模型掌握「基础工具使用逻辑」。

团队将冷启动数据分为三类——感知型、推理型、CoT 型，并通过消融实验验证各类数据的作用。

仅用感知型数据，模型在真实世界感知任务上准确率有明显提升，但在数学推理上准确率几乎无提升。

这说明感知数据能让模型熟练掌握「图像裁剪、区域标记」等视觉工具，但无法迁移到需要代码计算的推理任务，就像学会用放大镜看细节，却不会用计算器算数值。

仅用推理型数据，模型在数学推理任务上准确率有所提升，但在真实世界感知任务上准确率有所下降。

团队分析发现，推理任务需要「代码生成 + 逻辑验证」的复杂工具使用模式，单一推理数据缺乏「视觉感知→工具调用」的衔接训练，导致模型丢失了感知能力。

相比之下，当在感知 + 推理数据基础上加入「CoT 数据」后，模型在理解和推理任务上都有明显提升。

这是因为，CoT 数据强化了模型的推理能力，从而促进了模型的复杂工具调用能力。

因此最优的组合，还是——「感知 + 推理 +CoT」。

三类数据结合后，模型在感知和推理测试集上均实现最优表现，这证明多样化且包含复杂推理的冷启动数据才能为模型打下「多工具协同」的基础。

此后，团队进一步探究强化学习数据的影响，发现只有多样化的数据，才能有效地提高模型的工具调用能力。

冷启动让模型「知道用什么工具」，而强化学习则让模型「懂得何时用工具」。

团队通过对比冷启动后与 RL 后的工具使用行为，发现 RL 不仅优化了工具调用的「准确性」，更让模型形成了任务自适应的工具使用模式——

这种「按需调用」智能，正是 DeepEyesV2 区别于传统模型的核心特征。

团队分析了模型在不同任务上的工具使用分布，发现冷启动后模型已具备初步的「任务 - 工具匹配」逻辑，而 RL 进一步强化了这种关联，并推动「跨工具组合」。

DeepEyesV2 对于不同的任务，体现出明显的工具偏好。

对于真实世界感知任务，模型偏向使用裁剪来获取细粒度的视觉细节，对于 OCR 任务，DeepEyesV2 还会执行标记和数值计算，在图表相关的任务中，模型会涉及更多的算数计算。

然而在数学推理任务上，数学计算占主导地位，在搜索相关任务中，模型主要使用搜索工具。

此外，团队通过比较强化学习前后的行为，团队观察到明显的变化。

在强化学习之后，模型开始倾向于执行更多的数值运算，并在搜索任务中也开始将图像处理工具与搜索相结合，表明强化学习有助于模型强化了跨工具的协同。

冷启动阶段，模型存在过度调用工具的问题，90% 以上的任务都会调用工具，导致推理效率低下。

而强化学习后，工具调用率显著下降，表明模型学会了自适应推理，只有当使用工具更加有利时，才会调用工具，这有效提高了推理的效率。

此外，团队还追踪了强化学习训练过程中工具调用次数、响应长度、奖励值的动态变化。

团队发现，输出长度在不断下降，且工具调用的平均次数也在逐步下降，但是工具调用的方差仍然很大。

这说明，模型并不是简单地收敛到固定的工具调用次数（比如，每个问题调用一次工具）。

相反，模型学会了自适应思考，只在必要的时候有选择地调用工具。

在面对复杂问题时，工具调用次数仍然很高，说明 DeepEyesV2 能够根据任务难度动态调整工具调用策略，体现出真正的自适应推理能力。

结语

综上所述，团队从训练、数据集设计和评估的角度，探索了如何构建能够主动调用工具并将其融入推理过程的智能体多模态模型。

团队的分析揭示了 DeepEyesV2 具有任务相关的工具使用行为，而强化学习，则让模型学会更复杂、具有上下文感知的工具组合。

在感知、推理和搜索基准上进行的大量实验，则进一步证明了 DeepEyesV2 强大的推理能力，凸显了将工具调用与推理相结合的优势。

论文地址：

https://arxiv.org/pdf/2511.05271

项目主页：

https://visual-agent.github.io/

GitHub：

https://github.com/Visual-Agent/DeepEyesV2

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签