这个生物医学视觉推理框架,被 CVPR 2026 接收了!

人类专家在标注医学图像时,从不是 " 看一眼就画出来 "。
他们会先扫视全图、锁定可疑区域,随后在分割工具上反复点击正负样本,根据每一步生成的 mask 形态重新判断,不断调整策略——
这是一个多轮交互、边看边想、边想边做的迭代推理过程。
然而,现有的医学多模态大模型普遍采用 " 单次前向推理 " 范式:
输入图像,输出 mask,一步到位。
这种方式面对生物医学图像中细微的病灶边界、复杂的解剖结构、模糊的视觉语义时往往力不从心。
更深层的问题在于,为了赋予 MLLM 分割能力,现有方法普遍引入隐式分割 token(如 <SEG> )并与外部 pixel decoder 联合微调——
这一设计破坏了大模型原有的文本输出空间,导致语言推理能力退化,泛化能力大打折扣。
上述范式存在四个核心瓶颈:
单次推理无法自我纠错:一旦第一步定位出现偏差,错误持续累积,最终影响分割质量。
隐式 token 破坏推理能力 : <SEG> 等 token 侵占文本空间,导致灾难性遗忘,细粒度视觉推理被严重压制。
缺乏自主决策机制:模型只能被动执行单次指令,无法像人类专家一样主动观察、反思、调整。
训练数据瓶颈:现有数据集只有最终 mask,缺乏逐步交互的推理轨迹,难以直接监督多步行为。
鉴于上述问题,浙江大学蔡钰祥教授、上海人工智能实验室研究员江彦开等人联合提出了IBISAgent——
一个将分割重新定义为多步视觉决策过程的 Agentic MLLM 框架。
具体方法
概括而言,IBISAgent 的主要创新点如下:
将分割任务建模为多步马尔可夫决策过程(MDP) ,以交错的文本推理与点击动作替代隐式 token,保留 MLLM 完整的语言推理能力,同时实现自主多轮迭代精化。
提出两阶段训练框架。首先通过冷启动 SFT 在自动生成的推理轨迹上建立像素级推理先验;随后引入 Agentic 强化学习,以细粒度奖励信号驱动模型自主探索更优决策策略,超越对轨迹的简单模仿。
构建包含456K条高质量推理轨迹的冷启动数据集,覆盖正常标注与自我反思纠错两类轨迹,为多步视觉推理提供系统化的训练基础。
具体方法为,IBISAgent 将整个分割过程建模为一条多步推理轨迹,每一步由三个核心元素构成闭环:
推理(Textual Thinking) :模型对当前分割图像的状态进行推理分析,如 " 当前 mask 偏左,需要在右侧肿瘤边缘补充正向点击 "。
行动(Action) :模型输出结构化的空间点击指令,包含三个要素:分割目标类别(Target)、点击属性(正 / 负,Attribute)、归一化图像坐标(Coordinate_2d)。模型可在一步中同时输出多个点击。
观测(Observation) :点击被传入交互式分割工具 MedSAM2,生成更新后的 mask,并叠加到原图上作为下一步的视觉输入反馈给模型。
这一设计的关键在于:
模型每一步都能 " 看到 " 自己上一步分割的结果,形成视觉感知与语言推理的闭环。
整个过程不引入任何新的模型组件或隐式 token,分割能力完全从 MLLM 内在的视觉推理中涌现,并天然支持从头分割与 mask 精化两类任务。

与此同时,IBISAgemt 采用两阶段训练方案:
第一阶段:冷启动 SFT。
现有生物医学分割数据集只有最终 mask,没有逐步点击轨迹。
研究团队利用 BiomedParseData(340 万图像 -mask 对, 9 种成像模态)开发了自动轨迹生成算法:
通过规则化的点击模拟策略自动推导点击序列,再用 Gemini- 2.5-Pro 为每步生成对应的自然语言推理。
为增强鲁棒性,额外合成两类自我反思轨迹:
(1)错误自纠正——检测到错误动作后回溯并重新推理;
(2)指令不一致纠正——遇到与初始 mask 不符的指令时主动丢弃并重新分割。最终构建出包含 456K 样本的高质量冷启动数据集。
第二阶段:Agentic 强化学习。
SFT 之后模型仍在模仿已有轨迹,研究团队进一步引入 RL,设计细粒度奖励框架在每个交互步骤提供密集反馈:

其中区域点击奖励与渐进式分割改进奖励是核心创新——
前者引导模型将每次点击落在语义有效的区域,后者强制每步行动必须带来实质性的分割改善,从而彻底杜绝冗余操作与来回震荡。
RL 训练使用 GRPO 算法,在888K VQA 样本上进行优化。

实验结果
实验结果显示,IBISAgemt 在域内测试集、域外泛化集(MeCOVQA-G+,涵盖 5 种成像模态)和自建私有数据集(1K CT/MRI/ 病理, 7 类癌症)三个 benchmark 上, 均大幅领先所有对比方法。
相比医学专用 MLLM 基线,平均 IoU 提升35.13%, DSC 提升37.58%, F1 提升29.79%。
值得注意的是, Citrus-V 和 UniBiomed 均在比本方法更大规模的数据集上训练, IBISAgent 仍能一致超越,说明性能提升来自方法设计本身,而非数据优势。

与工具增强 Agent 的对比实验
相比同样调用 MedSAM2 的工具增强型 Agent(GPT-4o 、LLaVA-Med 、HuatuoGPT-Vision 等), IBISAgent 在域外集和私有数据集上仍保持显著领先,充分说明多轮交互式推理带来的增益远超简单的工具调用。

两阶段训练消融实验
消融实验证明,冷启动 SFT、自我反思轨迹和 RL 三个方案缺一不可,逐级叠加均带来明显收益。
RL 阶段提供最大的性能跃升,说明强化学习的探索 - 利用机制对激发真正自主的像素级推理至关重要。

细粒度奖励设计消融实验
对于 RL 阶段的奖励设计,研究团队同样进行了逐项验证。
以仅使用格式奖励与答案奖励为基线,在域外集 MeCOVQA-G+ 上的 IoU 仅为 73.77;
逐步引入区域点击奖励后, IoU 提升至 76.60, mask 定位准确性显著改善;
加入渐进式分割改进奖励后进一步跃升至 80.61,同时平均交互步数从 11.29 步压缩至 8.12 步,模型学会了更高效的分割路径;
最终叠加轨迹长度奖励后,交互效率继续提升,步数降至 4.26 步,同时分割质量维持在最高水平。
这一结果表明,细粒度的逐步反馈信号是驱动模型在质量与效率之间取得最优平衡的关键,单纯依赖最终结果奖励无法达到同等效果。

小结一下
这项研究将生物医学图像分割从 " 单次推理输出 " 推进到 " 自主多轮交互决策 "。
针对现有方法依赖隐式 token 导致的推理能力退化问题, IBISAgent 以交错的文本推理与点击动作完全替代 <SEG>token,保留了 MLLM 完整的语言能力,并通过多步 MDP 建模实现真正的自主迭代精化。
进一步地,冷启动 SFT 结合自动轨迹生成建立稳健的推理先验,Agentic 强化学习与细粒度奖励驱动模型超越模仿、探索最优决策策略,最终实现了细粒度的视觉推理。
广泛的实验验证了 IBISAgent 在多模态、多疾病场景下的一致性优势,为未来面向真实临床的智能医学图像分析系统奠定了重要基础。
论文链接: https://arxiv.org/abs/2601.03054
代码链接: https://github.com/Yankai96/IBISAgent
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦