量子位 4小时前
一个模型读懂所有医学数据,Hulu-Med探索医学大模型开源新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

从影像诊断到手术指导,从多语言问诊到罕见病推理——

医学 AI 正在从 " 专科助手 " 进化为 " 全能型选手 "。

而这就是浙江大学(吴健 / 刘佐珠课题组)、上海交通大学(谢伟迪课题组)、伊利诺伊大学厄巴纳 - 香槟分校(UIUC,Sun Jimeng 课题组)联合阿里巴巴、湖南大学、新加坡 A*STAR、中国移动、时代天使、浙江省医学影像人工智能重点实验室等机构联合提出的通用医学视觉语言大模型Hulu-Med首次实现在一个单一模型中对医学文本、2D 图像、3D 体积和医学视频的统一理解。

简单来说,就是一个模型,看懂医学世界的所有

而且作为开源模型,其训练数据均来自公开医学数据集及自研合成数据,不仅能大幅度降低 GPU 训练成本,更是在 30 项权威评测中展现出媲美GPT-4.1等闭源模型的优异性能。

这意味着学术机构及医疗开发者无需再依赖私有数据,即可复现并定制高性能医学模型,显著降低隐私与版权风险。

下面是有关 Hulu-Med 的更多详细内容。

医学 AI 的碎片化与透明度缺失

医疗人工智能的发展正处在一个关键的十字路口。

过去,AI 在医疗领域的应用呈现出单任务 / 单模态的局限性。研究者们针对放射影像、病理切片或手术视频等单一任务,开发了众多性能卓越的专用模型 ( Specialized Models ) 。

然而,这些模型架构各异、数据独立,如同一个个 " 信息孤岛 "。当临床上需要综合分析同一位患者的多模态数据时,就必须拼凑一套复杂、昂贵的系统,这不仅维护成本高昂,更限制了 AI 从跨模态关联中学习和推理的能力。

如今,大语言模型和基础模型的兴起,为我们带来了实现 " 通用医学智能   ( Generalist Medical AI ) " 的曙光,有望解决上述难题。

然而,这一浪潮也带来了一个更严峻的挑战:透明度的缺失 ( Lack of Transparency )  。许多领先的医疗 AI 系统,其训练数据来源、处理方法、模型架构甚至评估细节都常常秘而不宣 。这种不透明性是阻碍 AI 在医疗领域广泛应用的关键障碍 :

研究社区难以对其进行独立的验证和改进;

监管机构难以评估其安全性和公平性 ;

临床医生难以完全信任并将其融入高风险的决策流程 ;

数据隐私与版权方面也带来了严重的潜在风险 。

正是在碎片化与不透明这两大行业痛点并存的背景下,Hulu-Med应运而生,旨在提供一个真正统一(Unified)且完全透明(Transparent)的解决方案 。

迈向统一、透明、高效的医学 AI

研究团队秉持三大核心设计原则进行研发:全模态理解 ( Holistic Understanding ) 、规模化效率 ( Efficiency at Scale )   与端到端透明 ( End-to-End Transparency )  。

Hulu-Med 旨在成为一个 " 医学多面手 ",不仅能理解单一类型的数据,更能融会贯通,从整体上把握患者的健康状况。

核心创新一:前所未有的透明度与开放性

Hulu-Med 将透明度置于最高优先级,研究团队深信,开源开放是推动医学 AI 健康发展的必由之路。

完全开放的数据来源:

Hulu-Med 的训练完全基于公开可获取的数据集和合成数据,摆脱对私有、敏感数据的依赖 。

研究团队精心整理并构建了目前已知规模最大(1670 万样本)的开放医学多模态语料库 ,该语料库覆盖了 12 个人体主要器官系统和 14 种主要医学影像模态(包括 CT, MRI, X 光 , 病理等 60 多种具体类型) 。

应对数据挑战的合成策略:

公开数据往往存在模态覆盖不均、图文对齐质量参差不齐、长尾分布显著等问题。

为了克服这些挑战,研究团队开发了 5 种专门的数据合成管线 ,能够将简短图注扩写为详细描述 、为无标注图像生成高质量长文本描述(尤其针对样本稀疏的模态) 、构建多样化的视觉问答对 、生成多语言长思维链(Long CoT)推理数据以及为缺乏标注的手术视频生成时序描述 。

这些高质量的合成数据(总计约 286 万样本)极大地丰富了训练语料,提升了模型的泛化能力和对复杂指令的理解力 。

端到端全流程开源:

研究团队公开整个研发管线,包括详细的数据筛选与合成流程、三阶段训练代码、所有基准测试的评估脚本,以及最终训练完成的所有模型权重 。

这意味着任何研究者都可以完全复现团队的工作,并在其基础上进行改进或针对特定应用进行微调。

规避风险,赋能社区:

这种彻底的开放性不仅有效规避了使用私有数据可能带来的隐私泄露和版权纠纷风险 ,更重要的是,它赋能了整个研究社区,降低了高质量医学 AI 的研发门槛,有助于催生更多定制化的、可信赖的医疗应用。

Hulu-Med 在 GitHub 和 HuggingFace 上获得的积极反馈,近两周连续在 HuggingFace medical trending 榜单排名第一正是对开放策略的认可。

核心创新二:医学多模态统一理解架构

Hulu-Med 的核心技术突破之一在于其创新的统一架构,首次实现了在单一模型内原生处理文本、2D 图像、3D 体积和医学视频四种核心模态。

传统 VLM 通常需要为不同视觉模态(如 2D 图像和 3D 体积)设计独立的编码器,或者采用将 3D/ 视频数据拆解为 2D 帧序列的折衷方法,这限制了模型对空间或时间连续性的深度理解。

Hulu-Med 则另辟蹊径:

旋转位置编码的创新应用:

采用先进的 SigLIP 视觉编码器,并将其与二维旋转位置编码(2D RoPE)相结合。

2D RoPE 能够动态编码 Patch 在二维空间中的相对位置信息,无需预设固定的输入尺寸。

统一视觉编码单元:

通过巧妙的设计,它将图像 Patch 视为跨所有视觉模态(2D 图像、3D 切片、视频帧)的通用处理单元,使得模型能够将 3D 体积数据视为切片序列、视频数据视为帧序列。

并在统一的 Transformer 架构内自然地理解其空间或时间上的连续性与关联性,而无需引入任何特定于 3D 或视频的复杂模块

这种统一架构不仅支持任意分辨率的医学影像输入 ,还天然具备了强大的时空理解能力

解耦的训练方式:

基于独立的视觉编码器与大型语言模型(LLM)解码器开展持续预训练和后训练,这提供了极大的灵活性,允许研究者根据具体需求,轻松替换或升级视觉编码器或 LLM 骨干(如使用不同规模或能力的 Qwen 系列模型),无需等待新版本通用 VLM 出现后再做医学场景后训练。

这种 " 原生 " 的多模态整合方式,相比于仅仅微调通用 VLM 的方法,更能保证数据使用的透明性,并强化领域特定的推理能力,是构建可靠临床 AI 系统的关键。

核心创新三:兼顾效率与规模化

处理大规模医学数据,尤其是包含大量切片或帧的 3D 体积和视频数据,对计算资源提出了极高要求。

Hulu-Med 通过一系列创新设计,成功实现了高性能与高效率的平衡。

医学感知令牌压缩 ( Medical-Aware Token Reduction ) :

针对 3D 和视频数据中普遍存在的帧间 / 层间信息冗余问题,研究团队提出了 " 医学感知令牌压缩 " 策略。

该策略结合了平面内双线性插值降采样和平面间基于 L1 距离的冗余令牌剪枝 ( Token Pruning ) ,能够在几乎不损失模型性能的前提下,平均减少约55%的视觉令牌数量(如上图)。

这一显著的效率提升使得处理长达数小时的手术视频成为可能,并且极大地降低了模型推理时的内存和计算开销。

渐进式三阶段训练课程:

Hulu-Med 采用了精心设计的渐进式三阶段训练流程。

第一阶段,冻结 LLM,仅训练视觉编码器和 Projector,利用海量的 2D 图像 - 短文本对建立基础的视觉 - 语言对齐。

第二阶段,进行持续预训练,引入长文本描述、通用数据,并解冻所有模型参数,旨在注入丰富的医学知识和通用视觉文本理解能力。

第三阶段,进行混合模态指令微调,引入包括 3D、视频、多图、图文交错在内的多样化下游任务数据,全面提升模型的指令遵循和复杂推理能力。

这种 " 先易后难、逐步深入 " 的策略,充分利用了相对丰富的 2D 数据资源来构建强大的视觉表征基础,使得模型在后续面对数据量相对较少的 3D 和视频任务时能更快、更好地学习。

实验证明,这种渐进式训练显著优于将所有模态混合在一起的训练方式。

可控的训练成本:

得益于高效的架构和训练策略,Hulu-Med 的训练成本得到了有效控制。

即使是规模最大的 32B 参数模型,其总训练耗时也仅约4 万个 A100 GPU 小时,而 7B 模型更是只需约4 千GPU 小时。

这意味着,在现实可及的计算预算内,即可开发出具备 SOTA 性能的通用医学 VLM,极大地提高了先进医学 AI 技术的可及性。

树立医学 VLM 新标杆

为了全面评估 Hulu-Med 的能力,研究团队在30 个公开的医学基准测试上进行了广泛严谨的评估。

这些基准从基础的文本问答、图像分类,到复杂的视觉问答(2D、3D、视频)、医学报告生成(2D、3D),再到需要深度临床知识和推理能力的多语言理解、罕见病诊断、多轮临床对话等各种任务类型,并同时考察了模型在分布内(ID)和分布外(OOD)任务上的泛化能力。

最终 Hulu-Med 的表现令人瞩目,如上图所示,在参与比较的 30 项基准中,Hulu-Med 在其中27 项均超越了现有的开源医学或通用 VLM

而且媲美甚至超越顶尖闭源系统,在其中 16 项基准中的性能优于强大的闭源模型GPT-4o

尤其值得一提的是,尽管 Hulu-Med 是一个视觉语言模型,但在 OpenAI 最新提出的纯文本临床对话基准 HealthBench 上,其性能超越了 GPT-4o,并与 GPT-4.1 持平 ,充分证明了其强大的文本理解和推理能力并未因多模态训练而削弱。

此外,无论是在 2D 医学 VQA 和报告生成(在体现临床价值的 RaTEScore 指标上尤为突出),还是在需要空间理解的 3D VQA 和报告生成(优于专门的 3D 模型),抑或是需要时序推理的视频理解任务(如 MedFrameQA 和多种手术 VQA),Hulu-Med 均展现了领先或极具竞争力的性能。

在模拟真实临床挑战的多语言医学理解(MMedBench,六种语言)、罕见病诊断(RareBench)和多轮临床安全对话(HealthBench)等任务上,Hulu-Med 同样表现出色。

尤其在结合思维链(CoT)提示时,其在多语言和罕见病诊断上的表现超越了包括 GPT-4 在内的多个顶尖闭源模型 ,展现了其巨大的临床应用潜力(如上图)。

Hulu-Med 的成功验证了通过系统性整合公开数据、采用统一高效架构、坚持完全开放透明的路径,是可以构建出世界一流的通用医学 AI 模型的。

尽管取得了显著进展,Hulu-Med 仍有很多提升空间,未来的研究方向包括:

融合更多模态数据:将基因组学、蛋白质组学等多尺度生物数据融入模型,实现从宏观影像到微观分子层面的真正多尺度疾病理解,迈向预测性和个性化医疗。

持续扩大开放数据规模:进一步聚合全球范围内更多样化的公开医学数据集,有望继续提升模型的性能和泛化能力。

深化临床推理能力:利用更大规模、更多样化的思维链数据,结合强化学习等先进训练范式,进一步优化模型的临床逻辑推理、可解释性和可靠性。

建立高效的持续学习机制:确保模型能够与快速发展的医学知识保持同步。

推动临床验证与整合:将 Hulu-Med 作为基础,与专科模型或多智能体系统结合,在真实的临床工作流中进行验证,确保其安全性和有效性。

总的来说,Hulu-Med 代表了迈向整体化、透明化、高效能医学 AI 的重要一步,它不仅是一个高性能的模型,更是一个开源开放的研究起点和一份详尽的技术蓝图。

研究团队坚信,开放与协作是推动医学 AI 领域可持续发展的关键,Hulu-Med 在 GitHub 和 HuggingFace 等开源社区获得的初步成功,也印证了这一理念的价值。

同时,该团队也诚挚邀请相关领域的研究者、开发者和临床医生,利用 Hulu-Med 等开放模型和数据资源,共同探索、构建和验证下一代精准、普惠、个性化的医学人工智能系统!

论文链接:https://arxiv.org/abs/2510.08668

GitHub 链接:https://github.com/ZJUI-AI4H/Hulu-Med

HuggingFace 链接:https://huggingface.co/ZJU-AI4H/Hulu-Med-32B

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

医学 ai 医疗 开源 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论