文 | 大湾区人工智能应用研究院
医疗影像(X 光片、CT、MRI、超声等)是指利用各种成像技术,将人体内部的结构或组织以可视化的形式呈现出来,对疾病的诊断、治疗和监测起到重要的作用。因为医疗影像的数字化起步较早,数据结构相对标准化,便于计算机视觉处理,在 90 年代业界就有将医疗影像结合计算机辅助诊断的尝试;后来卷积神经网络(CNN)为代表的深度学习技术在图像识别领域取得巨大突破后,2017 年左右以来,AI 技术 + 医疗影像的研究、临床试验和实际应用开始快速发展,可以说是 AI 技术在各行业中最早实现规模化落地的场景之一。目前,AI 医疗影像产业的辅助诊断技术已经比较成熟,步入了实际落地应用阶段,头部三甲医院几乎都引入了 AI 医疗影像产品。
AI 为医疗影像带来显著价值
AI 技术已经给医疗影像领域带来巨大的价值。我国影像科医师严重短缺 , 尤其是繁忙的三级医院。根据我们的访谈,三级医院每位影像科医生日均需出具 80-100 份 CT 报告、60-80 份磁共振报告或 120-150 个超声检查 , 超负荷工作现象普遍。在传统模式下,医生往往需要审阅大量影像图片,从中找出并标注病灶的大小、形态、位置,再结合多方信息完成一份诊断,通常耗时近 30 分钟。而在 AI 的辅助下,病灶识别和定量标注等耗时环节被大幅自动化,整个诊断流程可缩短至 5-10 分钟,显著提升了医生的工作效率,尤其缓解了工作早已过饱和的三级医院医生的压力。
AI 的应用已渗透到影像科多个主流检查项目中,如胸肺部的肺结节与肺炎识别、骨科的骨折检测与骨龄分析、以及乳腺的病灶辅助检测等;在放疗、手术等治疗场景中也得到广泛的应用。在影像检查项目中,AI 的核心作用在于自动识别并标注病灶,从而辅助医生诊断,其识别准确率普遍高达 95% 以上。在放疗的影像辅助上,基于 AI 的放疗靶区勾画、剂量计算和自适应放疗计划等,能够将几小时的医生治疗计划制定压缩至几分钟内完成;在外科手术中,用 AI 医疗影像技术辅助医生制定手术计划,以及在术中用定位和导航来辅助实施手术也有了不错的进展。
正是基于这种 " 又快又准 " 的价值,很多医院开始引入 AI 医疗影像产品,特别是在三级医院的影像科已经实现了比较规模化的应用。我们可以粗略的估算,全国三级医院合计约有 14 万名影像科医生,平均工资约 19 万元,保守假设 AI 能为其节约一半工作时间计算,理论上每年可创造高达 130 多亿元的价值。
AI 医疗影像的商业化困境
然而,巨大的价值创造并未转化为相应的商业回报。根据我们的测算,2020 至 2024 年整个行业的累计商业收入不足 30 亿元,平均每家医院终身使用一款 AI 医疗影像产品只需要 40 万元,且多为一次性的软件买断模式,后续服务收费乏力。行业陷入了 " 叫好不叫座 " 的商业化困境,企业捕获的价值远低于其创造的价值。
主要原因是现阶段用于辅助的 AI 医疗影像产品技术门槛相对较低,同质化竞争激烈。通常,使用几千例标注的医疗影像训练一组串联的 " 小模型 " 即可实现辅助功能,技术门槛和研发成本低,导致入局者众多。截至 2025 年,已经有 100 余款 AI 医疗影像产品获批三类医疗器械注册证(NMPA)在 " 同台竞技 ";单论胸肺一个场景,就有数坤、推想、深睿、联影、医准等十余家企业竞争。激烈的竞争迫使厂商纷纷采用 " 免费试用 " 策略来抢占医院入口,最终将整个行业拖入了 " 囚徒困境 ":只要一家免费,所有人都被迫跟进;而当医院习惯免费模式后,任何一家率先收费的厂商都可能被立即替换,导致市场份额的丧失。
此外,医院的经费限制也会导致 AI 医疗影像产品可销售市场的进一步收窄。由于现阶段 AI 产品的功能还停留在辅助诊断阶段,未提供超出医生水平的增量功能,医保和患者缺乏付费使用 AI 的动力,主要靠院方甚至科室的经费来购买 AI 医疗影像产品。然而,除头部三甲医院以外的其他医院能够用于购买软件的经费金额很有限,不少三乙和二级医院全年检查收入在百万量级,很多影像科自身处于亏损状态,即使是购买刚需的、售价在几十到百万元的 CT 硬件设备都存在经费吃紧的情况,更不用提负担非刚需的数十万元的软件费用,导致 AI 影像产品的市场天花板被进一步压缩。
激烈竞争下 , 现有 AI 医疗影像企业盈利十分困难。以 AI 眼底影像头部企业鹰瞳科技为例 ,2024 年全年收入 1.5 亿元 , 但销售费用占近一半 , 考虑其他运营和财务费用 ,2024 年亏损 2.6 亿元 , 盈利情况堪忧。大部分非头部企业的年收入仅在千万元量级,难以覆盖高昂的研发开支,长期依赖融资资金维持。这并不是个案,而是同质化竞争下全行业困局的一个缩影。
AI+ 医疗影像的更大潜力
这种困局是可能被改变的,这要求 AI 技术在医疗影像分析、疾病诊断、治疗、监测等方面要能带来更大的价值,也对应着更高的研发门槛和竞争壁垒。目前 AI 仍只能提供辅助诊断价值,在诊疗上准确性仍不足。具体来说,在检查方面,目前 AI 在第一步 " 找出病灶 " 上表现出色,甚至比人类更全面(漏检率低),但在第二步 " 判断疾病良恶性质 " 上表现还不够令人满意(误诊率高于优秀人类医生)。在治疗(化疗和手术等)辅助方面,AI 辅助可以大幅提高医生的准备效率,但计划仍需医生进行人工检查、复核才能确保质量;在术中可以起到定位和导航的辅助,但治疗的实施主体仍是医生。这使得即便没有监管的限制,其能力上限暂时只能作为医生的提效助手,难以取代医生。
要进一步提升其价值,需要更强的基础模型能力。现在医疗影像领域商业化模型依然以卷积神经网络(CNN)为主,优势是对局部细节特征捕捉的很好,但天然缺乏全局视野," 见木不见林 ",容易对复杂的疾病影像产生误判。比如在一张全身 PET-CT 扫描中,判断一个骨骼上的可疑点是原发性骨肿瘤还是肺癌的骨转移,需要将骨骼病灶和远处的肺部信息关联起来,这种能力是以 CNN 为基础模型的 AI 所不具备的,而优秀的医生显然可以做到。此外,CNN 对三维影像的理解能力也比较弱。
业界已经意识到引入 Transformer 可以大幅提升 AI 医疗影像能力的上限,Transformer 最初为自然语言处理(NLP)而生,是近两年疾速发展的大语言模型的底层基础,其核心武器是自注意力机制(Self-Attention),擅长全局结构和长距离依赖的分析,这恰好能弥补 CNN 的短板。在刚才的例子中,骨骼上的可疑点可以通过注意力机制,直接与远处的肺部结节建立强关联,从而为 " 肺癌骨转移 " 这一诊断提供强有力的证据。这种提升让 AI 从 " 辅助诊断 " 向 " 独立诊断 " 更进一步。
除了影像分析本身的上限提升,引入 Transformer 有望令 AI 从影像切入,但不止于影像,而是跃升为处理多维度医疗信息的临床综合大模型,这个上限由 Transformer 的多模态能力打开。理论上,通过 Transformer 处理多模态数据的能力,我们可以把一个病人的影像数据(CT、MRI、X 光、病理切片)、文本数据(病史、主诉、既往检查报告)、检查数据(血液、尿液)、时序数据(心电图、脑电图)、组学数据(基因、蛋白质组)都给到 AI,将 AI 从 " 单兵作战 "(纯影像)推向 " 全域决策 ", 它打破了不同医疗数据形态之间的壁垒,为构建一个覆盖从筛查、诊断、手术规划到术后随访全流程的真正的、综合性的临床诊疗大模型铺平了道路,实现诊断、治疗与管理环节的协同。
难点和机会在于数据
从基于 CNN 到基于 Transformer 的 AI 医疗影像范式转移,从单一模态的影像辅助分析到多模态的综合诊疗模型转换路径似乎是清晰而令人鼓舞的,学术界近年确实有大量的基于 Vision Transformer(ViT)、Swin Transformer、CNN-Transformer 混合的论文在 RSNA、MICCAI 等顶级会议上发表,任务涵盖肿瘤检测、器官分割、病灶分类、跨模态检索等,在很多基准测试中也取得了超过 CNN 模型的成绩,但 " 研究热度 " 与 " 商业落地 " 之间存在巨大鸿沟,还很少有基于 Transformer 的成功 AI 医疗影像应用出现,更不用说多模态综合诊疗模型。
这里面有很多原因,包括医疗领域天然的保守和风险厌恶属性,对新技术的审批要求严苛,CNN 辅助诊断软件已经有 FDA、NMPA 批准的案例,而 Transformer 多模态模型属于更复杂、更不透明的模型,解释性更弱,更难过审;并且 Transformer 为基础的技术路线还在快速迭代中,企业对投入长周期认证一个 " 可能过时 " 的架构会心存疑虑。包括计算成本与部署挑战,Transformer 模型通常参数量更大,计算复杂度更高,尤其是在处理高分辨率 3D 医疗影像时,对 GPU 计算和存储能力的要求极高;医院的 IT 系统庞大而复杂(PACS、RIS、EMR 等),Transformer 模型的复杂性可能导致集成更困难。包括大部分厂商和医院已经围绕 CNN 构建了工具、人才、适配等生态,生态颠覆需要足够大的价值提升才能推动各方下定决心转换。
但在巨大的潜力面前,长期看算力、生态、监管都并非最大的挑战,因为它们可以通过技术进步、市场演化和政策调整来解决。我们认为,阻碍 AI 医疗影像向前发展的最大、最紧迫的挑战是数据,而最大的机遇也蕴藏在数据之中。
Vision Transformer 如果从头训练,需要百万到千万级的图像数据,在医疗领域的微调一般也需要十万到百万级的标注数据,这比现在主流商用医疗影像模型的训练规模大了几个数量级;而医疗数据涉及个人健康信息,受 HIPAA(美国)、GDPR(欧盟)、中国个人信息保护法等严格法规的保护,数据共享和流通受到极大限制,这对准备训练数据带来了巨大挑战。很多种疾病的可得数据还要小于这个量级,比如葡萄膜黑色素瘤每年全球病例几万例,有些罕见病更是只有几百上千例;即便对于大病种,如肺癌每年全球发病几百万例,获取大规模高质量的标注数据也很困难,如何获得众多医疗机构的同意拿到影像数据,如何克服不同设备由于扫描协议、参数、重建算法差异等带来的数据混乱,如何解决由于医生经验差异带来标注质量参差不齐,这些数据问题都对新技术的应用带来巨大的挑战。
而多模态数据融合的美好愿景又令数据问题的难度指数级上升。首先,多模态模型训练不仅要求标注好的影像数据,还要求收集和处理多维度的数据:病理的标注、临床数据的整理、基因数据的注释等,新增巨大的工作量。而不同模态的数据对齐是更复杂的挑战,将这些来自不同时间、不同来源的数据进行精确对齐和配对,是一项浩大的数据工程。
医疗影像是人工智能较早赋能的领域,带来了很大的价值,但现在 " 数据墙 " 成为了阻碍了人工智能在医疗影像乃至综合诊疗方面发挥更大的价值的核心瓶颈,因此,能够在医疗数据的收集、治理、标准化、标注、隐私保护和高效利用方面建立核心能力的企业,将有望构建最深的护城河,引领下一代医疗 AI 的发展。
从全局来看,数据问题首先是一个技术问题,可以通过以下途径缓解:发展自监督学习减少对标注数据的依赖;部署联邦学习,在数据不出机构的前提下,多个机构共同训练一个模型,减轻数据孤岛限制;探索以合成数据降低罕见病数据不足的困扰等。
数据问题又远不只是技术问题,涉及到组织协调、利益博弈、信任机制、法律合规,在非技术的层面最重要的是设计或形成一种有效的协调机制,让数据流动起来发挥 AI 模型训练的价值,逻辑上有两种途径,一是通过市场化的方式,二是通过自上而下的制度设计,哪种方式更好,还要通过更多的研究搞清楚,但中国可能在第二种方式上有制度优势,我们可以探索通过制度设计,更高效的解决医疗领域的数据问题,从而令中国引领 AI 医疗的发展。
数据问题不只存在于医疗影像领域,厘清并解决医疗影像领域的数据难题,不仅能推动医疗 AI 自身的革命性发展,也将为 AI 赋能其他各行各业提供宝贵的经验和范本。


登录后才可以发布评论哦
打开小程序可以发布评论哦