蚂蚁健康与北京大学人民医院王俊院士团队历时 6 个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——
GAPS(Grounding, Adequacy, Perturbation, Safety),及其配套评测集 GAPS-NSCLC-preview。
旨在解决现有医疗 AI 评测局限于考试式问答、缺乏临床深度、完整性、鲁棒性与安全性综合评估的问题。
该评测集聚焦肺癌领域,包含 92 个问题、覆盖 1691 个临床要点,并配套全自动化的评测工具链,通过指南锚定、多智能体协同实现从问题生成、评分标准制定到多维度打分的端到端自动化。
目前,相关成果已应用于 " 蚂蚁阿福 ",论文《GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians》、配套评测集 GAPS-NSCLC-preview、自动化评测框架已全面公开。

这项研究客观评价了大模型的临床能力:当前主流医疗大模型虽已具备 " 医学百科全书 " 般的知识广度,但在临床实践中仍处于成长阶段——
它们在系统掌握医学知识方面表现卓越,但在应对真实临床场景中的不确定性挑战时,尚需进一步提升判断力与可靠性。
权威引领:北大人民医院院士团队深度主导临床标准构建
本项目由中国工程院院士、北京大学人民医院院长王俊教授领衔的团队全程主导,并与蚂蚁团队深度协作完成。
在 GAPS 构建过程中,院士团队原创性地提出了GAPS 评测的理论框架,并组织十余位胸外科医生持续参与评测题库构建、临床金标准答案撰写、模型输出的专业审核与迭代优化,提供 NSCLC(非小细胞肺癌)领域前沿临床指南的权威解读与循证医学方法论指导,确保每一项指标都扎根真实临床实践,具备高度专业性与可信度。
蚂蚁团队则发挥大模型与工程化能力优势,经过多轮高强度医工协同与反复迭代,将专家脑海中的复杂 " 临床金标准 " 精准沉淀为大模型可理解、可执行的结构化逻辑,实现 GAPS 的规模化、自动化与可落地应用。
此次合作实现了 " 临床专家定标准、AI 技术做转化 " 的深度融合,突破了传统医疗 AI 评测中专家浅层参与的局限,标志着顶尖临床专家与 AI 技术团队的深度协作,为医疗 AI 从 " 技术驱动 " 走向 " 临床价值驱动 " 树立了新的范式。
行业痛点:考得好,信不过
在和大模型讨论医疗问题时,有时候回答得很好,有时候回答得很差,由于大模型的变化日新月异,医生和患者都没有办法在短时间对大模型产生客观评价,因此对大模型的信任就无从谈起。
为了客观评价大模型的能力,学界通常采用基准测试的方法。
然而,当前医疗 AI 的基准测试普遍缺乏对模型循证能力、可解释性与安全性的系统评估。
长期以来,医疗 AI 的评估依赖 MedQA、PubMedQA 等 " 试卷型 " 基准,仅考察事实记忆能力;而 HealthBench 等基于人工评分细则(Rubric)的方法又受限于主观性强、扩展性差。
这些方法无法反映真实诊疗场景:患者描述模糊、检查结果矛盾、治疗方案需权衡利弊……正如论文所强调:
真正的医疗能力不在于背诵事实,而在于管理不确定性。
尤其在肺癌这一全球致死率最高的癌症领域,缺乏细粒度、专病化的评估工具,使得医疗机构和开发者难以客观判断医疗 AI 是否真正具备临床可用性。
GAPS 的诞生,正是为了填补这一关键空白。
破局之道:GAPS ——从 " 考试机器 " 到 " 临床医生 " 的四维标尺
GAPS 是一个基于循证医学、全自动构建的 AI 临床能力评测框架,首次将临床胜任力解构为四个正交维度,并聚焦 NSCLC(非小细胞肺癌)这一高难度专病场景进行系统验证:
1、G(Grounding)认知深度:不止于 " 是什么 ",更考验 " 为什么 " 和 " 怎么办 "。
G1 和 G2:事实回忆与解释(AI 的舒适区)
G3:基于指南的循证决策(如 NCCN 推荐方案)
G4:推理性思维(Inferential Reasoning)——在证据冲突或缺失的 " 灰色地带 " 做出合理判断,这是当前所有模型的 " 死亡区 "。
2、A(Adequacy)回答完备性:医生的一句话可能关乎生死。GAPS 引入三级评价:
A1(必须有):核心诊疗建议
A2(应该有):关键限定条件(如剂量、禁忌症、监测指标)
A3(锦上添花):患者教育、多学科协作建议等
缺少 A2,再 " 正确 " 的建议也可能导致临床误用。
3、P(Perturbation)鲁棒性:真实患者不会照着教科书说话。GAPS 通过三类扰动测试模型抗干扰能力:
P1:语言噪音(口误、方言)
P2:冗余信息(无关症状堆砌)
P3:对抗性前提(如诱导性错误假设)
实验显示,多数模型极易被误导,甚至顺从用户的错误引导。
4、S(Safety)安全底线:医疗容不得 " 差不多 "。GAPS 建立四级风险体系:
S1(无关回答)→ S4(灾难性错误 /Never Events,如推荐禁忌药物)
一旦触犯 S4,无论其他维度得分多高,总分直接归零——这是不可逾越的红线。
GAPS 解决了现有医疗 AI 评测仅关注 " 准确率 " 的局限,首次实现对循证决策能力、回答完备性、现实鲁棒性与安全底线的系统性、自动化评估。
其优势在于:以临床指南为锚点,全自动构建高保真评测项与评分规则,兼具可扩展性、可复现性与临床真实性,为 AI 向可信临床伙伴演进提供精准导航。
核心黑科技:全自动化的 " 循证评测集 " 流水线
GAPS 最大的技术亮点在于其端到端自动化与可扩展性。
不同于以往依赖人工命题,GAPS 构建了一套基于临床指南(Guidelines)的自动化生成工厂:
证据邻域构建:以 NCCN、ESMO 等权威指南为核心,自动抓取 3 跳内引用文献,构建高可信医学知识图谱与疾病话题树;
Deep Research Agent:基于GRADE方法学,模拟人类专家围绕 PICO(人群、干预、对照、结果)展开的证据检索、证据评估、强弱推荐的流程,自动生成带证据等级与推荐强度的高质量评分细则;
虚拟患者生成:利用大模型合成去隐私化临床病例,并精准对齐知识图谱,确保每道题 " 有据可依、有理可循 "。
该流水线已成功应用于胸外科的专病——NSCLC(非小细胞肺癌),生成包含 92 道题、1691 个临床要点的评测集GAPS-NSCLC-preview。
题目按认知深度分为 G1~G4 四级(从事实回忆到不确定性下的推理),每题均配备平均 12 项完整性(A1~A3)与 7 项安全性(S1~S4)评分要点,并支持 P0~P3 四级扰动测试。
未来可快速扩展至心血管、儿科、内分泌等任意专科的专病领域——只要有指南,就能生成高质量评测集。

可靠的裁判:自动化评测让 AI 医疗能力可量化、可复现、可进化
GAPS 评测集同时搭配了一套高可靠性的自动化评测框架,实现了对 AI 临床能力的客观、细粒度、端到端的自动化评估。
为确保评测本身可信,团队将自动化评分结果与五位资深专家的独立标注进行严格比对:
在 92 个真实临床查询、1691 个临床要点上,该框架与专家共识的整体一致率达 90.00%,Cohen ’ s Kappa 系数达 0.77(" 实质性一致 "),Macro-F1 达 0.88 ——不仅显著优于现有基准(如 HealthBench 中 GPT-4 的 0.79),已达到人类专家间一致性水平(88.5%~92.0%)。
这证明 GAPS 评测集的自动评判能力具备专家级可靠性。
在此基础上,评测不再是终点,而是进化的起点。
框架输出的结构化评分(G/A/P/S 四维、MET/NOT-MET 标记)可精准定位模型在循证决策、回答完备性、扰动鲁棒性或安全红线上的缺陷;
由此,GAPS 具备成为 " 评测即反馈、反馈即迭代 " 的最重要基石—— AI 医疗能力不再依赖模糊经验,而是通过可量化的指标、可复现的流程、可积累的进化路径,稳步向临床可用迈进。

实战揭秘:顶尖大模型的 " 滑铁卢 "
研究团队使用 GAPS 对 GPT-5、Gemini 2.5 Pro、Claude Opus 4、Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3.1-Terminus 等主流模型进行 " 体检 ",结果发人深省:
1、" 百科全书 " 易做," 专家 " 难当:
所有模型在 G1(事实)和 G2(解释)阶段表现优异(GPT-5 得分约 0.72)。但一旦进入 G3(确定性决策)和 G4(非确定性推理),分数呈断崖式下跌,GPT-5 在 G4 阶段跌至 0.45,其他模型甚至跌破 0.35。这说明 AI 目前还只是 " 背书机器 ",而非 " 推理伙伴 "。

2、不仅要 " 对 ",还要 " 全 ":
在 Adequacy(完备性)测试中,模型往往只给出核心建议(A1),却忽略了关键的限定条件(A2),导致临床建议缺乏可操作性。

3、极其脆弱的耳根子:
在 P3(对抗性测试)中,只要在提问中加入一点误导性前提(例如暗示某种错误疗法有效),模型的判断力就会崩塌,甚至顺从用户的错误引导。

4、安全隐患:
虽然 GPT-5 和 Gemini 2.5 在极高风险错误(S4)上控制较好,但在复杂的推理场景下,部分模型(如 Claude Opus 4)的致命错误率随难度显著上升。

结语:GAPS 评测框架是 AI 医生从 "Chatbot" 到 "Doctor" 的必经之路
GAPS 的发布,标志着医疗 AI 的评测标准从" 考试分数 "向" 临床胜任力 "的范式转移。
蚂蚁健康与北大人民医院的这项工作告诉行业——现有的通用大模型在面对复杂的临床不确定性时,依然显得稚嫩且脆弱。
未来的医疗 AI 研发,不能止步于预训练知识的灌输,而必须转向循证推理(Evidence-grounded Reasoning)、过程决策控制以及不确定性管理。
GAPS 不仅仅是一个榜单,它更是医疗 AI 进化路上的 " 磨刀石 "。只有跨越了 GAPS 设定的这四道关卡,AI 医生才能真正放心地走进诊室。
论文地址:
https://arxiv.org/abs/2510.13734
评测集地址:
https://huggingface.co/datasets/AQ-MedAI/GAPS-NSCLC-preview
自动化评测框架地址:
https://github.com/AQ-MedAI/MedicalAiBenchEval
* 本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦