《自然》刊登研究：AI在给出诊断和治疗决策可以媲美甚至超越医生

两款专业医疗 AI 工具在受控模拟测试中展现出超越人类医生的临床表现，但研究人员和独立专家均警告，这一结果尚不意味着相关工具已准备好用于真实临床环境。

据英国《金融时报》周三报道，两项研究结果于周三发表在学术期刊《自然》上。其中，由德国研究人员开发的 Mira 在包括胰腺癌和肺炎在内的多种疾病分析中超越了医生；谷歌开发的 Amie 则在治疗方案和检查计划的制定上比人类医生更为精准。这是专业医疗大语言模型在证明临床价值方面迈出的最新一步。

上述研究结果对医疗 AI 赛道具有重要的市场信号意义，表明专业医疗 AI 工具在特定场景下已能提供优于通用消费级 AI 模型的医疗建议。不过，研究人员和独立专家均强调，测试在受控模拟条件下进行，两款工具目前均不具备直接应用于真实临床场景的条件。

Mira：诊断准确率达 87%，超越六位专科医生

Mira 由德累斯顿工业大学和海德堡大学的学术团队联合开发，能够调取电子健康档案系统中的患者数据，并从逾 85000 个选项中做出决策，涵盖诊断检测、药物处方及手术安排等。

研究团队以超过 500 个急诊科临床病例的信息对 Mira 进行测试，这些信息通过模拟患者的 AI 代理以对话形式传递给系统。根据《自然》论文，Mira 在阑尾炎、肺栓塞等八种病症上的综合诊断准确率达到 87.1%，而由六位跨专科医生组成的评审小组的准确率为 78.1%。

参与开发 Mira 的 Jakob Kather 表示，" 我们正在预览 AI 如何改变医学。" 他将 AI 代理比作飞机自动驾驶系统，认为其可以承担常规任务、为医疗专业人员减负，但 " 最终责任始终由医生承担 "。

研究人员同时承认 Mira 存在局限性。论文指出，该工具仍会对 " 少数但不可忽视 " 的患者提出 " 偏离最佳实践 " 的诊疗建议。此外，AI 代理提供的病例信息可能比急诊室患者的真实陈述 " 更为结构化 "，遗漏和前后矛盾之处更少。

Amie：治疗方案更贴近临床指南，但存在潜在推理错误

谷歌的 Amie 基于其 Gemini AI 模型构建，通过接收扮演患者的演员所提供的数据来生成回应。研究人员将 Amie 与 21 位全科医生在 100 个多次就诊案例场景中进行对比测试，这些场景以英国现行临床实践指南和药物推荐为基准。

结果显示，Amie 在患者管理推理能力上与真实医生持平，且其制定的方案与临床指南的契合度高于人类医生。在复杂病例的用药推理方面，Amie 的表现超越了人类医生。

Amie 的开发团队将这一结果定性为 " 里程碑 "，但同时指出，测试所用的病例组合及基于文本的患者场景均不能代表真实临床环境。他们表示，Amie 展现出 " 令人期待的能力 "，但 " 尚未准备好转化为真实应用 "，仍需进一步解决潜在推理错误等问题。

独立专家：模拟环境与真实临床之间仍存在显著差距

未参与上述研究的独立专家对两项研究的严谨性给予肯定，但同样对其局限性提出警示。

牛津大学医学社会学教授 Catherine Pope 表示，" 这与日常医疗保健中混乱、复杂的人类世界仍有相当距离。"

爱丁堡大学健康信息学与数据科学讲席教授 Julie Jacko 指出，AI 模型所体现的优势大多反映的是其方案的 " 精确性和完整性 "，而非 " 临床正确性上的明显差异 "。她认为，这是 " 一项有力的实验研究，是有意义的进步，但它展示的是在结构化标准下的表现，而非完整呈现真实临床决策的复杂性 "。

谢菲尔德大学数学与物理科学学院助理教授 Wei Xing 则对 Amie 优势的来源提出疑问。他指出，在某一基准测试中，通用 AI 模型的得分与 Amie 相近，" 这表明 Amie 的优势可能更多反映的是 AI 模型整体的快速进步，而非其专门构建的系统本身的特殊性 "。