如何把"医学证据"写进AI底层？医学AI氢离子发布

凌晨 1 点，某三甲医院急诊科。一位急性心梗合并心衰的患者被紧急送入，血压 185/105 mmHg，血氧仅 91%。护士催促医生确认替格瑞洛剂量——患者肾功能受损，标准剂量可能引发脑出血，减量又担心支架血栓。

在浩瀚的指南与文献中寻找答案，医生只有 3 分钟。过去，这需要翻查 PubMed、指南 PDF、药品说明书，耗时十几分钟。现在，一位试用 " 氢离子 " 的急诊科主任说：" 没想到不到 10 秒就出了结果。"

互联网医疗可以提升就诊效率，但医学 AI 才能帮助医生提高临床与科研效率。

5 月 13 日，阿里健康正式发布医学 AI 产品 " 氢离子 "，定位为 " 可靠的医学 AI 助手 "。同时宣布与英国 BMJ 集团达成独家合作，旗下 70 本医学期刊过去十年的内容资源接入系统。这是国际顶级期刊首次与中国 AI 平台达成此类合作。

通用大模型不被严肃医疗领域认可？

过去一年，大模型席卷各行各业，医疗领域也不例外。但一个困境越来越明显：一旦进入严肃医学场景，通用大模型的能力迅速塌陷。

最让医生头疼的是 " 幻觉 "。一项发表于英国皇家外科医学院官方期刊的研究显示，某些主流 AI 平台生成的医学参考文献中，超过三分之一可能是伪造的。Grok 3 的引用幻觉率高达 33.6%，DeepSeek DeepThink 为 25%。

这些 " 幻觉引用 " 看起来非常真实，甚至带有虚构的诊所链接。但对胸外科这样极度硬核的诊室，一个杜撰的结论，危害不亚于误诊。

业界普遍将检索增强生成（RAG）奉为圭臬，认为它能通过检索外部资料纠正大模型的信口雌黄。但最新研究给出了反直觉的结论：加入 RAG 后，大模型的无依据声明率从 5.0% 飙升至 43.6%，错误概率增加了 8.7 倍。

原因很简单：临床文本高度非结构化，充满上下文依赖和相互冲突的证据。RAG 很容易检索出 " 语义上高度相似，但实际上属于其他患者 " 的病历片段，而大模型会以此为据凭空捏造。

如何把 " 医学证据 " 写进 AI 底层？

答案其实简单：从信息源头杜绝低质信源污染，不采用互联网信息，只采信国内外医学顶刊、文献、指南。

但做起来极难。

国际顶刊有着严苛的合作标准，尚未有与 AI 平台合作的先例。

阿里健康凭借技术和综合实力，与 BMJ 集团达成期刊内容独家合作。发布会现场，国际几个医学顶刊也系数到场站台，氢离子透露，正在与多家国际顶刊沟通洽谈中。国内的中华医学会、人民卫生出版社、中国抗癌协会也早已签约合作。

吸引顶刊的，可能真的是 " 可靠 " 的产品实力，阿里健康在发布会上首次披露了 " 四层循证架构 "：

第一层，证据理解。不是直接 " 读文字 "，而是用 PICO 框架（人群、干预、对照、结果）和 GRADE 标准（证据等级评级）将医学文本转化为可结构化、可追溯的证据单元。

第二层，结构化检索。基于 PICO，检索逻辑从 " 搜词 " 升级为 " 搜结构 "。例如 " 布洛芬能不能比对乙酰氨基酚更快让儿童退烧？" 系统不会简单搜关键词，而是自动转化为标准循证问题，检索出的文献更像在回答临床问题，而非凑关键词。

第三层，模型对齐。通过 Reward 模型和 Rubrics 评分体系，让 AI 学会 " 什么是好答案 " ——低幻觉、可追溯、符合循证规范。

第四层，专家闭环。超 300 位中国临床专家组成委员会，持续对 AI 输出进行 " 找茬、打分与修正 "。黄晓军、肖瑞平、于金明等 10 位顶级专家把关学术方向，数百位来自复旦百强医院的评测医生持续验证。

从 " 搬运成本 " 到 " 一次提问 "

很多医生手机里常年装着 5～6 个医学 App，因为它们大多只是单点工具。" 氢离子 " 试图把这些 " 搬运成本 " 压缩成一次提问。

一位三甲急诊科主任医师试用后，在 88 天内登录高达 193 次。他反馈最集中的关键词是 " 可信 " 和 " 可靠 "，尤其是对 " 循证问答 " 评价极高。

AI 不仅明确推荐用药方案，还加粗标注依据来源——中华医学会 2025 年最新治疗指南。点击后可直接查看电子化指南原文，不再需要翻找笨重的 PDF。更关键的是，它不是简单高亮一整段文本，而是定位到真正决定结论的 " 关键三行 "。

医生看到的不只是 " 这篇文章可能相关 "，而是 " 依据具体在哪里 "。与此同时，回答还引入了时效性（"2025 年 "）和权威性（" 中华医学会的指南 "）两个维度。

正如珠江医院胸外科主任乔贵宾所言：" 这才是医学 AI 该有的样子。它不替你做判断，而是帮你更快找到做判断的依据，并且让你看清它是从哪儿找来的。"

当繁重的循证检索被 AI 降维打击，医生们偶尔也会聊起：如果所有循证工作都被 AI 代劳了，医生还需要什么？

大家的答案很一致：向本源的回归——练就临床判断力。因为敲定最终方案，还要取决于医生的综合评估。

在这个信息爆炸的时代，谁额能帮医生把时间从找资料里抢回来，谁能言之有物严格循证，谁能迅速给出精准的高等级证据，才是真正的临床刚需。医生将有更多时间留给思考、决策与关怀。

深度解读：阿里健康刚刚发布的医学 AI 氢离子能帮医生做什么？

如何把 " 医学证据 " 写进 AI 底层？医学 AI 氢离子发布