健康快讯网 13小时前
如何把"医学证据"写进AI底层? 医学AI氢离子发布
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_renwen1.html

 

凌晨 1 点,某三甲医院急诊科。一位急性心梗合并心衰的患者被紧急送入,血压 185/105 mmHg,血氧仅 91%。护士催促医生确认替格瑞洛剂量——患者肾功能受损,标准剂量可能引发脑出血,减量又担心支架血栓。

在浩瀚的指南与文献中寻找答案,医生只有 3 分钟。过去,这需要翻查 PubMed、指南 PDF、药品说明书,耗时十几分钟。现在,一位试用 " 氢离子 " 的急诊科主任说:" 没想到不到 10 秒就出了结果。"

互联网医疗可以提升就诊效率,但医学 AI 才能帮助医生提高临床与科研效率。

5 月 13 日,阿里健康正式发布医学 AI 产品 " 氢离子 ",定位为 " 可靠的医学 AI 助手 "。同时宣布与英国 BMJ 集团达成独家合作,旗下 70 本医学期刊过去十年的内容资源接入系统。这是国际顶级期刊首次与中国 AI 平台达成此类合作。

通用大模型不被严肃医疗领域认可?

过去一年,大模型席卷各行各业,医疗领域也不例外。但一个困境越来越明显:一旦进入严肃医学场景,通用大模型的能力迅速塌陷。

最让医生头疼的是 " 幻觉 "。一项发表于英国皇家外科医学院官方期刊的研究显示,某些主流 AI 平台生成的医学参考文献中,超过三分之一可能是伪造的。Grok 3 的引用幻觉率高达 33.6%,DeepSeek DeepThink 为 25%。

这些 " 幻觉引用 " 看起来非常真实,甚至带有虚构的诊所链接。但对胸外科这样极度硬核的诊室,一个杜撰的结论,危害不亚于误诊。

业界普遍将检索增强生成(RAG)奉为圭臬,认为它能通过检索外部资料纠正大模型的信口雌黄。但最新研究给出了反直觉的结论:加入 RAG 后,大模型的无依据声明率从 5.0% 飙升至 43.6%,错误概率增加了 8.7 倍。

原因很简单:临床文本高度非结构化,充满上下文依赖和相互冲突的证据。RAG 很容易检索出 " 语义上高度相似,但实际上属于其他患者 " 的病历片段,而大模型会以此为据凭空捏造。

如何把 " 医学证据 " 写进 AI 底层?

答案其实简单:从信息源头杜绝低质信源污染,不采用互联网信息,只采信国内外医学顶刊、文献、指南。

但做起来极难。

国际顶刊有着严苛的合作标准,尚未有与 AI 平台合作的先例。

阿里健康凭借技术和综合实力,与 BMJ 集团达成期刊内容独家合作。发布会现场,国际几个医学顶刊也系数到场站台,氢离子透露,正在与多家国际顶刊沟通洽谈中。国内的中华医学会、人民卫生出版社、中国抗癌协会也早已签约合作。

吸引顶刊的,可能真的是 " 可靠 " 的产品实力,阿里健康在发布会上首次披露了 " 四层循证架构 ":

第一层,证据理解。不是直接 " 读文字 ",而是用 PICO 框架(人群、干预、对照、结果)和 GRADE 标准(证据等级评级)将医学文本转化为可结构化、可追溯的证据单元。

第二层,结构化检索。基于 PICO,检索逻辑从 " 搜词 " 升级为 " 搜结构 "。例如 " 布洛芬能不能比对乙酰氨基酚更快让儿童退烧?" 系统不会简单搜关键词,而是自动转化为标准循证问题,检索出的文献更像在回答临床问题,而非凑关键词。

第三层,模型对齐。通过 Reward 模型和 Rubrics 评分体系,让 AI 学会 " 什么是好答案 " ——低幻觉、可追溯、符合循证规范。

第四层,专家闭环。超 300 位中国临床专家组成委员会,持续对 AI 输出进行 " 找茬、打分与修正 "。黄晓军、肖瑞平、于金明等 10 位顶级专家把关学术方向,数百位来自复旦百强医院的评测医生持续验证。

从 " 搬运成本 " 到 " 一次提问 "

很多医生手机里常年装着 5~6 个医学 App,因为它们大多只是单点工具。" 氢离子 " 试图把这些 " 搬运成本 " 压缩成一次提问。

一位三甲急诊科主任医师试用后,在 88 天内登录高达 193 次。他反馈最集中的关键词是 " 可信 " 和 " 可靠 ",尤其是对 " 循证问答 " 评价极高。

AI 不仅明确推荐用药方案,还加粗标注依据来源——中华医学会 2025 年最新治疗指南。点击后可直接查看电子化指南原文,不再需要翻找笨重的 PDF。更关键的是,它不是简单高亮一整段文本,而是定位到真正决定结论的 " 关键三行 "。

医生看到的不只是 " 这篇文章可能相关 ",而是 " 依据具体在哪里 "。与此同时,回答还引入了时效性("2025 年 ")和权威性(" 中华医学会的指南 ")两个维度。

正如珠江医院胸外科主任乔贵宾所言:" 这才是医学 AI 该有的样子。它不替你做判断,而是帮你更快找到做判断的依据,并且让你看清它是从哪儿找来的。"

当繁重的循证检索被 AI 降维打击,医生们偶尔也会聊起:如果所有循证工作都被 AI 代劳了,医生还需要什么?

大家的答案很一致:向本源的回归——练就临床判断力。因为敲定最终方案,还要取决于医生的综合评估。

在这个信息爆炸的时代,谁额能帮医生把时间从找资料里抢回来,谁能言之有物严格循证,谁能迅速给出精准的高等级证据,才是真正的临床刚需。医生将有更多时间留给思考、决策与关怀。

深度解读:阿里健康刚刚发布的医学 AI 氢离子能帮医生做什么?

如何把 " 医学证据 " 写进 AI 底层? 医学 AI 氢离子发布

凌晨 1 点,某三甲医院急诊科。一位急性心梗合并心衰的患者被紧急送入,血压 185/105 mmHg,血氧仅 91%。护士催促医生确认替格瑞洛剂量——患者肾功能受损,标准剂量可能引发脑出血,减量又担心支架血栓。

在浩瀚的指南与文献中寻找答案,医生只有 3 分钟。过去,这需要翻查 PubMed、指南 PDF、药品说明书,耗时十几分钟。现在,一位试用 " 氢离子 " 的急诊科主任说:" 没想到不到 10 秒就出了结果。"

互联网医疗可以提升就诊效率,但医学 AI 才能帮助医生提高临床与科研效率。

5 月 13 日,阿里健康正式发布医学 AI 产品 " 氢离子 ",定位为 " 可靠的医学 AI 助手 "。同时宣布与英国 BMJ 集团达成独家合作,旗下 70 本医学期刊过去十年的内容资源接入系统。这是国际顶级期刊首次与中国 AI 平台达成此类合作。

通用大模型不被严肃医疗领域认可?

过去一年,大模型席卷各行各业,医疗领域也不例外。但一个困境越来越明显:一旦进入严肃医学场景,通用大模型的能力迅速塌陷。

最让医生头疼的是 " 幻觉 "。一项发表于英国皇家外科医学院官方期刊的研究显示,某些主流 AI 平台生成的医学参考文献中,超过三分之一可能是伪造的。Grok 3 的引用幻觉率高达 33.6%,DeepSeek DeepThink 为 25%。

这些 " 幻觉引用 " 看起来非常真实,甚至带有虚构的诊所链接。但对胸外科这样极度硬核的诊室,一个杜撰的结论,危害不亚于误诊。

业界普遍将检索增强生成(RAG)奉为圭臬,认为它能通过检索外部资料纠正大模型的信口雌黄。但最新研究给出了反直觉的结论:加入 RAG 后,大模型的无依据声明率从 5.0% 飙升至 43.6%,错误概率增加了 8.7 倍。

原因很简单:临床文本高度非结构化,充满上下文依赖和相互冲突的证据。RAG 很容易检索出 " 语义上高度相似,但实际上属于其他患者 " 的病历片段,而大模型会以此为据凭空捏造。

如何把 " 医学证据 " 写进 AI 底层?

答案其实简单:从信息源头杜绝低质信源污染,不采用互联网信息,只采信国内外医学顶刊、文献、指南。

但做起来极难。

国际顶刊有着严苛的合作标准,尚未有与 AI 平台合作的先例。

阿里健康凭借技术和综合实力,与 BMJ 集团达成期刊内容独家合作。发布会现场,国际几个医学顶刊也系数到场站台,氢离子透露,正在与多家国际顶刊沟通洽谈中。国内的中华医学会、人民卫生出版社、中国抗癌协会也早已签约合作。

吸引顶刊的,可能真的是 " 可靠 " 的产品实力,阿里健康在发布会上首次披露了 " 四层循证架构 ":

第一层,证据理解。不是直接 " 读文字 ",而是用 PICO 框架(人群、干预、对照、结果)和 GRADE 标准(证据等级评级)将医学文本转化为可结构化、可追溯的证据单元。

第二层,结构化检索。基于 PICO,检索逻辑从 " 搜词 " 升级为 " 搜结构 "。例如 " 布洛芬能不能比对乙酰氨基酚更快让儿童退烧?" 系统不会简单搜关键词,而是自动转化为标准循证问题,检索出的文献更像在回答临床问题,而非凑关键词。

第三层,模型对齐。通过 Reward 模型和 Rubrics 评分体系,让 AI 学会 " 什么是好答案 " ——低幻觉、可追溯、符合循证规范。

第四层,专家闭环。超 300 位中国临床专家组成委员会,持续对 AI 输出进行 " 找茬、打分与修正 "。黄晓军、肖瑞平、于金明等 10 位顶级专家把关学术方向,数百位来自复旦百强医院的评测医生持续验证。

从 " 搬运成本 " 到 " 一次提问 "

很多医生手机里常年装着 5~6 个医学 App,因为它们大多只是单点工具。" 氢离子 " 试图把这些 " 搬运成本 " 压缩成一次提问。

一位三甲急诊科主任医师试用后,在 88 天内登录高达 193 次。他反馈最集中的关键词是 " 可信 " 和 " 可靠 ",尤其是对 " 循证问答 " 评价极高。

AI 不仅明确推荐用药方案,还加粗标注依据来源——中华医学会 2025 年最新治疗指南。点击后可直接查看电子化指南原文,不再需要翻找笨重的 PDF。更关键的是,它不是简单高亮一整段文本,而是定位到真正决定结论的 " 关键三行 "。

医生看到的不只是 " 这篇文章可能相关 ",而是 " 依据具体在哪里 "。与此同时,回答还引入了时效性("2025 年 ")和权威性(" 中华医学会的指南 ")两个维度。

正如珠江医院胸外科主任乔贵宾所言:" 这才是医学 AI 该有的样子。它不替你做判断,而是帮你更快找到做判断的依据,并且让你看清它是从哪儿找来的。"

当繁重的循证检索被 AI 降维打击,医生们偶尔也会聊起:如果所有循证工作都被 AI 代劳了,医生还需要什么?

大家的答案很一致:向本源的回归——练就临床判断力。因为敲定最终方案,还要取决于医生的综合评估。

在这个信息爆炸的时代,谁额能帮医生把时间从找资料里抢回来,谁能言之有物严格循证,谁能迅速给出精准的高等级证据,才是真正的临床刚需。医生将有更多时间留给思考、决策与关怀。

评论
大家都在看