中国500万医生的新AI：顶刊独家联手，卷的就是证据源

很反差。

明明是一场 AI 的发布会，台下却坐满了医学界的大佬们：

有北大、清华的，有浙江、上海的，甚至医学顶刊 BMJ 集团的主编都来围观了……

△图片由 AI 生成

为啥会这样？

因为阿里健康正式发布了一个新的医学 AI产品——氢离子，主打的就是靠谱的医学 AI 助手。

或许你还会有疑问，现在通用大模型、医疗 AI 不是蛮多的么，阿里健康干嘛还要再另起炉灶啊？

好问题。

阿里健康 CTO王祥志在现场举的例子，就直击了这个问题的七寸。

他用专业的 Prompt 来约束通用大模型：

你必须要查询专业的文献，告诉我氟泽雷塞的使用注意事项，当病人出现漏服到底怎么办的时候？

结果，通用大模型一本正经地给出了错误的补服建议……

在容错率极低的医学场景下，这绝对是个 Big Problem。

除此之外，在 " 用 " 这件事上，也有问题。

目前中国 50% 的医生，会通过 4 个以上的 APP 来解决他们的问题，包括查询用药、查询临床指南，查询中英文文献还要再去不同的论文网站……

所以，氢离子要做的事情就一目了然了。

不仅是要更聪明，最重点的是，要让中国 500 万医生用得够可靠、够方便。

把靠谱的证据摆到 500 万医生面前

首先需要厘清一个核心概念。

氢离子不是医生用来给患者看病的那种 AI，它是专门解决中国 500 万医生查证据慢、找文献难、读英文累、不同工具来回切换，以及通用 AI 容易说胡话等痛点的。

为此，氢离子甩出了三板斧，精准直击痛点。

循证智能问答，每句话都有迹可循

医生可以用自然语言来提问，例如：

糖尿病肾病 SGLT2 抑制剂最新指南。

甚至医生们还可以通过语音、图片、病例文本等方式表达需求，系统会再根据问题拆解意图、检索证据、组织答案：

但更重要的是，答案可不只是完整回答那么简单。

氢离子强调，每个答案背后都会有指南、文献、说明书等医学证据支撑，并且可以定位到原文中的具体段落：

医生点击对应引用，就能看到证据来自哪篇文献、哪一部分原文，以及原文如何支持这个结论。

这点对医学 AI 非常关键。

因为医生真正需要的，正是一个能把证据链摆清楚的助手。

AI 给出结论之后，医生必须能回头检查：这个结论依据的是指南、RCT 研究、真实世界研究，还是某种较弱证据？它适用的人群是谁？样本量多大？是否和眼前患者相似？

如此一来，在查得快，且找得准的基础上，才能把核对证据的权利完完整整地交还给医生。

精准文献搜索，独家牵手国际顶刊

阿里健康正式宣布与英国 BMJ 集团达成期刊内容独家合作。作为全球最具影响力的医学期刊之一，BMJ 集团旗下 70 本医学期刊过去十年间发表的所有内容和多媒体资源，将独家授权提供给氢离子。

这意味着，氢离子成为了国内唯一一个在站内就能直接阅读 BMJ 集团海量顶级文献的医学 AI 助手。

据了解，在此之前，氢离子已经与中华医学会、人民卫生出版社、中国抗癌协会等国内权威机构打通了数据。

一句话搜遍国内外顶刊，氢离子在证据源的丰富度与权威性上，已然筑起了区别于其它 AI 的护城河。

AI 文献速读和医学翻译

对医生来说，找到论文只是第一步，读懂才是更费时间的部分。

一篇 SCI 论文，尤其是临床研究论文，医生往往需要花不少时间拆解，包括研究目的是什么、纳入了哪些人群、干预措施和对照组是什么、对真实临床有什么参考价值等等。

在过去，医生们可能需要 1 到 2 小时才能提取一篇文献的核心内容；但有了氢离子，这个时间被压缩到了3 到 5 分钟！

同时，氢离子还提供医学术语翻译和中英对照阅读，正如王祥志在现场提到的：

团队面对面访谈中，有超过 80% 的医生表示阅读英文医学内容时需要借助各种翻译工具，尤其是专业术语和生僻表达。

为什么氢离子不会说胡话？

能读懂长难句、能做总结翻译，这在今天的大模型圈似乎已经是基操。

但真正让能台下数百位严苛的医学专家点头认可的，是氢离子在底层逻辑上对医学严谨性的死磕。

通用大模型之所以会说胡话，是因为它的本质是基于概率的文字接龙；但王祥志认为，在容错率极低的医疗行业，AI 必须被戴上紧箍咒，懂得敬畏边界。

为此，氢离子给出了一套完全不同于通用大模型的公式：

医学证据 + 循证医学 + AI = 更可靠的医学 AI 助手。

AI 被放在了最后，而循证医学的框架被前置到了算法的每一个毛细血管中。

具体而言，氢离子打造了一套全链路的四层循证 AI 架构。

第一层，是证据理解层。

毕竟医学文献不是普通网页，它里面有研究对象、干预措施、对照组、结局指标、样本规模、研究类型、证据等级等一整套结构。

氢离子会基于 PICO 框架和 GRADE 标准，对文献和指南进行结构化理解。

（注：PICO 是循证医学里常用的问题拆解框架，分别对应 Patient/Population、Intervention、Comparison、Outcome，也就是研究人群、干预措施、对照方式和结局指标；GRADE 则常用于评价证据质量和推荐强度。）

用更通俗的话说，氢离子是先让 AI 读懂这条证据到底在研究谁、用了什么方法、和谁比较、得出了什么结果，以及这条证据到底有多强。

这一步决定了后面所有回答的底座。

第二层，是精准检索层。

医生提问往往非常复杂，尤其是带有真实病例背景的问题。模型不能只做关键词匹配，更要理解这个问题对应的医学结构。

比如，一个患者的年龄、疾病阶段、合并症、用药史、不良反应，都可能影响证据是否适用。氢离子在检索阶段引入 PICO 语义匹配，就是为了把医生的问题和医学证据之间建立更细的连接。

一言蔽之，这类检索是为了找到真正适用的证据。

第三层，是模型微调和强化。

通用大模型训练的是广泛语言能力，而医学 AI 要额外学会什么叫准确、忠实循证、安全有用。

这意味着模型要学会在证据范围内组织答案，遇到证据不足、指南不一致、适用人群有限的情况，也要把边界说清楚。

这也是氢离子反复强调 " 助手 " 二字的原因。

它不替医生做决定，相反，是把可追溯的证据、证据等级、适用范围和可能限制整理给医生。

因此，最终诊断和治疗责任，仍然在医生手里。

第四层，是专家评审层。

氢离子宣布成立医学 AI 专家委员会，邀请 300 多位中国临床专家共同参与医学 AI 评价标准和数据集建设。

这一体系包括学术方向把关、评测标准制定，以及一线医生对 AI 回答的持续验证和反馈。

这套机制的意义在于，医学 AI 不能只在技术榜单上自证优秀。

医疗是一个高度依赖专业共识和临床验证的领域，一个回答到底有没有用，不能只看模型分数，更要看临床医生是否认可、证据链是否扎实、边界是否清晰、是否经得起真实问题反复检验。

从这个角度看，氢离子的四层架构更像一个质量控制系统——

先理解证据，再精准检索，再训练模型按循证逻辑回答，最后交给专家体系持续校验。

这也是医学 AI 和普通 AI 产品最大的分野。

中国医学 AI，开始定义标准了

纵观整场发布会，最大的感受不只是阿里健康发了一个新 APP，也不只是与 BMJ 集团达成独家合作。

重点应该在于一个变化——

医学 AI 正在从能不能回答问题，进入到答案如何被验证的阶段。

过去，很多医疗 AI 产品更像是检索工具、问答工具、辅助写作工具。它们确实提高了效率，但也常常让医生陷入新的不确定，AI 说得很像对的，但我怎么知道它真的对。

氢离子的答案是，把 AI 拉回循证医学框架里。

它不把模型本身包装成权威，而是把权威交还给证据、指南、文献和专家评审；AI 在其中扮演的角色，是连接、总结、翻译、定位和推理。

这种定位比较克制，也更符合医学场景。

在圆桌论坛中，北京大学人民医院血液科副主任医师刘竞谈到一个很现实的问题：

当 AI 推荐和现行指南不一致时，医生应该相信谁？

她的回答不是二选一，而是既不固守可能已经过时的指南，也不盲目依赖 AI 推荐。指南是临床行医的基本框架，AI 则可以补充最新证据、特殊人群和复杂病例中的信息缺口。

这其实说出了医学 AI 最合理的位置：应当是医生和快速增长的医学证据之间的连接器。

从生产力角度看，它能把医生从大量重复性的资料检索和初步阅读中解放出来。

医生最宝贵的能力，不是记住每篇论文，也不是手动翻遍所有数据库，而是在证据、人群、病情、风险、患者意愿之间做综合判断。AI 越能把底层证据整理清楚，医生越能把时间花在真正复杂的临床逻辑和人文沟通上。

从医疗资源角度看，它也有机会缩小不同地区医生之间的信息差。

在大城市三甲医院，医生更容易接触国际会议、前沿文献和高水平学术交流；但在基层或资源相对有限的地区，医生获取顶级医学证据的路径往往更长。氢离子希望解决的，正是这种证据可及性问题。

当然，这件事不能说得太满。

一个医学 AI 工具能否真正改变医生工作方式，还要看长期使用效果，看证据覆盖是否持续完善，看回答质量是否经得起更多真实临床问题检验，也看它能否在医生群体中建立足够信任。

但至少可以确定的是，医学 AI 的竞争重点已经变了——

谁能更好地回答 " 证据从哪来、是否可信、如何验证、适用边界是什么 "，谁才更接近医生真正需要的 AI。

毕竟，对医生来说，一个 AI 助手最重要的能力，从来不是说得多漂亮。

而是每一句话，都有迹可循。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见