智东西 10-23
百川最强医疗大模型M2 Plus发布,幻觉率降到DeepSeek三成,超越美国爆火医疗AI产品
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 漠影

智东西 10 月 23 日报道,昨日,百川智能正式推出了 Baichuan-M2 Plus 医疗大模型,这也是业内首个 " 循证增强 " 医疗大模型。该模型在百川今年 8 月开源的 Baichuan-M2 医疗推理模型的技术基础上升级而来,是百川在医疗 AI 领域的最新探索。

M2 Plus 的核心亮点在于其首创的六源循证推理(Evidence-Argumented Reasoning, EAR)范式。这一创新机制对通用大模型在医疗领域长期存在的幻觉问题,提出了有效解决方案,让 AI 不再 " 闭门造车 ",而是有理有据地回答问题。

评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,仅为 DeepSeek-R1 最新版的 1/3 左右,甚至优于美国最受欢迎的医疗 AI 产品 OpenEvidence。

更令人瞩目的是,在多项国际与国内权威医学考试中,M2 Plus 均展现了超越人类医生的水平:它在美国执业医师资格考试(USMLE)中取得 97 分的高分,与 GPT-5 位列全球第一梯队。

在中国执业医师资格考试(NMLE)中,M2 Plus 以 568 分的成绩,远超及格线 360 分,领先于所有公开测试的主流模型。

这一系列成绩不仅展示了 M2 Plus 在医疗知识运用上的领先优势,也凸显了 " 循证增强 " 方法在解决医疗 AI 幻觉问题上的潜力。

一、幻觉成大模型落地医疗最大难点,循证医学如何成为可靠出路?

长期以来,医疗 AI 面临的最大瓶颈便是 " 幻觉 " 问题。通用大模型在医疗应用中,往往表现为 " 知识丰富但不可靠 "。即便加入了检索增强或知识库接入机制,也难以完全避免错误或虚构内容。

这种不确定性在医疗领域尤为致命,因为一条错误的建议可能带来严重后果。正因如此,尽管中国并不缺乏医疗 AI 产品,但医院对其实际采用始终相对谨慎。

而在大洋彼岸,美国的 OpenEvidence 却成功实现了落地。数据显示,美国已有约 40% 的医生在临床场景中注册使用该产品,每月咨询量高达 1650 万次。

与通用大模型不同,OpenEvidence 的最大亮点是有理有据的医疗问答。例如,它能从海量文献中搜索相关信息,为医生决策提供清晰、有依据的回答。

OpenEvidence 的成功为业界提供了重要启示:要让 AI 在医疗领域真正落地,关键不仅在于 " 大模型 " 本身,而在于是否遵循了现代医学的核心逻辑——循证医学(Evidence-Based Medicine, EBM)。

循证医学理念诞生于 20 世纪 90 年代,强调医学决策必须建立在系统整合的最佳研究证据、医生临床经验以及患者真实需求的基础上。它摒弃了 " 凭经验行医 " 的传统模式,而强调科学、客观、可验证的诊疗路径。

在实践上,EBM 遵循完整的 "5A 流程 ":提出问题(Ask)、检索证据(Acquire)、评估质量(Appraise)、应用结果(Apply)以及持续评估(Assess)。其中核心思想是让所有临床判断都 " 有据可依 "。

在这一框架下,医学知识被划分为从低到高不同可信度的层级,最可靠的研究位于金字塔顶端,如系统综述、Meta 分析或随机对照试验(RCT)。这种分层机制通过关注最强的证据,以最大限度地减少偏倚,并增加做出最佳临床决策的可能性。

百川智能正是从循证医学理念中汲取灵感,提出了 " 六源循证推理范式 "。他们认为,循证不应只是医生的工作原则,更应成为智能系统的底层原则。

基于此,百川在模型设计上引入了 " 证据分层 +PICO 检索 + 动态更新 " 的逻辑,使模型能够像医生一样识别、筛选并权衡不同层级的医学证据,最终打造出 Baichuan-M2 Plus 这一业内首个循证增强的医疗大模型。

二、首创六源循证推理范式,让 AI 回答 " 有理有据 "

循证医学强调有据可依,因此,百川在知识来源上下了大功夫。他们首先屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,并在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系。

从基础到应用,六源循证范式实现了从知识广度到可信度的全覆盖。

最底层是原始研究层,索引了超过 4000 万篇医学期刊论文,数量甚至超过 PubMed 收录量,这些基础与临床研究成果构成了循证链条的起点,用来回答 " 事实是否存在 "。

第二层是证据综述层,整合系统评价和 Meta 分析等高等级证据,提供经过多项研究汇总后的结论,回答 " 结论是否一致 "。

第三层为指南规范层,汇聚国内外权威机构发布的临床指南、专家共识和行业标准,确保模型的回答符合最新医学规范,回答 " 行业如何规范 "。

第四层是实践知识层,收录临床病例报道、一线专家经验和诊疗技巧等实用内容,更贴近真实的医疗场景,回答 " 医生应如何决策 "。

第五层为公共健康教育层,整合权威科普与公共卫生知识,用于健康教育与患者沟通,回答 " 患者应如何理解 "。

第六层是监管与真实世界层,涵盖药监部门公告、临床试验登记及大规模真实世界研究数据,反映最新的监管趋势与人群研究结果,回答 " 是否存在新风险 "。

通过这六层结构,M2 Plus 将原始研究到权威指南的信息系统整合,使模型在生成医学结论时从根本上做到 " 有据可依 "。

不过,光是找到证据还不够,百川智能在循证检索中追求的是找到最准确、最可靠的医学信息。

M2 Plus 借鉴了循证医学常用的检索框架 PICO,即人群(Population)、干预 (Intervention)、对照(Comparison)、结局(Outcome),并打造了基于 PICO 的搜索系统,让大模型具备临床医生式的提问与检索能力。

这一框架把查询转化为结构化医学问题,并在六源数据库中进行分层匹配。强化学习驱动的多层 PICO 查询生成机制,可将用户问题拆解为多个专业的 PICO 查询,进行 " 地毯式 " 证据搜索,兼顾精度与广度。

在搜索算法的基础上,百川自研了 Medical Contextual Retrieval 技术,使每段检索文献片段在分割、召回与排序中均能保留完整的 PICO 语义线索,减少因信息割裂造成的错误。

此外,PICO 搜索系统还拥有 PICO-aware 重排序模型,能像审稿人一样自动评估证据等级,并将最可信、PICO 匹配最完整的铁证优先呈现。

" 六源循证 " 和 "PICO 智能检索 ",分别解决了医疗 AI 知识从哪儿来和如何快速找到正确证据这两大关键难题。然而,要输出可靠的医学结论,仍需模型具备循证推理与专业判断的综合能力,使其不仅能 " 找对证据 ",更能 " 用对证据 "。

百川智能在 M2 Plus 中加入了 " 循证强化训练 " 机制,帮助模型提升材料鉴别力和回答准确率,鼓励模型优先选择权威信源,同时惩罚无凭无据的臆测,对正确的材料引用提供额外的引用格式奖励,最终打造出 M2 Plus 模型 " 规范引用 + 遵循事实求证 " 的回答风格。

这一机制保证了模型在手握证据时,不会 " 自由发挥 "、脱离事实胡乱回答,赋予了 AI 回答更高的可解释性与可信赖度。

三、当 AI 学会循证医学,一线医生评价如何?

六源循证 +PICO 智能检索 + 循证强化训练的配合,让 M2 Plus 的幻觉大幅减少。在多场景评测中,其综合幻觉率在所有大模型当中最低,仅为 DeepSeek-R1 的 1/3,也低于 OpenEvidence 和 GPT-5 等海外头部产品。

M2 Plus 还在多国医疗考试中,大幅领先于人类医生。美国执业医师资格考试(USMLE)被广泛视为评估临床知识与推理能力的全球权威标准。该考试难度极高,即便经验丰富的临床专家,成绩突破 90 分也属罕见。最新测试显示,Baichuan-M2 Plus 在 USMLE 中取得 97 分,显著高于人类考生平均水平,其表现与 GPT-5 相当,位列全球领先阵营。

在中国,执业医师资格考试(NMLE)及格线为 360 分,一般而言,考生能取得 450 分以上属于高分,超过 500 分被视为 " 学神 " 级别。M2 Plus 在该考试中取得 568 分的成绩,在所有公开测试的主流大模型中位列第一,显示其对中国临床指南和医疗实践的掌握已达到较高水平。

在难度更高、知识面更广、题目设计极为复杂的中国硕士研究生招生考试临床医学综合能力(西医)上,M2 Plus 取得了 282 分的成绩。对人类考生而言,能考到 280 分以上的往往都是都是协和、北医等顶尖学府的头部学霸。

同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,M2 Plus 的准确率达 85% 以上,远超各国及格线。

考试之外,M2 Plus 也获得了临床医生的高度认可。北京天坛医院的熊医生在研究目前 PACAP 在偏头痛中的研究进展时发现,相关的研究越来越多,想找到真正有价值的文献并不容易,多数大模型给出的答案都因幻觉问题而不可用。

搭载 M2 Plus 的百小应,则能够在数分钟内整合来自不同来源的最新研究结果,自动进行主题聚类与逻辑归纳,避免信息冗余和误导性解读,把科研人员从繁杂的文献搜索中解放出来,聚焦于科研创新与临床思考。

回答链接:

https://ying.baichuan-ai.com/share/SH731370758926341

在试用百小应后,熊医生评价道,它 " 能梳理全球 PACAP 偏头痛研究,从机制到 III 期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。"

接入 M2 Plus 的百小应的也能提供高效的信息检索能力。医生在临床工作中,难免遇到病史特殊,考虑可能为罕见病的特殊病患,检查结果均无法指向某个疾病。此时,百小应可以辅助整合信息,推测出潜在的罕见病,帮助医生快速制定检查方法。

回答链接:

https://ying.baichuan-ai.com/share/SH731290135638021

智东西对 M2 Plus 在临床指南查询场景的表现进行了实际体验。以往,每当新的国际或国内指南发布,医生通常需要花费大量时间手动检索和比对旧版与新版内容,尤其是在多学科交叉的疾病领域,这一过程不仅信息量巨大,还容易遗漏关键更新。

如今,医生只需在百小应中输入问题:"2025 年 ADA 指南有哪些更新?",系统即可准确理解提问意图,并快速检索相关医学文献和指南,梳理出核心更新要点。

百小应的每一条回答均有据可依,同时提供文献链接,医生不仅可以验证 AI 输出的内容,还能基于这些权威来源进行更深入的研究,从而大幅提升临床指南学习的效率与准确性。

回答链接:

https://ying.ai/share/SH733407702581253

目前,接入 M2 Plus 的百小应已在各大手机应用商店更新,成为 " 医生版 ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。

Baichuan-M2 Plus 也提供标准化 API 接口,医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗 AI 行业的开发者,可以通过 API 将循证推理接入服务场景,提升 AI 服务的医学专业性。

结语:医疗 AI 进入 " 循证增强 " 新阶段

Baichuan-M2 Plus 的发布,标志着医疗 AI 进入 " 循证增强 " 的新阶段。一线医生每天面对繁重的临床决策压力,尤其是在基层和中小医疗机构,患者数量多、资源有限,知识更新又迅速,常常需要在短时间内做出高风险的判断。

通过首创的 " 六源循证 " 推理范式,M2 Plus 将循证医学原则嵌入 AI 系统底层,使模型在复杂医学知识运用上可靠性显著提升,有效降低幻觉率,为临床医生的决策提供了有力辅助,有望缓解人手不足和信息滞后的压力,成为提升医疗服务质量的一条可能路径。M2 Plus 还有望为广大患者及家属提供真正可靠的医疗 AI 服务,帮助他们理解诊断、治疗、预后及检查背后的科学逻辑。

从 Baichuan-M2 的开源,到 M2 Plus 的发布,再到百小应的升级,百川智能正推动 AI 在真实临床的落地应用,让大模型在严肃医疗场景真正可用,代表中国在全球医疗 AI 领域取得又一突破。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

医疗 医疗ai 美国 医学 资格考试
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论