猎云网 9小时前
百川开源全球最强医疗大模型M3,在医疗领域超越GPT-5.2
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

来源:猎云网

1 月 13 日,百川智能宣布正式开源新一代医疗大模型 Baichuan-M3。

据悉,Baichuan-M3 在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以 44.4 分的成绩夺冠。这一成绩,不仅刷新了 HealthBench 的最高分,更首次在医疗领域实现了对 GPT-5.2 的全面超越。

随着监督信号持续变细、变难,模型得以不断突破能力上限,使 M3 在复杂医学问题上的表现实现跃迁,成为当前全球医疗沟通和推理能力最强的医疗大模型。

此外,百川 M3 将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,将 " 知之为知之,不知为不知 " 直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为 M3 自身的基础能力,使其在不借助任何外部系统的情况下,依然能够基于自身医学知识进行稳定、可信的作答。

通过将事实一致性约束融入训练流程,M3 重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率 3.5,超越 GPT-5.2,达到全球最低水平。

除了强推理和低幻觉,端到端的问诊能力是本次 M3 最重要的一项突破。

在过去医疗大模型的应用实践中,其不围绕关键风险点展开的信息收集,即便对话看似完整,也难以支撑安全、可靠的临床判断,从根本上偏离了医疗 " 安全第一 " 的原则。

针对这一行业困境,我们提出了 " 严肃问诊范式 " 与 "SCAN 原则 ",通过 Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与 Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地 " 白盒化 "。

围绕 SCAN 原则,我们借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,该体系以真实临床经验作为 " 标准答案 ",将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的动态评测新范式。

同时,我们还使用原生模型训练方法取代角色扮演 prompt,针对 GRPO 无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。

在实验过程中我们发现,问诊准确度每增加 2%,诊疗结果准确度就会增加 1%。评测结果显示,M3 在 SCAN 的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型,成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。

M3 具备的原生的 " 端到端 " 严肃问诊能力,使它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。

当前,百川智能的医疗应用 " 百小应 " 已同步接入 M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

医疗 医学 开源 医生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论