近一年来,AI 医疗正在进入一个明显不同于以往的新阶段。无论在国内还是海外,越来越多大型科技公司、医药企业和产业资本开始通过投资、并购或深度合作的方式,进入 AI 健康与医疗领域。
这背后并不只是对赛道规模的押注,而是一个更清晰的共识正在形成:医疗,正在成为少数真正需要、也能够检验大模型能力上限的核心场景之一。
但现实问题同样突出。尽管应用数量快速增长,受限于能力,真正能进入医疗核心流程的 AI 依然有限。当前主流医疗大模型,大多仍建立在静态问答或医生角色扮演的范式之上,模型被要求给出看起来合理、语气专业的回答,却并不真正理解医疗决策是如何发生的。
在真实场景中,这类模型往往难以主动发现信息缺口,无法构建完整的医学推理路径,也缺乏对医疗幻觉的有效约束,最终只能反复输出模糊而安全的高频建议。这正是 AI 医疗看起来很热,但落地很难的根本原因。
行业真正需要的,并不是更像医生的回答,而是更接近医疗决策过程本身的模型能力。
百川给出的解法,正是从这一点切入。百川新一代医疗增强大语言模型 Baichuan-M3,没有继续强化问答或对话表现,而是将训练目标直接对准医疗决策过程本身。新的模型不再只负责生成结论,而是被训练为能够主动收集关键信息、构建医学推理路径,并在推理过程中持续抑制幻觉。这意味着,模型第一次被系统性地当作决策参与者,而不是回答生成器。
这种能力定义的变化,直接提升了模型在真实医疗场景中的可用性与可靠性。在多项医疗评测中,Baichuan-M3 已经展现出超越当前国际主流模型的表现,它的优势并不体现在表达更自然,而在于判断更稳定、推理更完整、风险更可控。
从更宏观的角度看,百川的路径,或许代表着 AI 医疗正在发生的一次重要转向:行业关注点正从模型能不能回答医学问题,转向模型是否能被信任地嵌入医疗系统。
当这一条件逐步成立,AI 医疗的价值,才可能真正从单点工具,演进为医疗体系中的基础能力。
百川用三个 SOTA 破局 AI 临床落地难题
在严肃医疗场景中,判断一个大模型能不能真正用起来,关键并不在于它能不能给出一个看起来合理的答案,而在于它能不能在复杂、不确定、要求很高的情况下,稳定走完整个医疗决策过程。
百川在新一代医疗增强大语言模型 Baichuan-M3 中,正是围绕这一点做系统性设计的。模型的实际效果,主要体现在三个关键评测维度上,而且在这三个维度中都达到了当前行业的最好水平。
第一个维度,是 HealthBench 评估基准。HealthBench 是由 OpenAI 发布的医疗健康评测测试集,一共包含 5000 组来自真实医疗场景的多轮对话,覆盖了多种实际应用情况。它和常见的问答测试不一样,不是看答得像不像,而是由 262 名医生共同制定了 48,562 项评估标准,用来系统评估模型在连续问诊、医学推理和风险控制等方面的能力。这一基准,也是 OpenAI 用来评估自家最先进模型和医疗健康产品的重要参考,包括 GPT-5.2 和 ChatGPT Health。
在 HealthBench 及其高难度子集 HealthBench-Hard 的测试中,Baichuan-M3 表现出了明显的代际提升。和上一代模型 Baichuan-M2 相比,M3 在 HealthBench-Hard 上的得分提高了 27.9 个百分点,最终达到 44.4 分,并超过 GPT-5.2,刷新了这一基准的最好成绩。同时,在 HealthBench 的综合排行榜中,Baichuan-M3 也排在第一位。这说明,在更复杂、更接近真实使用环境的医疗场景中,模型的稳定性和一致性已经明显提高。

第二个维度,是对医疗幻觉的控制。降低幻觉一直是百川在医疗方向上的长期目标。此前在 Baichuan-M2Plus 中,百川已经验证,通过六源证据体系引入外部证据,可以在一定程度上缓解幻觉问题。 Baichuan-M3 更进一步,重点进一步前移到了模型本身,也就是在不使用外部工具、不做检索增强的情况下,尽量减少模型仅凭内部知识生成时出现幻觉。

为此,百川采用了一种更严格的评估方式。模型生成的长文本,会被拆解成一条条可以核查的医学判断,再逐条和权威医学来源进行比对,从而量化模型的事实准确性。
在这种无工具场景下的测试中,Baichuan-M3 的幻觉问题明显减少,整体可靠性已经超过 GPT-5.2。这意味着,模型在信息不充分时,不再急于给出结论,而是更倾向于收敛判断、降低风险。

第三个维度,是端到端的严肃问诊能力。为此,百川提出了 " 严肃问诊范式 " 与 "SCAN 原则 ",通过 Safety Stratification(安全分层 ) 、Clarity Matters(信息澄清 ) 、Association & Inquiry(关联追问 ) 与 Normative Protocol(规范化输出 ) ,将临床问诊中高度依赖经验的思维过程,第一次系统性地 " 白盒化 "。
围绕 SCAN 原则,百川借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,这个体系以真实临床经验作为 " 标准答案 ",将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的动态评测新范式。雷峰网
同时,百川还使用原生模型训练方法取代角色扮演 prompt,针对 GRPO 无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。

在 SCAN-bench 的综合评测中,Baichuan-M3 在临床问诊、实验室检查和疾病诊断三个核心环节中都排在第一位。
尤其是在最难、也最能拉开差距的临床问诊阶段,Baichuan-M3 得到了 74.9 分,不仅比第二名模型 GPT-5.2-High 高出 12.4 分,也明显高于 53.5 分的人类基线水平。在实验室检查建议和最终诊断两个环节,模型分别取得 72.1 分和 74.4 分,同样保持最高准确率。这些结果说明,Baichuan-M3 已经具备从病史采集、检查决策到最终诊断的完整医疗推理能力。

支撑这些结果的,是百川对医疗长决策链训练方式的系统调整。在训练中,复杂的诊疗流程被拆分成多个阶段分别优化,并通过分段流水线强化学习提高整体效率。同时,引入 SPAR 算法,对多轮对话中的每一步进行更精细的奖励和约束,减少无效提问和逻辑跳跃,让模型在保证准确率的同时,保持交互过程的连贯和可控。医学教育中的 OSCE 理念,也被引入到训练中,用来约束模型不仅对结果负责,也要对整个决策过程负责。
在此基础上,Baichuan-M3 把推理能力的提升和幻觉控制放在同一套工程目标中一起优化。通过事实感知强化学习训练架构,模型在提升推理能力的同时,引入对医学事实的动态校验机制,避免因为推理能力变强而放大幻觉风险。最终形成的,是一种既能深入推理、又足够可靠的医疗服务能力。

整体来看,Baichuan-M3 在 HealthBench、幻觉评估和 SCAN-bench 三个维度上的领先,并不是零散成绩,而是同一套设计思路在不同评测体系中的集中体现。当模型被训练为真正理解医疗决策是如何一步步发生的,它在真实医疗场景中的长期使用价值,才真正开始成立。
真正的 AI 医疗,不是一场短跑
如果把视角从单一模型或单次技术突破中抽离出来,放到更长的产业周期中去看,百川在医疗方向上的持续投入,本质上是一种少见但更具确定性的长期主义选择。
医疗从来不是 AI 最容易兑现价值的领域,它不允许快速试错,也不接受模糊结论,对安全性、可解释性和责任边界都有近乎苛刻的要求。正因如此,医疗也成为少数几个真正能够逼迫大模型走出生成能力舒适区、检验其工程成熟度与系统可靠性的场景之一。雷峰网
近一年来,国内外 AI 医疗的密集升温,并不是偶然的市场情绪变化,而是多重因素叠加后的结果。一方面,大模型在推理、长链条决策和多轮交互上的能力开始逼近可用门槛,另一方面,医疗系统内部长期存在的信息割裂、效率瓶颈和结构性压力,也在主动寻找新的技术解法。
这种供需在时间点上的重合,使 AI 医疗从是否可行的讨论,逐步转向如何进入核心流程的现实问题。在这一背景下,早期就选择深度参与医疗的公司,开始显现出路径上的先发优势。
也正是在这一阶段,行业内不同路径之间的差异开始被放大。
一类玩家选择用规模和连接来证明自身价值,通过强调日活用户数量、资金投入规模以及连接了多少医生和医疗资源,来展示自身的存在感。但如果整个行业都用这些产品经理所熟悉的 B 端规模指标来衡量 AI 价值时,医疗 AI 其实正在陷入一种‘数据焦虑’。
从某种程度上说,这段时间一些原本以医疗为核心叙事的产品将重心转向大健康领域,更多聚焦饮食管理、运动建议和情绪价值,同样也是互联网产品经理数据焦虑的另一种体现。这种选择能够立竿见影地改善数据,但客观上回避了医疗中最困难、也最不可回避的核心问题,即诊断责任。
在严肃医疗场景中,上述数据的优势和体验的优化,并不会自动转化为诊断能力本身。AI 医疗或许并不需要另一个更亲民的‘导诊员’或‘挂号助手’,真正稀缺的是能够像主治医师一样,在复杂病史中抽丝剥茧、构建推理路径的‘决策大脑’。
相比于走向泛健康、泛陪伴的‘轻型助手’路径,百川选择了最难的一条路:硬碰硬地进入严肃医疗场景,把重心前移到模型能力上,关注的不是连接了多少医生,而是模型本身是否具备医生级别的能力结构——医疗 AI 不应只是缓解焦虑的‘情绪搭子’,而应是解决病痛的‘科学工具’。
百川更看重的,不是优化看病的流程,而是提升诊断的质量。
这也意味着,百川面对的并不是短期竞争,而是一场标准更高、周期更长的系统工程。
严肃医疗要求模型不仅能够给出结论,还必须在信息是否充分、判断是否稳健、风险是否可控等方面经得起反复检验。这类能力很难通过简单的模型堆叠或话术优化获得,而更依赖长期的训练范式、评估体系和工程经验积累。这也是为什么,真正有能力进入医疗核心流程的 AI 系统,始终屈指可数。
从这个意义上看,百川正在构建的并不仅是一代模型的领先优势,而是一套更底层的能力结构。它试图让 AI 从辅助工具,逐步转变为可以被医疗系统理解、审核和接续的能力模块。
这种结构一旦成立,价值就不会局限于某个产品或某次应用上线,而会在更长时间内持续释放复利效应。它看起来很慢,但回报方式本身,更符合医疗系统的演进逻辑。
AI 医疗真正的分水岭,或许不在于模型参数规模或单项指标的领先,而在于是否有足够的耐心和判断力,去承担严肃医疗所必然伴随的复杂性、约束与长期投入。当行业逐步从热度回归理性,那些真正围绕医疗本身做系统性建设的路径,才会开始显现出不可替代的价值。百川正在押注的,正是这样一个更长远、也更具确定性的未来。


登录后才可以发布评论哦
打开小程序可以发布评论哦