智东西 2小时前
王小川批医疗AI“假东西太多”,新模型幻觉率仅2.6%,两周免费
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

1 月 22 日,百川智能发布了 Baichuan-M3-Plus 询证增强医疗大模型,这一模型采用了 M2-Plus 同款的" 六源询证 "方法,再次刷新行业 SOTA,幻觉率仅为 2.6%。

此外,Baichuan-M3-Plus 还首创了" 证据锚定 "技术,让 AI 回答中的每个结论和证据都能精准匹配到原文献的具体位置,据称匹配率高达 95%,远超行业 40%-50% 的平均水准。

这一模型采用 API 模式对外提供服务,价格较前代模型下降 70%,并在发布后两周内免费,为医务工作者提供服务的机构可通过" 海纳百川计划 "长期免费使用。

Baichuan-M3-Plus 发布之际,智东西等媒体来到百川总部与百川智能创始人兼 CEO 王小川和百川智能模型技术负责人鞠强面对面沟通,他们分享了 M3 Plus 背后的技术细节,以及对行业热点议题的看法。

在交流中,王小川多次强调,医疗 AI 的核心目标应始终指向患者利益本身。他主动回应了近期张文宏关于 " 拒绝在病历系统中引入 AI、担心影响年轻医生成长 " 的观点,直言如果因为担忧 AI 影响医生训练而限制其应用,本质上就是将当下的患者作为医生成长的成本。

在他看来,"AI+ 医生 " 已在多个场景中展现出优于单纯依靠医生的潜力,而医生同样存在判断偏差与 " 幻觉 ",从客观数据看,当前医疗 AI 的幻觉率并不高于人类医生。

与此同时,王小川还谈到,中国医生对 AI 工具接纳度偏低,并非模型能力不足,而是医疗系统高强度运转与行业风气的影响。

一方面,国内医生单日接诊量远高于海外,几乎没有时间真正使用和验证 AI 工具;另一方面,医疗 AI 领域缺乏求真的状态," 假的东西太多了 ",真正有技术突破的产品反而难以快速建立信任。

他呼吁,国内行业应该良性竞争,把医疗行业做得更真实,这样发展速度才会加快,否则就会有很多 " 皇帝的新衣 "。

当智东西问及百川目前 API 客户群体的画像时,王小川回应道,M3 发布前百川已经拥有一批机构用户,包括医院和为医院提供科研辅助能力的中小企业。M3 模型发布后,伴随着近期价格调整和合作伙伴关系的推进,客户结构预计会发生较大变化。

体验链接:https://www.baichuan-ai.com

01. 从六源询证到证据锚定,如何把医疗 AI" 拉回白盒 "

上周,百川智能正式开源了当前业界医学能力最出色的开源模型 Baichuan-M3。该模型在权威医疗 AI 基准测试 HealthBench 中位列全球第一,表现超越了 OpenAI 最强模型。

Baichuan-M3-Plus 以 M3 底座为基础,结合百川首创的 " 六元循证系统 ",在 M3 原有抗幻觉能力之上进一步降低了幻觉发生率。

百川对 " 降低幻觉率 " 的执着,源于当前医疗 AI 领域中一些较为突出的问题。现场演示中,鞠强揭示了部分医疗 AI 产品存在的幻觉现象:AI 生成的答案表面看来专业性强,引用了论文、指南、药品说明书等来源,但实际内容错误率可能高达 90%。这种 " 看似专业 " 的幻觉,对于经验尚浅的医生或普通用户而言,潜藏的风险更为显著。

此类幻觉往往源于一个常见问题:AI 引用的内容与其所要支持的表述之间缺乏实质关联。

对医生和用户来说,核验这些引用的正确性过程繁琐,需要耗费大量时间逐条核对,反而可能增加工作负担。

为此,百川创新性地引入 " 证据锚定技术 ",确保模型引用的段落与表述严格对应,并可精确定位至原文位置,使证据具备可核验、可追溯的特性,最终实现诊疗辅助过程的 " 白盒化 "。

本次 Baichuan-M3-Plus 将采用低成本 API 的模式对外提供服务。通过模型架构、Infra 等层面的工程优化,Baichuan-M3-Plus 的 API 价格较前代模型下降 70%。

发布后两周内,Baichuan-M3-Plus 将完全免费。此外,百川智能创始人兼 CEO 王小川还宣布了 " 海纳百川计划 ",将面向所有为医务工作者提供服务的机构免费提供询证增强的 M3-Plus API 服务,以促进行业的协作和发展。王小川称,这项免费服务的成本最高可能达到 1 亿元左右。

新模型 API 价格的大幅下调背后有多重驱动因素。鞠强介绍,上一代 M2 模型仍是稠密模型,而 M3 架构已经切换为 MoE,这一变化本身就能带来不少成本收益。

此外,百川还对业内广受采用的投机采样技术 Eagle3 进行了升级,加入了门控机制,进一步提升推理效率。

02. 王小川回应 "AI 影响医生成长 " 言论,患者不该为医生成长买单

日前,张文宏拒绝把 AI 引入医院病历系统,认为其会影响年轻医生成长的言论,引发广泛讨论。

王小川在采访中主动提到了这一讨论,并做出全面的回应。

他认为,患者利益应置于首位,当前 "AI+ 医生 " 模式已显示出优于单纯依靠医生的潜力,符合医学发展规律。若因担忧 AI 可能影响医生成长而限制其应用,实则可能阻碍对患者有益的技术进步—— " 医生的成长不能以当下的患者作为成本 "。医生也有幻觉,而目前 AI 的幻觉率其实比医生更低。

在应用方法上,王小川认为尚有探索空间。若担心医生能力因 AI 而退化,可调整使用方式,例如让 AI 辅助年轻医生,在诊疗过程中提供实时提醒与校验。

王小川还谈到了许多医院做大模型的现象,他认为:"医生不是造模型的,医生是用模型的,AlphaGo 也不是围棋选手造的,而是谷歌造的。" 双方应做好专业分工。

其实,百川与医生群体有较为密切的合作。鞠强提到,百川与其它通用大模型公司的一个核心区别是,他们拥有一支专业的专职医生团队。

这个团队的成员拥有丰富的一线医疗经验。有曾在国内三甲医院任职的医生以全职身份加入百川,此外百川还与合作的医院建立了深度协作,有医生长期驻场,提供医学指导。

第二部分的支持来自一个更为广泛的专家网络。百川内部的专职医生团队组建并管理着一个覆盖所有主要临床学科的兼职医学专家团,规模达数百人。他们为百川的模型研发提供高质量的专业知识输入和数据支持。

03. 察言观色的医疗 AGI 三年内实现,国内采用率低不是模型原因

王小川还给出了他对 AGI(通用人工智能)级别 AI 医生何时到来的预判。他认为,在具身智能领域,能完成做手术这类操作的 AI 可能还较远,但进行表达、察言观色的 AGI 级别 AI 医生,有望在 3 年内实现。

采访中,有一组数据被反复提及,在美国医疗 AI 工具 OpenEvidence 在医生群体中的渗透率已经达到 45%,但中国医生对 AI 工具接纳度、使用率仍不高。

王小川认为,这一现象不是由模型能力导致的,而是与国内的医疗系统现状和医疗 AI 行业的风气有关。

一方面,中国医生的工作压力很大,美国医生可能一天需要看 10 个病人,而中国医生可能是 50-100 人,平均到每个患者身上只有 3-5 分钟。这导致国内医生没有时间好好地使用 AI 产品。

另一方面,王小川认为国内的医疗 AI 产品并没有真实地表达技术进展,虚假的产品过多,而真东西发布后也难以快速取得信任。他呼吁行业真诚地评价、表达技术进展,推动良性竞争,把医疗行业做得更真实,这样发展速度才会加快,否则就会有很多 " 皇帝的新衣 "。

围绕 AI 医疗的责任边界、商业模式和未来方向,王小川认为,在现行法规下,AI 模型不能直接给出最终诊断,权力和责任仍由医生承担,AI 只是辅助工具;同时,美国已在部分地区允许 AI 直接开处方,这为中国未来制度探索提供了参考。

在商业模式上,百川不会简单复制美国 OpenEvidence 通过药企营销变现的路径,而是坚持符合中国国情,在合规前提下通过学术体系等方式参与医疗生态建设。相比美国医院提效带来的巨大市场空间,中国医疗 AI 必须寻找不同的价值回报方式。

在 AI 制药领域,百川目前的重点不在早期分子发现或患者招募,而是通过药效评价、药物伴随和数字化伴随(Digital Companion)体系,提高真实世界中的药物疗效,本质上属于精准医疗方向。

针对医疗 AI" 幻觉 " 的可接受阈值问题,王小川指出,是否接受由医院和医疗体系决定,而非由企业单方面设定;百川的定位是先辅助医生,再服务患者。随着医生对 AI 工具的逐步适应,未来两到三年内,医疗行业对 AI 的接受度有望显著提升,这需要政策、行业伙伴与技术共同推动。

04. 结语:医疗 AI 热度攀升,落地与信任成关键因素

近几周,AI 医疗健康领域迎来多个新玩家,国外的 OpenAI、Anthropic,国内的京东等大厂与多家创企都相继发布了新品,赛道热度不断攀升。

不过,正如今天采访中反复提到的那样,影响医疗 AI 落地的因素不只是模型能力本身。如何获取用户和专业医生群体的信赖,如何与真实场景结合并解决具体问题,或许比发布模型和产品本身更为关键,也更考验企业的长期投入。

评论
大家都在看