文 | 光锥智能,作者 | 魏琳华,编辑 | 王一粟
代码过后,医疗有可能成为下一个 AI 落地应用铺开规模的行业吗?
这个答案似乎出现了一些端倪。从 2026 年开年到现在的 15 天,AI 医疗已经有了不少瞩目的动作,且均集中向 C 端试水。
1 月 8 日,OpenAI 推出了 ChatGPT Health,允许用户将 Apple Health、Function 等应用中的电子病历和体征数据提供给 AI,解答用户的健康问题。
1 月 11 日,Anthropic 正式推出了 Claude for Healthcare,也就是 Claude 的医疗版。它通过和初创公司合作,把用户的医疗数据接入到模型中,从而让模型为用户提供健康咨询服务。
集中的信号释放出,2026 年 AI 医疗的新趋势—— AI 公司们正在尝试将医疗服务开展到医院场景之外。
作为大模型五小龙中唯一一家 All in AI 医疗的大模型公司,百川也有了新动作。1 月 13 日,百川智能在北京举办了关于 M3 大模型发布的媒体沟通会,把自家的 AI 医疗新模型放了出来。官方数据中,这个模型在多项测试分数上超过了 OpenAI 的 GPT-5.2。
拆解新模型的技术优势之外,王小川还给出了很多非共识的观点:他认为,技术是坚定的护城河,数据很关键,但不是最关键的一个;多模态是主战场这个事情,他从第一天起就不认可,比起多模态,语言大模型才是智能的最高体现。
回顾去年,对王小川和百川智能最重要的一件事,就是明确了 " 用 AI 造医生 " 的发展路线。用王小川的话说,做科研的第一步,就是要把模型做得足够好,这就有了 M1、M2 到今天 M3 的迭代。
2026 年,对百川是一个关键的节点,王小川分享,今年百川智能会有大动作,做 AI 硬件、C 端产品。看起来,从大模型之外,百川的商业化叙事终于要落到具体的产品上。
但这对于百川也不是一场轻松的仗。会上,王小川透露目前百川账上还有 30 亿现金,结合之前累计 50 多亿的融资,意味着百川在过往 1 年半时间里烧掉了 20 亿左右。
透过百川,我们如何看待 AI 医疗过往和未来发生的事情,接下来这个赛道又会有哪些可能性?
实测 M3 大模型,严肃医疗和泛健康的区别在哪?
时隔 4 个多月,百川把自研大模型 BaiChuan-M3 端上了台面。
从官方评测数据来看,比起 M2 追赶海外领先模型的情况,新开源的 M3 算是一个成功超越的标志。在幻觉、HealthBench(OpenAI 建立的评测集)各项跑分结果上,它全面超越了 OpenAI 的 GPT-5.2。

除了用数据印证新模型的智能之外,光锥智能实测了 M3 模型,和国内的蚂蚁阿福做对比。结论是,在诊断结果的准确度上,两者对大多数情况的判断结果一致,且都能给出相似的症状猜测和检查建议。
不过,在少部分情况下,M3 的测试更接近真实就医的判断,阿福则在测试中更擅长追问,基本每次问问题都会要求用户补充多次信息。
最明显的一点感受是,M3 能把病的来龙去脉讲明白,而不是只停留在术语和结果判断上。
在测试中,光锥智能以 " 为什么指标属于重度贫血,但生活中只是感到轻度疲劳 " 作为案例询问 M3 和阿福,想要找到对应的病症,以及为什么个人体感上没有影响的情况。
对此,阿福和 M3 在症状的判定上都没有问题,认为最有可能的病症是慢性、缓慢进展的贫血,并且开好了接下来要去医院开的检查项目。

在症状的说明上,M3 在多个测试中都能给出更通俗易懂的解释。
比起列对应的病症、摆术语,下结论,M3 多了一个解释原因的部分。还以上述的贫血为例,M3 用一般人更能看懂的方式打了个比方,好比高海拔地区缺氧时人体启动的调整,贫血是用心脏代偿、血液代偿和组织代偿完成了自身调整,同时提醒用户它以 " 透支健康 " 为代价,阐述风险,提示用户尽快就医。

这个差异化的来源,翻阅百川发布 M3 当天上线的技术报告来看,一部分功劳要归于百川自创的 SCAN-bench 评测体系。
百川提及,这个评测体系联合 150 多位一线医生共同搭建。它把就医过程拆解成病史采集、辅助检查和精准诊疗三个阶段。一阶段根据 SCAN 原则结构化、精准采集所需信息后,二阶段辅助检查补充临床所需的检查信息,最终把获得的所有结果去整理成结论。这种动态、多轮的方式,让模型能够在给出结论的同时,把思路完整展示出来,从而让用户了解到更多信息。

另外一个是百川引用的医疗论文 + 自创算法。在测试中,每个病症原因的解释、对症的标准判断,M3 基本都引用了 1-3 条论文文献信息作印证。
在测试中,笔者以生理期延迟做测试,询问是否需要就诊,M3 结合了一篇引用的论文,告诉笔者如果没有出现一些特殊变化,偶尔一次只需要观察即可。这个结论,和医生给到的结论完全一致。
不过上述引用的论文并没有直接给出相应的印证结论,只是给了对周期判断的标准。所以整体下结论的准确,或许要归功于分段强化学习。
可以简单理解为,在只以结果做唯一结论的强化学习方式上,百川做了新的改良,把诊断拆成四个部分问诊、鉴别诊断、实验室检测和最终诊断,分阶段去做强化学习,每个阶段的结论信息可以带到下一个阶段。针对医疗这类长时间问询过程的任务,处理准确度也有所提升。

比较遗憾的地方是,M3 在一些地方的追问明显没有蚂蚁阿福更多。后者基本每一次的问题都会给 2-3 个连续追问、补充信息的环节。其实 M3 也有提示一些风险项,但蚂蚁会把这类症状作为补充观察的信息继续询问。结合一些针对不同问诊人的建档区分,其交互体验上在 C 端表现更成熟。
上市、出海?比起这些,AI 医疗今年的落地更值得期待
除了带来新模型 M3 之外,王小川讲了更多有意思的事情,既关乎百川自己的打法,也有今年 AI 医疗落地的新突破。
对于如何做 AI 医疗大模型,王小川讲了许多 " 非共识 "。
在主流模型路线上,王小川认为,医疗 AI 的主战场从来都不是多模态,而是语言大模型。
" 到目前为止,评判哪个公司的模型能力强,都是以符号、语言为基础。比如 Sora 的可用性强,但不代表智力很高。" 王小川说," 医疗的本质是推理,它并不是只是一个图像问题。在现阶段,影像报告最后还是变成文字进入模型。图像是树上挂的小叶子,不是主战场。"
关于数据,王小川也不认为数据是训练大模型最关键的一环。用他的原话来说,数据虽然也很重要,但在大模型行业没有成功案例。他还认为,收集更多的用户信息,也不意味着能够靠数据 " 弯道超车 "。
王小川举了个例子:"Gemini 和 Claude 没有 OpenAI 那么多 C 端的用户,依然做出了领先的模型,可见当前阶段的优势更多是在于技术。"
关于 AI 医疗领域,王小川分享了一个最重要的趋势,也是我们现在在 AI 医疗领域看到的新趋势,AI 医疗将有更多机会诞生在医院外的场景中。
" 未来 AI 医疗巨大的增量会出现在院外。院内更多的是做手术,做执行,给人挂水的地方,我们并不鼓励把场景放在院内,写病历、做质控,那些都不是未来的主流方向。" 王小川说。
为什么会有这样的判断,从国内医疗环境出发,王小川提起了 AI 医疗的四个痛点:第一,好医生不够、供给不足;第二,医患关系不够平等,决策者是医生,个人难以用常识去判断这些决策;第三,海外和国内就医环境的不同,前者每个家庭有专属医生;第四,医学不够发达,存在很多难以解决的问题。
开年新动作中,OpenAI 的押注方向同样选择了 C 端,把个人用户的医疗数据接入 ChatGPT,让 AI 帮助用户提供健康服务。蚂蚁阿福上线后,月活超过大量 AI 助手类产品,到现在 3500 万 MAU 的突破,也说明了这个市场的可能性。
从 AI 医疗清一色先攻 B 端,到蚂蚁阿福、OpenAI 和百川,做 C 端也成了接下来值得关注的尝试。
王小川也直言,百川目前的护城河是技术、场景和产品形态:
M3 代表百川技术的能力体现,在场景切入上,百川的定位比市面上的泛健康类 AI 医疗产品更近一步," 至少能够像家庭医生一样 "。这个界限,又把控在不碰医疗红线的基础上,也就是不会做医生真正该做的决策,而是辅助决策。落到具体产品上,百川今年计划发布两款 C 端产品,也在尝试做和睡眠相关的 AI 硬件产品。
看起来,百川智能对自己的战略正在一天比一天清晰,但最关键的问题是,决定生死的商业化路线,能够跑通吗?
在国内当前的付费环境下,C 端变现本身就是一条风险更大的路,比如蚂蚁阿福至今未收费,更多用户是否愿意买单;对于比其他领域更看重准确性、舆论问题更明显的医疗领域来说,C 端付费路上也存在很多未知的风险。
想上市、有意愿出海的百川智能,能靠今年拿出的 C 端产品证明 AI 医疗商业化的潜力吗?这个答案,或许接下来几个月就能有新的解答。


