集智俱乐部 4小时前
自然:生成式AI实现个体千种疾病风险的全景预测
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

摘要

医疗决策的核心在于通过理解患者健康状况以预测并干预疾病进程。人工智能(AI)虽可通过学习大规模健康记录中的疾病进展模式辅助此任务,但其规模化潜力尚未充分探索。本研究通过改进 GPT 架构,开发了能模拟疾病进展及竞争关系的模型 Delphi-2M。该模型在 40 万英国生物样本库数据上训练,并于参数固定条件下,使用 190 万丹麦人群数据成功验证。结果显示:Delphi-2M 在保持与单疾病模型相当准确度的同时,实现了对上千种疾病发生率的同步预测;其生成能力还可合成未来健康轨迹,提供 20 年疾病负担估计并训练无需真实数据的 AI 模型。本研究通过可解释 AI 方法,揭示了疾病聚类的时间依赖性影响,同时暴露了模型习得的数据偏差。研究表明,基于 Transformer 的模型适用于健康预测与生成任务,能处理大规模人口数据,揭示疾病事件时间关联,为精准医学策略提供重要依据。

关键词:生成式人工智能,共病(Multimorbidity),疾病轨迹预测(Disease Trajectory Prediction),Transformer,精准医学(Precision Medicine),健康轨迹建模,合成健康数据(Synthetic Health Data),个性化健康风险(Personalized Health Risk)

魏云初丨作者

赵思怡丨审校

论文题目:Learning the natural history of human disease with generative transformers

论文链接:https://www.nature.com/articles/s41586-025-09529-3

发表时间:2025 年 9 月 17 日

论文来源:Nature

当医疗遇见大语言模型

——从 " 治疗过去 " 到 " 预演未来 "

在传统医疗中,医生通过分析患者的病史、体征和检查结果,试图拼凑出健康的未来图景。然而,人类的疾病进程充满复杂性:急性发作与慢性疾病交织,多种合并症集群出现,且不同人群的疾病轨迹因遗传、生活方式和社会经济因素差异显著。

现有的预测模型多局限于单一疾病,而国际疾病分类(ICD-10)中上千种诊断代码的关联性与时序动态,始终是流行病学研究的难点。近年来,大语言模型在自然语言处理领域的突破,为这一难题提供了全新思路。正如 ChatGPT 通过分析上文预测下文,疾病进展同样可视为一种 " 健康语言 ":每一次诊断如同一个词汇,其序列隐含了个体健康的 " 语法规则 "。基于这一类比,研究团队改造了 GPT 架构,开发出Delphi-2M 模型,开创性地实现了对全谱系疾病的生成式预测。

读懂 " 健康语言 ":

Transformer 的医疗化改造

健康数据与自然语言有着相似之处,但也存在本质区别。为了适应医疗数据的特殊性,研究团队首先创新了数据的表示方法。

他们构建了一个专用的 " 健康词汇表 "。它将个体的健康轨迹转化为由 ICD-10 诊断代码、性别、体重指数(BMI)、吸烟与饮酒等生活方式标签组成的序列。为解决个体健康记录中长时间无诊断事件的间隔,研究引入 " 无事件 " 占位标记,以保留时间连续性并捕捉基线风险随时间的动态变化。 最终构建的词汇表涵盖了 1258 种不同的健康状态。

随后,针对新的数据表示方法,对标准 Transformer 架构进行了三项关键性改造:

连续时间编码:研究人员用基于正弦 - 余弦函数的连续年龄编码,替代了传统 Transformer 中为文本设计的离散位置编码。这一革新使模型能精准理解疾病发生的具体时间点,解决了医疗时间轴连续且不规则的核心挑战。

双重预测输出头:模型在预测 " 下一个疾病是什么 " 之外,增加了一个独立的输出头,用于预测 " 到下一个事件还有多久 "。这种同步输出 " 什么 " 与 " 何时 " 的能力,是Delphi-2M能够生成完整、连续的健康轨迹,而非孤立预测点的关键。

同步事件注意力掩码:在医疗记录中,多个诊断常被同时记录。团队修改了 Transformer 的因果注意力掩码,防止模型混淆同一时间点记录的不同事件,确保了时间依赖关系的准确建模。

通过 " 数据表示 " 与 " 架构改造 " 的紧密结合,Delphi-2M才真正获得了 " 理解 " 复杂 " 健康语言 " 的能力。

随后,研究团队对模型的泛化性能进行了系统评估:模型在 40 万英国生物样本库参与者数据上训练,保留 10 万用于验证,并在 190 万丹麦国民健康登记数据中进行外部测试——所有参数在跨国家测试中完全保持不变

图 1:a.Delphi-2M 模型健康词汇表示;b.Delphi-2M 模型训练与验证策略;c.Delphi-2M 模型架构。

精准预测:全疾病谱系的表现

Delphi-2M在疾病预测方面展现出令人印象深刻的能力。对水痘、哮喘、抑郁症等十种典型疾病的预测曲线,与真实年龄 - 性别分层发生率吻合。对于败血症等个体差异显著的疾病,模型能识别出风险显著高于平均水平的亚群,展现出个性化预测潜力。

以 AUC(受试者工作特征曲线下面积)作为性能指标进行评估。Delphi-2M在内部验证集中的平均 AUC 达 0.76,97% 的诊断预测优于随机猜测。其中,经年龄分层校正后的死亡预测 AUC 高达 0.97,显示模型对终末事件的敏锐识别能力。

特别值得关注的是模型在不同疾病大类中的稳定表现。通过跨 ICD-10 章节的分析(其 " 章节 " 是按疾病类型划分的最高级别分类),研究人员证实模型在心血管疾病、呼吸系统疾病、肿瘤等不同疾病大类中均保持稳定性能。这表明模型具备广泛的预测泛化能力,其应用潜力不局限于某些特定疾病领域。

除个体风险识别外,Delphi-2M在时间维度上也展现出持久的预测能力。即使预测时间延长至 10 年,模型平均 AUC 仅从 0.76 降至 0.70,证明其长期预测价值。与常规临床风险评分相比,Delphi-2M在心血管疾病和痴呆症预测上表现相当,在死亡风险预测上更优。

图 2:a. 十种典型疾病的模型预测曲线与真实年龄 - 性别分层发生率的对比;b. 模型预测下一个诊断的平均 AUC 性能及分布;c、d. 模 型在不同 ICD-10 章节中的稳定表现;e. 模型平均 AUC 随预测时间范围延长的变化曲线;f.Delphi-2M 对特定疾病的预测 AUC 与现有的临床风险评分对比。注:AUC 是一个衡量预测准确度的通用指标,数值越高代表预测越准确。

从预测到 " 预演 ":生成式能力的突破

Delphi-2M的核心创新在于其生成能力。它不仅能预测单一疾病风险,还能按时间顺序模拟个体未来可能遭遇的多种健康事件,即生成健康轨迹。这意味着,模型的输出从对单一事件的静态预测,升级为了对个体未来健康状态的时序化模拟。

为了验证这种生成轨迹的可靠性,研究团队以 60 岁为时间节点,为 6.3 万名参与者生成后续健康轨迹。结果显示,模拟数据在 70-75 岁年龄段的疾病分布与真实数据密切吻合。在定量评估上,相比仅依赖年龄性别的基线模型,Delphi-2M的条件生成将疾病标记正确预测率从 12-13% 提升至 14-17%。这初步证明了生成轨迹不仅整体分布合理,在个体层面也具备更精准的预测能力。

更重要的是,这种生成式能力为理解风险因素提供了全新的动态视角。通过模拟不同吸烟、饮酒、BMI 人群的未来疾病负担,模型清晰 " 预演 " 了生活方式对健康的长期影响。例如,在模拟轨迹中,吸烟者群体的慢性呼吸道疾病发生率随时间显著上升,这一发现与经典的流行病学结果相符,从而在数据层面验证了模型模拟的现实指导意义。

除了深化认知,该生成能力还有一个极具潜力的实用价值——合成数据的创造。 实验表明,完全基于合成数据训练的模型,在真实验证集上仍达到 0.74 的 AUC,仅比原模型低 3 个百分点。这一结果强有力地证实,合成数据再现了真实数据的核心统计规律。因此,该方法为医疗 AI 开发中克服数据隐私与孤岛壁垒,提供了一条创新的技术路径。

图 3:a. 模型从 60 岁开始采样生成多种可能的未来健康轨迹;b. 模型生成的轨迹 ( Sampled ) 与真实观测数据 ( Observed ) 的疾病分布;c. 在轨迹生成任务中,Delphi-2M 相比仅依赖年龄性别的基线模型,在各个时间点能更准确地预测出具体的疾病标记;d. 不同吸烟状态的人群,在模拟的未来轨迹中,其慢性呼吸道疾病负担的显著差异;e. 与 b 相同,针对从出生开始的模拟进行评估;f. 使用 UBK 数据与模型合成数据训练的模型,二者的 AUC 性能对比。

可解释性:理解模型的 " 思考 " 逻辑

对于医疗 AI 来说,可解释性是其赢得临床信任的关键。Delphi-2M通过多层次的分析,让我们得以窥见其内部的 " 思考 " 逻辑。

在结构层面,模型的内部表示自发形成了有意义的疾病图谱。  在嵌入空间中,相同 ICD-10 章节的疾病(如糖尿病相关视网膜病变与神经病变)会自动聚类。更具启示性的是,具有高急性死亡风险的疾病(如心肌梗死、败血症)与死亡标记聚集。这表明模型无需显式指导,便通过学习疾病在数据中的联合分布,掌握了它们之间的临床关联——这本质上是基于其统计共现关系,而非因果机制。

在因果层面,该模型分析量化了特定病史对未来风险的驱动作用。例如,分析显示消化系统疾病史可使胰腺癌风险提升 19 倍,而一旦确诊胰腺癌,死亡风险激增近万倍。研究进一步揭示了这种影响的时间依赖性:妊娠相关疾病的影响集中在 5 年内,而精神疾病和肿瘤的相互影响则持续更久。

在动态层面,注意力机制展现了模型处理时间依赖性的精巧能力。模型对癌症诊断保持长达数年的 " 关注 ",反映出其长期死亡风险的把握;而对败血症等急性事件,其注意力快速衰减,这与临床观察到的风险变化模式一致。这种动态注意力权重,是模型能够自适应地权衡历史事件重要性的核心。

图 4:a. 不同章节疾病编码在嵌入空间中的 UMAP 可视化图;b. 消化系统疾病史等因素如何逐步将胰腺癌风险显著推高;c. 不同疾病在短期 ( 如 5 年内 ) 和长期 ( 如 10 年后 ) 的相互影响强度;d. 基于 SHAP 值的死亡率预测影响程度随诊断后时间的变化分析

局限与挑战:前进路上的障碍

Delphi-2M也面临一些挑战。训练数据的选择偏差是一个主要问题:英国生物样本库参与者以白人、高教育程度人群为主,导致模型在少数族裔和低收入群体中预测性能下降。招募时 40-70 岁的年龄范围造成 " 永生偏倚 " ——忽略了招募前死亡个案,间接影响高死亡率疾病的预测准确性。

此外,数据模态的单一性也限制了模型潜力。当前模型仅基于诊断代码和基础生活方式信息,尚未整合基因组学、影像学、处方记录等关键数据。这限制了模型洞察疾病的深层生物学机制的能力,特别是在强遗传成分的疾病或依赖影像学检查的早期病变方面。

跨医疗系统的泛化能力虽有展示但仍不完美。在丹麦数据测试中,模型 AUC 从 0.76 降至 0.67,虽保持良好相关性,但仍揭示国家间医疗体系差异对预测的影响。这提示未来应用需进行本地化校准。

未来展望:AI 重塑医疗的无限可能

尽管存在挑战,Delphi-2M的出现无疑开辟了新的可能性。它的架构为整合多模态数据留下丰富接口。未来可纳入处方记录、基因组学、穿戴设备数据,构建更全面的健康嵌入空间。同时,模型直接处理临床文本的潜力,将打破结构化数据的限制。

在应用层面,Delphi 类模型可朝两个方向发展:临床决策支持识别传统年龄标准之外的高风险个体,优化筛查资源配置;公共卫生规划,通过聚合个体预测,模拟区域性疾病负担变迁,为医疗资源布局提供数据支撑。

研究人员展望,未来几年内患者可能直接受益——医生借助类似工具就能告知患者:" 你未来可能面临几个主要风险,有几件事现在可以改变结果 "。

Delphi-2M的出现,标志着疾病预测从 " 单疾病、静态评估 " 迈向 " 全谱系、动态生成 " 的新范式。通过将源自自然语言处理的 Transformer 架构创造性应用于健康轨迹建模,我们不仅获得了预测疾病的能力,更拥有了 " 预演 " 未来的独特视角。

在人工智能与医疗深度融合的时代,这种能够揭示疾病演进内在模式的模型,或许终将为我们制定更精准、更个性化的健康决策提供关键依据。

参考文献

[ 1 ] Shmatko, A., Jung, A.W., Gaurav, K. et al. Learning the natural history of human disease with generative transformers. Nature ( 2025 ) . https://doi.org/10.1038/s41586-025-09529-3

[ 2 ] Garg, M. et al. Disease prediction with multi-omics and biomarkers empowers   case-control genetic discoveries in the UK Biobank. Nat. Genet. 56, 1821 – 1831 ( 2024 ) .

[ 3 ] Fry, A. et al. Comparison of sociodemographic and health-related characteristics of UK   Biobank participants with those of the general population. Am. J. Epidemiol. 186, 1026 – 1034   ( 2017 ) .

[ 4 ] Sudlow, C. et al. UK biobank: an open access resource for identifying the causes of a wide   range of complex diseases of middle and old age. PLoS Med. 12, e1001779 ( 2015 ) .

[ 5 ] Anat ü rk, M. et al. Development and validation of a dementia risk score in the UK Biobank   and Whitehall II cohorts. BMJ Ment. Health 26, e300719 ( 2023 ) .

[ 6 ] Schmidt, M. et al. The Danish National Patient Registry: a review of content, data quality,   and research potential. Clin. Epidemiol. 7, 449 – 490 ( 2015 ) .

[ 7 ] Helweg-Larsen, K. The Danish register of causes of death. Scand. J. Publ. Health 39,   26 – 29 ( 2011 ) .Danish National Health Registry. 2018. Population-wide health records.

详情请见:

大模型与生物医学:AI + Science 第二季读书会启动

- 一年一度特惠 -

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 人工智能 医疗 医学 生物
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论