集智俱乐部 前天
AI+多组学引爆医疗革命,这次是否真的不一样
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

导语

1971 年 12 月,时任美国总统理查德 · 尼克松签署《国家癌症法》,2016 年,时任美国副总统拜登发起 " 攻克癌症登月计划 ",再次向癌症宣战。可如今面对大多数癌症我们依然束手无策。近年来越来越多的 AI+ 多组学的科研突破层出不穷,这次能不能攻克癌症,是否真的和之前不一样了?要回答这个问题,我们先回到 30 多年前的基因组,梳理清为何需要多组学才能进行精准医学。

AI+ 多组学融合议题正在 DAMO 开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办的"AI 驱动的计算医学前沿:从科学发现到数字孪生 " 系列研讨会中探讨。研讨会邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与 AI 交叉领域的最新进展,周期为 2025 年 7 月 6 日 -8 月初,共 5 大议题分享与讨论。研讨会未免费报名 - 专业审核制,欢迎相关研究、应用领域的朋友报名参加,共同探讨生命科学与医疗健康的智能未来!

7 月 15 日(本周二)19:00,计算医学研讨会将举办第三期《AI for 蛋白质科学:从结构预测到临床标志物》,邀请吴家睿老师分享《AI 驱动的蛋白质科学》,常乘老师分享《蛋白质组大数据智能解析》,并组织圆桌探讨 " 从 AlphaFold 到虚拟细胞—— AI 多组学的融合之路 "。欢迎感兴趣的朋友预约直播,报名加入研讨会交流!

郭瑞东丨作者

为什么需要多组学?

人类基因组计划无疑是生命科学史上的里程碑。它首次绘制了人类遗传密码的完整 " 蓝图 ",让我们得以从分子层面认识生命的基础。在癌症领域,基因组测序揭示了驱动肿瘤发生发展的关键基因突变(如 EGFR、KRAS、TP53 等),催生了靶向治疗革命,显著改善了部分患者的生存期。这似乎让人们看到了 " 精准医学 " 的曙光——根据个体的基因变异定制治疗方案。

然而,基因组学的局限性在深入实践中逐渐显露,癌症的复杂性远超最初的想象,例如为何拥有相同驱动基因突变的患者(如同为 EGFR 突变的肺癌),对同一靶向药的反应和生存期可能存在巨大差异。基因组信息无法完全解释这种异质性。

这背后的原因是因为基因组提供了 DNA 序列信息,但基因何时、何地、以何种程度表达(转录组)、最终形成何种功能的蛋白质(蛋白质组)、细胞如何进行代谢活动(代谢组)、以及环境如何通过表观遗传标记(表观组)调控基因活性……这些动态的、多层次的信息才是生命活动的直接执行者和调控者。癌症的发生发展是这些层面共同失调的结果。

肿瘤并非孤立的癌细胞团块,它浸润在由免疫细胞、成纤维细胞、血管、信号分子等构成的复杂微环境中。这个微环境深刻影响肿瘤的侵袭、转移和耐药性。基因组测序主要聚焦癌细胞本身,难以全面捕捉微环境的动态相互作用。肿瘤在生长过程中会发生演化,不同区域的癌细胞可能具有不同的基因突变和特性(空间异质性),其特性也会随时间推移而改变(时间异质性)。单次或单点的基因组测序可能无法反映肿瘤全貌。

但使用了更多的方式收集数据,并用更高的频率采集数据后,问题就变成了如何从这些数据中获得有意义的洞察,进而实现个体化的精准预测、预防、诊断和治疗。不同组学产生的数据是海量、高维、异质且复杂的。传统分析方法难以有效整合它们并挖掘其中深层次的关联和模式。这正是人工智能(AI)  大显身手的领域。

人工智能需要做的,是打破组学数据间的壁垒,整合基因组、转录组、蛋白组、代谢组、影像组、临床数据。从海量数据中发现人眼难以识别的疾病亚型、预后标志物、治疗靶点和耐药机制。有了标志物,就能够预测疾病风险、进展、分出了疾病亚型,就能让药物更为有效,减少副作用,辅助临床决策,而在计算机中模拟肿瘤演化、药物作用等复杂过程,可加速发现治疗靶点的发现。

图 1   多组学中癌症相关研究中的应用 来自 [ 1 ]

回到最初的问题:这次 AI+ 多组学的浪潮,能否带来真正的不同?答案的关键就在于它直面了基因组学时代的核心挑战——生命复杂性的多维度本质。它不再局限于单一的 " 蓝图 ",而是试图构建一个动态的、多层次的 " 生命运行模拟器 "。接下来,让我们看看最近有那些相关的研究,他们做了什么,和之前有何不同。

从 DNA → RNA →蛋白质,多组学的研究进展

所谓多组学,从中心法则来看,是从 DNA → RNA →蛋白质的信息流动过程,DNA 上的突变,是基因检测的关注点,而对于基因突变的解读,已经从数据库的查询,走向了模型预测。例如 Evo 2 模型 [ 2 ] ,这是一个跨生命领域的生物基础模型,训练于 9.3 万亿 DNA 碱基(涵盖细菌、古菌、真核生物、噬菌体),凭借 100 万 token 上下文窗口能有效捕捉长距离基因组模式,能够在单核苷酸分辨率下预测变异致病性、还可以生成给定功能的基因组序列,模型具备跨物种预测和设计能力,尤其适用于非编码变异致病性判读,为遗传病诊断和合成生物学带来全新工具。

图 2 Evo 2 简单示意图,来自 https://github.com/arcinstitute/evo2

DNA 如同建筑蓝图,而 RNA 则如同建筑师,将蓝图实现为具体的一栋栋高楼大厦,这一过程被称为翻译,而在翻译过程中,建筑师会根据周围的环境修改蓝图,例如进行可变剪切(单个基因可被剪接成多种 RNA 变体,生成功能迥异的蛋白质),甲基化标签(在蓝图上 DNA 添加可擦写的环境注释贴,指示哪些区域该优先建造或暂时封存)对此的研究称之为表观基因组。如同建筑工地的智能总控中心,接收营养、压力、毒素等环境信号,通过化学标记(DNA 甲基化、组蛋白修饰、非编码 RNA)指挥基因的 " 开工 " 与 " 停工 ",使同一份 DNA 蓝图在不同细胞中建出千差万别的 " 生命建筑 "。

由于人类基因组中仅有不到 2% 的区域直接编码蛋白质,而大部分遗传变异位于非编码区,虽然它们不会改变蛋白序列,但其中一部分可以通过调控转录、剪接、mRNA 稳定性或翻译等环节影响基因功能。浙江大学良渚实验室 / 附属第二医院熊旭深课题组 24 年在   Nature Machine Intelligence   发表的基于 Transformer 架构的多模态深度学习模型 Translatomer [ 3 ] ,该模型整合 mRNA 表达、基因序列等信息,在 33 种人类组织和细胞系的 RNA-seq 与 Ribo-seq 数据上训练;在跨细胞类型预测核糖体占据图谱时可取得 0.72 – 0.80 的 Pearson/Spearman 相关系数。依托模型的解释能力,研究者鉴定出 3041 个与复杂疾病相关、位于非编码区的遗传变异,这些变异对翻译效率的影响呈组织特异性,为揭示阿尔茨海默病、自闭症等复杂疾病的分子机制提供了新的线索。

图 3   Translatomer 的输入输出集其在进化研究,疾病位点解读上的应用。来自 https://github.com/xiongxslab/Translatomer

除了解释机制,表观基因组与 AI 的结合还可辅助诊断 crossNN [ 4 ] ,一个跨平台的基于 DNA 甲基化数据,对 178 种肿瘤进行分类的可解释深度学习框架,适用于不明原发部位癌症的诊断工作,其诊断精度达到了 97.8%,在脑肿瘤中甚至达到了 99.1%。在手术中使用该技术将是一个有趣的方向。通过纳米孔测序可以在 90 分钟内得出结果,这使得手术中的应用成为可能。外科医生可以在手术过程中暂停手术,并根据表观遗传指纹的结果来决定后续的手术步骤。

而浙江大学郭国骥团队提出的计算模型神农 [ 5 ] ,通过对多种癌细胞及临近的健康组织及免疫细胞进行单细胞转录组测序,构建数据集,之后通过根据变分自编码器的深度学习模型,计算每个细胞对特定药物处理的响应强度,评估不同药物对特定细胞类型的影响。该方法能筛选潜在的广谱抗癌药,还能预测药物的治疗效果和副作用,指导药物筛选,从而发现针对特定细胞类型的候选药物。

除了从 DNA 到 RNA 的过程复杂,每一个细胞也并非一座孤岛,而是受到周围细胞的影响,因而能够保留相对位置信息,并检测分子生物学特征(例如基因突变,转录表达谱,表观调节)的空间组学成为了破解生命复杂性的另一块关键拼图。2024 年 8 月 23 日,Nature method 刊发评论文章 [ 6 ] :经由 AI 解锁空间组学数据的能力,指出人工智能有可能释放空间组学的全部潜力,促进复杂数据集的整合和新生物医学见解的发现。对此,浙江大学郭国骥团队 2024 发表的关于单细胞转录组的综述论文 [ 7 ] 中,讨论了从组织样本(bulk)到单细胞,再到结合空间组,表观组,从数个细胞到百万细胞的发展过程,对相关问题感兴趣的可阅读原文。

AI 驱动的计算医学前沿研讨会第二期中,郭国骥老师分享报告《用 AI 解读基因组调控语法》讨论了神农模型等工作和 2025 年 7 月新工作女娲 CE 模型(Cell 计算医学前沿:" 女娲模型 " 解码基因调控 " 语法 "),熊旭深分享报告《基于深度学习的 RNA 调控及疾病解析》具体介绍了 Translatomer 模型等工作。报名计算医学研讨会可查看讲座录播。

图 4   单细胞多组学的发展方向 来自 [ 7 ]

而在经历了从 DNA 到 RNA 再到蛋白的一系列过程,最终的结果是参与新陈代谢的一系列小分子,例如脂肪,碳水等,对此的研究被称为代谢组。2025 年 3 月,美国佛罗里达大学发布了 MetaVision3D ——一种借助人工智能的高分辨率 3D 代谢组成像平台,可为正常小鼠和阿尔茨海默病模型小鼠构建可交互的大脑代谢图谱 [ 8 ] 。研究者和临床人员可以自由缩放并探查任意脑区,直观比较不同分子(尤其是与神经退行性疾病相关的代谢物)在空间上的分布差异。MetaVision3D 为解析饮食、运动、遗传等因素对脑细胞代谢及疾病进程的影响提供了全新视角和工具。

AI+ 多组学推动走向精准医疗

精准医疗正在通过根据个体患者的独特特征量身定制治疗方案来重塑医疗保健格局。相比之前,生物医学的研究者能够使用更多样的工具,跟踪生物体从设计(DNA)到实现(代谢物)的这一动态过程中的每一步,并对可能的扰动所带来的影响进行预测。这就如同之前的研究者试图攻克癌症时是蒙着眼射箭,而 AI 的引入让这一过程带上了瞄准镜,同时还会根据风速预测最佳轨迹,从而做到辕门射戟级的精准打击癌细胞。

下图是一个完整的 AI 驱动的多组学整合临床决策系统,实现了从患者样本到用药建议的端到端闭环。通过多组学数据采集,电子病历,由 AI 模型进行数据整合,预测药物响应,支持临床决策,最终通过采集患者的实际情况,持续改进治疗方案。

图 5   预测药物反应的 AI 驱动多组学流程。源自患者的组学数据,包括基因组学(例如,WES/WGS)、表观基因组学(例如,BS-seq、ATAC-seq)、转录组学(RNA-seq)、蛋白质组学(质谱分析)和代谢组学(例如,LC-MS、NMR),被融合与协调以作为模型输入。深度学习模型(例如,VAEs、GANs、GNNs)预测药物疗效、不良药物反应(ADR)风险和剂量建议。可解释性模块增强模型透明度,而基于真实世界结果的验证则实现持续优化。最终输出通过集成到电子健康记录(EHR)的临床决策支持系统(CDSS)交付给临床医生。来自 [ 9 ]

此外,对于复杂的复杂多基因性状(如糖尿病,阿兹海默等)机器学习模型通过改进变量选择和加权来增强多基因风险评分,提高预测效用。超越基因组学,转录组学、蛋白质组学和代谢组学的整合提供了对疾病表型的更精细的理解 [ 10 ] 。

尽管具有巨大潜力,但这种方法面临着数据有限、隐私问题和生物系统复杂性的挑战。整合基因组学、转录组学和蛋白质组学数据对于全面了解患者健康状况至关重要。omicsGAN [ 11 ] 等模型通过结合多种数据类型来增强疾病表型预测和治疗计划。利用自编码器、图卷积网络,如 MOGONET [ 12 ] 、集成方法和对比学习等技术来可应对多组学异构数据集成带来的挑战。这些方法通过识别共同潜在因素和学习跨组学表示,能够学习不同组学层之间的复杂非线性相互作用,通常在药物反应和疾病预后方面实现卓越的预测性能,促进了稳健生物标志物的检测。

此外,人工智能不仅有助于数据集成,还通过可解释人工智能(XAI)技术提高可解释性,从而在依赖这些复杂、数据驱动方法的临床医生和研究人员中建立了信任。像 MOVIS 这样的平台提供动态、多模态时间序列聚类和嵌入任务的可视化工具。例如 MOVIS [ 13 ] 设计用于处理各种组学类型——基因组学、蛋白质组学、转录组学、代谢组学——以及物理化学数据。其基于网络的界面允许临床医生和研究人员以并排的方式探索和交互多组学数据,促进纵向研究中的假设检验和模式识别。

参考文献

[ 1 ] Yates, Josephine, and Eliezer M. Van Allen. "New horizons at the interface of artificial intelligence and translational cancer research."   Cancer Cell   43.4 ( 2025 ) : 708-727.

[ 2 ] Brixi G, Durrant MG, Ku J, et al. Genome modeling and design across all domains of life with Evo 2. bioRxiv. Preprint posted online February 21, 2025. doi: 10.1101/2025.02.18.638918.

[ 3 ] He, Jialin, et al. "Deep learning prediction of ribosome profiling with Translatomer reveals translational regulation and interprets disease variants."   Nature Machine Intelligence   6.11 ( 2024 ) : 1314-1329.

[ 4 ] Yuan, Dongsheng, et al. "crossNN is an explainable framework for cross-platform DNA methylation-based classification of tumors."   Nature Cancer   ( 2025 ) : 1-12.

[ 5 ] Zhang, Peijing, et al. "A deep learning framework for in silico screening of anticancer drugs at the single-cell level."   National Science Review   12.2 ( 2025 ) : nwae451.

[ 6 ] Coleman, Kyle, Amelia Schroeder, and Mingyao Li. "Unlocking the power of spatial omics with AI."   nature methods   21.8 ( 2024 ) : 1378-1381.

[ 7 ] Wang, Jingjing, et al. "Advances and applications in single-cell and spatial genomics."   Science China Life Sciences   ( 2024 ) : 1-57.

[ 8 ] Ma, Xin, et al. "AI-driven framework to map the brain metabolome in three dimensions."   Nature metabolism   ( 2025 ) : 1-12.

[ 9 ] Zack, Mike, et al. "AI and Multi-Omics in Pharmacogenomics: A New Era of Precision Medicine."   Mayo Clinic Proceedings: Digital Health   ( 2025 ) : 100246.

[ 10 ] Ahmed Z, Thirunavukarasu R and Khan A ( 2025 ) Editorial: Computational genomic and precision medicine. Front. Genet. 16:1631668. doi: 10.3389/fgene.2025.1631668

[ 11 ] Ahmed, Khandakar Tanvir, et al. "Multi-omics data integration by generative adversarial network."   Bioinformatics   38.1 ( 2022 ) : 179-186.

[ 12 ] Wang, Tongxin, et al. "MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification."   Nature communications   12.1 ( 2021 ) : 3445.

[ 13 ] An ž el, Aleksandar, Dominik Heider, and Georges Hattab. "MOVIS: a multi-omics software solution for multi-modal time-series clustering, embedding, and visualizing tasks."   Computational and Structural Biotechnology Journal   20 ( 2022 ) : 1044-1055.

AI 驱动的计算医学前沿研讨会

DAMO 开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办"AI 驱动的计算医学前沿:从科学发现到数字孪生 " 系列研讨会,邀请多位国内外前沿学者与业界专家分享交流。本活动免费报名,实行审核入群制,请填写信息后入群参与交流并获得每期活动信息。

7 月 15 日(周二)将举办研讨会第三期,《AI for 蛋白质科学:从结构预测到临床标志物》,欢迎预约直播和报名参与。邀请吴家睿老师分享《   AI 驱动的蛋白质科学  》,常乘老师分享《   蛋白质组大数据智能解析  》,并组织圆桌探讨 "   从 AlphaFold 到虚拟细胞—— AI 多组学的融合之路   "。欢迎感兴趣的朋友预约直播,报名加入研讨会交流!

详情请见:AI 驱动的计算医学前沿研讨会开启报名:从科学发现到数字孪生

推荐阅读

1.  PNAS 速递:开放式医疗诊断中混合集体智能的自动化

2.  可重构微型集群机器人,点亮未来医疗与环境修复

3.  319 篇文献、41 页综述文章讲述图神经网络用于医疗诊断的前世今生与未来

4.  涌现动力学如何用来分析复杂系统? | 新课上线

5.  AI 时代的学习:共探人类学习的复杂性

6.  探索者计划 | 集智俱乐部 2025 内容团队招募(全职 & 兼职)

7. 系统科学前沿十讲:理解自然、生命与社会的复杂性

点击 " 阅读原文 ",报名系列研讨会 

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 癌症 医学 基因 研讨会
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论