导语
高质量的数据是 AI 驱动生命科学的重要瓶颈。近日,浙江大学郭国骥团队在《Cell》发表最新研究,开发了超高通量单细胞染色质开放测序技术(UUATAC-seq),并构建跨物种单细胞深度学习模型(女娲 CE),实现了调控序列的精准预测和疾病相关突变功能验证,发现了跨物种的基因调控 " 语法 ",为计算医学提供了新的工具和思路。
7 月 10 日(周四)19:00-21:00,我们特别邀请到郭国骥老师在" 计算医学研讨会 "第二期活动中分享这一最新研究成果。"AI 驱动的计算医学前沿:从科学发现到数字孪生 " 系列研讨会由 DAMO 开发者矩阵与集智俱乐部联合主办,深入探讨 AI 与生物医学交叉的最新进展。
刘培源丨作者
论文地址:https://doi.org/10.1016/j.cell.2025.06.020
AI 正在深刻影响生命科学,尤其在多组学领域。过去几年,AI 算法在蛋白质结构预测(如 AlphaFold)和基因功能解析(如 Enformer)等方向上接连取得突破。然而,用 AI 实现生命系统的精准建模,依赖于覆盖多物种、多细胞类型的高质量数据。在基因组与表观基因组领域,这类数据的缺乏已成为制约 AI 深入理解基因调控机制的瓶颈。
其中有代表性的是细胞染色质的开放状态数据。染色质开放状态决定了 DNA 序列能否被转录因子等调控蛋白有效识别和结合,从而直接影响基因的表达与调控。因此,染色质可及性分析(如 ATAC-seq)成为揭示基因组功能的重要技术手段,能够帮助我们明确基因组中哪些区域处于染色质开放状态。但目前单细胞水平的 ATAC-seq(转座酶可及染色质测序)技术,普遍存在通量低、灵敏度不足等问题,难以为 AI 模型提供充足且高质量的训练数据。
浙江大学郭国骥团队 7 月 8 日在《Cell》杂志发表的最新工作,回应了上述挑战。团队开发了 UUATAC-seq(超高通量单核 ATAC 测序)技术,首次实现单日内构建跨物种的单细胞染色质图谱。该研究基于新测序技术,进一步提出了深度学习模型 NvwaCE(女娲 CE),实现了跨物种、跨细胞类型的单细胞调控序列精准预测。这项研究不仅显著提升了 AI 模型在基因调控领域的预测性能,也为后续研究提供了高质量的数据基础与全新思路。
单细胞染色质测序新方法
具体而言,UUATAC-seq 通过一种四轮条码标记方法,实现了高效率、高精度的单细胞处理。与传统单细胞测序方法相比,这一技术利用创新的双端同型转座酶切设计,大幅提高了对开放染色质区域 DNA 片段的捕获效率。同时,利用温控接头转换策略,在每一轮细胞混合与分组过程中精确加入新的条码标签,有效避免了细胞之间标签的交叉污染。
图 1(原图 1A) UUATAC ‑ seq 的实验流程与 " 四轮池拆条码 " 设计,高效完成单细胞染色质检测。第一步,利用特殊的酶给每个细胞的 DNA 打上初始标签条码;第二步,细胞混合后,再给每个细胞添加一个独特标签;第三步,通过温度控制的方式精确加入第三个标签;最后一步,通过 DNA 扩增加入第四个标签,完成单细胞水平的染色质分析。
基于这些改进,UUATAC-seq 可在单日内完成对多个物种、数十万细胞核的染色质可及性分析,数据质量和实验通量显著优于现有的单细胞测序技术,为后续 AI 模型的高效训练提供了坚实的数据基础。
基因调控 " 语法 " 的 AI 预测模型
在获得高质量数据基础上,郭国骥团队进一步构建了一个强大的 AI 模型:NvwaCE(女娲 CE)。该模型直接以 DNA 序列作为输入,以单细胞(single-cell)甚至单核(single-nucleus)级别的分辨率精准预测染色质开放性,从而系统地解读隐藏于基因组序列中的调控 " 语法 "。
其中,CE 指顺式调控元件(cis-regulatory element),即基因组中不直接编码蛋白质、但能调控基因表达的功能序列。这些调控元件能够决定哪些基因、何时何地被激活或关闭,从而控制细胞类型的多样性。以往基因组 AI 模型大多侧重于从 DNA 序列的相似性来预测功能。女娲 CE 则侧重从 DNA 序列中直接学习染色质的开放状态及其调控模式,而非简单基于序列匹配。
这种策略使得女娲 CE 能够有效识别跨物种的普适的调控序列语法,并由此揭示脊椎动物细胞功能调控中的通用规律。
具体而言,女娲 CE 模型采用了多任务深度学习架构(图 2),其核心结构由卷积网络 CNN 与残差网络 ResNeXt 组成,能够有效捕捉 DNA 序列中复杂的模式特征与多尺度信息。模型以固定长度(500 bp)的基因组序列为输入,经卷积层和瓶颈层的特征压缩后,最终输出这段序列在数万个单细胞核内处于染色质开放状态(调控元件活跃)的概率。
图 2(原图 5A)女娲 CE 模型架构示意。
在性能评估中,女娲 CE 模型表现出卓越的预测能力,在不同物种的染色质开放状态预测任务中均达到高精度(AUROC > 0.80,部分甚至达到 0.99),明显优于主流模型(如 scBasset 和 Transformer)。更重要的是,即便对于未经过训练的物种(如鸡、壁虎、蝾螈、斑马鱼),模型依然具有很强的泛化预测能力。
这表明调控元件背后的 " 序列语法 " 远比 DNA 序列本身更为保守,更揭示了脊椎动物基因调控的共性。此外,女娲 CE 还能自动识别出与神经、免疫、脂代谢等功能相关的序列模块,不仅提高了预测准确度,也增强了模型的可解释性。
功能验证与精准医学应用
这项研究进一步探索了女娲 CE 模型在实际生物医学问题中的应用潜力,特别是在针对人类疾病相关非编码调控元件的突变效应预测方面,评估了该模型的精准医学价值。
团队选取了 361 个已知与人类疾病密切相关的精细定位非编码位点,逐一利用女娲 CE 模型进行突变功能效应预测,成功鉴定出 265 个具有明确功能影响的关键变异位点,明显优于传统方法。
团队还利用基因编辑实验,首次在人体细胞中验证了完全由 AI 精准预测的疾病治疗关键位点(胎儿血红蛋白基因 HBG1-68:A>G)。这为 AI 在临床治疗靶点设计中的应用提供了明确的实验证据。
跨尺度与跨物种的研究前景
在这项工作中,研究团队揭示了跨物种的调控序列共性规律。他们发现不同脊椎动物的基因组中,调控元件数量随着基因组规模的扩增而稳定增加(图 3),但每个调控元件自身的长度则相对稳定。这意味着在不同物种之间可能存在某种普遍的、内在的调控设计原则。
图 3(原图 4F)展示了脊椎动物基因组规模(Genome size)与候选顺式调控元件数量(Number of cCREs)之间显著的线性关系,揭示了不同物种基因组中,调控元件数量随基因组规模扩增而稳定增加的规律。
如何在物种、组织、细胞类型等不同生命尺度之间发现普适规律,一直是生命科学的重要挑战,也是系统科学的主战场,更是当前 AI for Science 的主要靶标。
近两年来,一系列新兴 AI 方法,均尝试以不同的策略和尺度来解码生命系统的功能信息。例如,Evo 2 模型从基因组序列的宏观尺度,尝试用大规模参数模型来统一不同种类的序列信息;而 ChromBPNet 则致力于细致刻画碱基尺度上的调控序列与染色质状态的关系。但这些工作普遍受到训练数据尺度与类型的限制,难以从根本上解决 " 单细胞—全基因组 " 这一交叉尺度问题。
在此背景下,女娲 CE 模型的突破,不依赖于 ENCODE(DNA 元件百科全书计划)的复杂数据体系,就能够实现单细胞水平的序列功能预测,并且理解大量隐藏的特异性调控规则。
总之,郭国骥团队的最新工作,为全面解读基因组语言和建立数字生命模型,奠定了更实的基础。尤其是女娲 CE 模型在跨物种泛化预测和非编码变异功能验证中的成功,有望加速精准医学和合成生物学发展,进一步打开 AI for Science 的想象空间。
AI 驱动的计算医学前沿研讨会
生命科学与医学领域正经历着深刻的智能革命。大语言模型与多智能体技术快速发展,正在推动形成计算医学(Computational Medicine)新范式,为精准医疗、疾病诊断和健康管理开辟全新路径。AI 驱动的计算医学在自主探索、跨尺度数据融合、个体建模与数字孪生等方面快速发展,然而跨学科合作与方法论整合仍是重要挑战。
为此,DAMO 开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办"AI 驱动的计算医学前沿:从科学发现到数字孪生 " 系列研讨会,邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与 AI 交叉领域的最新进展,自 2025 年 7 月 6 日(周日)开始,共 5 大议题分享与讨论。欢迎相关研究、应用领域的朋友报名参加,共同推动生命科学与医疗健康的智能未来!
本活动免费报名,实行审核入群制,请填写信息后入群参与交流并获得每期活动信息。
登录后才可以发布评论哦
打开小程序可以发布评论哦