上智院、上交大、复旦联合提出FLAG扩散框架，还原空间转录组的基因-空间双重结构

原文作者：公众号 "ScienceAi"

原文链接：https://mp.weixin.qq.com/s/lhrWc1-ABA4dZObLAuHMHQ

雷峰网 ( 公众号：雷峰网 ) 转载

空间转录组学（Spatial Transcriptomics, ST）能在保留细胞空间位置的同时测量基因表达，对解析组织微环境与疾病微生态至关重要，但测序成本高、通量低。相比之下，H&E 染色的全切片图像（WSI）在临床中比较容易获取。因此，「以图测谱」，即直接从常规病理图像预测空间基因表达正成为连接低成本影像与高维分子信息的关键桥梁。

然而，现有方法大多将其简化为对每个基因独立的逐点回归，仅以 PCC、MSE 等逐点指标评估，忽略了两类关键的生物学结构：反映调控程序的「基因 - 基因」关系，以及反映组织构筑的「基因 - 空间」分布关系。而现有模型即便在单基因数值上尚可，所生成的表达图谱却常常「形似而神不似」。

为此，上海科学智能研究院（下称上智院）联合上海交通大学、复旦大学等提出了结构感知的潜扩散框架 FLAG（Foundation model representation with Latent diffusion Alignment via Graph）。该框架将任务从「确定性回归」重新定义为「结构化分布建模」，并首次系统揭示与刻画了高维场景下的「基因维度诅咒」（Gene Dimension Curse）。实验表明，FLAG 在保持 PCC/MSE 高度竞争力的同时，于结构保真度指标上实现显著领先。

该研究成果已被 ICML 2026 接收。上智院生命科学方向研究员斯奇、上海交通大学生物医学工程学院博士生王鹏磊，是共同第一作者。上智院生命科学方向 AI 科学家郭昕，上智院 AI 科学家及生命科学方向负责人、复旦大学人工智能创新与产业研究院研究员程远，是共同通讯作者。上智院生命科学方向研究员吴俣帅、焦一峰、刘旭阳，上智院首席科学家、复旦大学特聘教授漆远，是共同作者。研究由星河启智科学智能开放平台提供技术支持。

论文地址：https://arxiv.org/abs/2605.18055

代码地址：https://github.com/darkflash03/FLAG

现有方法的两大瓶颈

一是「只见数值，不见结构」。判别式方法将每个基因视为独立回归目标，天然会「抹平」从形态到表达本就存在的随机性，导致过度平滑，既丢失基因间的协同调控网络，也破坏基因在空间上的真实分布纹理。

二是图扩散遭遇「基因维度诅咒」。把测量点与点间关系联合去噪的「图扩散」在小基因集上有效，但随基因维度升高优化稳定性急剧恶化、最终崩溃。团队从理论上给出解释：高维下经验相关性急剧集中，迫使模型逼近曲率极高的得分场，超出网络逼近能力，并将其刻画为优化下界 L ( joint ) − L ( node ) ≥ Ω ( G ) 。

FLAG 的三重创新设计

FLAG 利用了空间图编码器作为基因潜空间扩散模型的先验，且在训练过程中与基因基础模型对齐，分别承担「空间画布」「生成引擎」与「生物规则」的角色。

图 1 | FLAG 框架：H&E 经病理基础模型编码并构建点级图，由空间图编码器聚合为空间上下文；条件扩散 Transformer 在此上下文下对基因表达去噪，并通过中间层对齐约束其与预训练基因基础模型的表征一致。

重定义任务：由于组织形态到基因表达的映射本质是一对多，FLAG 采用扩散生成范式，显式逼近高维概率流形而非仅拟合条件期望，从而保留逐点目标忽略的内在相关性。

破解维度诅咒：FLAG 不再在图上联合去噪节点与边，而是把可靠拓扑作为固定先验，由空间图编码器一次性聚合为对基因维度稳定的空间上下文，再以其引导基因维度的扩散，从而将高方差的「联合生成」转化为稳定的「条件生成」。

注入生物先验：在扩散主干中间层引入对齐损失，将隐表示对齐至冻结的预训练基因基础模型（Geneformer、scGPT、CellPLM）。该先验仅在训练时使用，推理时无需调用，几乎不增加部署成本。

全面领先的实验结果

团队提出两项结构化指标：基因结构相关性（GSC）衡量基因调控网络拓扑的保留，空间结构相关性（SSC）经 Moran's I 衡量空间自相关模式的保留。在 HEST-1k 基准的 HER2ST、KIDNEY、PRAD 三个数据集上，FLAG 在 PCC/MSE 保持高度竞争力的同时，结构指标全面领先：以 HER2ST 为例，其 SSC 达到同类生成式方法 STFlow 的两倍以上，GSC 居所有方法之首。

图 2 | 「基因维度诅咒」实验：随基因数从 10 增至 800，联合节点 - 边扩散迅速崩溃、节点 - only 扩散显著下滑，而 FLAG 在高维下仍保持高保真度。

在直面「基因维度诅咒」的专项实验中，FLAG 即便在 G=800 的高维设置下仍显著优于两类基线，证明其可扩展至更大规模、更具生物学代表性的基因面板。得益于离线预计算与冻结编码器策略，FLAG 单卡（NVIDIA H800）训练约 35 秒 / 轮、峰值显存约 4.5GB，开销与现有生成式模型相当。

下游应用验证

结构保真度的最终价值在于能否转化为可靠的生物学发现。FLAG 成功恢复了雌激素早期反应通路清晰的块对角调控簇，并在差异表达基因（DEG）发现、空间域识别上全面领先，在 HER2ST 上取得 ARI 0.8451、NMI 0.9140，大幅优于所有对比方法；在提供专家分层标注的 DLPFC 数据集上，其聚类结果也最接近以真值表达建立的上界。

图 3 | 预测与真值对比：FLAG（左二）的预测较好还原组织真实的空间异质性。

消融实验进一步证实三大模块协同必要：以确定性回归替换扩散主干会使结构保真度严重塌缩，移除 GFM 对齐会同时损害精度与空间一致性，移除空间图编码器则破坏空间结构保真度 —— 三者分别充当「结构画布」「生物规则」与「生成引擎」，缺一不可。

总结与展望

FLAG 巧妙融合了预训练基础模型的表征能力与扩散生成的分布建模能力：以静态空间图编码器稳健刻画组织拓扑，从根本上规避「基因维度诅咒」导致的训练崩溃；以基因基础模型对齐注入深层调控先验，使生成的表达图谱既精确又具备生物学结构一致性。其模块化、与具体基础模型解耦的设计，也为未来集成更强的病理与基因基础模型预留了空间。

该研究为「病理图像→空间转录组」确立了兼顾精度与结构保真度的新范式，再次印证 AI 驱动生命科学的方向：跨越从拟合数值到还原生物学结构的鸿沟。未来，团队计划探索扩散推理加速、将图主干扩展至三维组织依赖，并攻克跨组织零样本泛化，为可扩展、生物学一致的空间转录组生成与计算病理持续注入新动力。

宙世代

一起剪

相关标签