

继 Alphafold(阿尔法折叠)之后,谷歌 DeepMind 团队 Alpha 系列重磅上新。1 月 29 日,基因解码 AI 模型 AlphaGenome(阿尔法基因组)登上国际顶刊《自然》封面——它不仅为人类 " 生命天书 " 配上了一台 " 实时编译模拟器 ",更以极高精度和极宽视野为生命科学研究打开一扇观察遗传调控全貌的新窗口。
6 年前,谷歌团队推出蛋白质预测 AI 模型 AlphaFold,解决了困扰科学家 50 多年的难题,即蛋白质如何折叠,并于 2024 年获得诺贝尔化学奖。如今,AlphaGenome 再次震撼世界——能破解占据基因组 98% 的 " 暗物质 " 区域,读懂与人类健康和疾病息息相关的 " 垃圾 DNA"。
对此,诺奖得主、DeepMind 掌门人德米斯 · 哈萨比斯乐观表示:" 未来十年,AI 将治愈所有疾病。" 业界普遍认为,展现出解码基因 " 超能力 " 的 AlphaGenome 可能重构生命科学研究范式,为罕见病诊断、癌症机理研究、基因疗法设计乃至合成生物学,提供一个统一的、可解释的智能分析框架。
长距离 + 高精度,解码基因 " 暗物质 "
本世纪初,人类基因组计划让我们初窥了 DNA 这本 " 生命天书 " 的全貌。科学家发现,在人类基因组中,仅有 2% 编码蛋白质,其余 98% 的非编码区域虽不直接产生蛋白质,却是精确掌控基因的 " 调控区 " ——这片区域被称为基因 " 暗物质 "。
上海市生物医药技术研究院研究员黄薇解释,人类基因组序列变异的致病性,很大一部分表现在基因的 " 调控区 ",但 " 调控区 " 的作用范畴可能涵盖几万、几十万个碱基," 以往我们在基因组序列中会看到很多变异,但无法确定它们的作用,如果能在一个更大视野中研究其相互作用,即可帮助判断其致病性,现在一个理想工具似乎呈现在我们面前 "。
AlphaGenome 创新性地破解了 " 基因暗物质困境 ":既能一次性 " 读取 " 百万个碱基对,预测精度可精确定位到单个碱基,还能 " 一揽子 " 模拟基因表达、剪接、染色质状态、蛋白质结合等复杂生物过程——相当于为基因组研究开启了一个高清全景模式。
最终,AlphaGenome 能同时输出超过 11 类、数千种具体的基因组功能预测,几秒钟内交出一份基因组 " 综合体检报告 ",内容涵盖基因表达量、剪接模式、染色质三维结构等。" 这样的工作在过去往往需要实验室的数年努力。" 黄薇认为,AlphaGenome 将给基因组研究带来一场范式变革。
在这篇论文中,DeepMind 团队用基因 TAL1 开展了一次 " 实战演习 "。TAL1 在正常血液发育中不可或缺,当它被错误表达时,会引发 T 细胞白血病。AlphaGenome 准确预测出了激活错误表达的具体路径,且与之前的结论完全吻合。
在 26 项权威评测中,AlphaGenome 在 25 项取得领先,其中对疾病相关非编码变异的发现能力比前代最佳模型提升一倍以上。
不计短期回报,专注基础科学难题
其实,早在去年 6 月,谷歌团队就将 AlphaGenome 投到了预印本平台 bioRxiv 上,当时就引起业界极大关注。
在分享研究背后的故事时,团队成员提到,他们的初衷是想预测遗传变异的功能影响——希望 AI 能最终编译 DNA 序列这一 " 生命源代码 ",这对人类健康和罕见病诊断具有重要意义。
从 TAL1 的实验可以看出,AlphaGenome 将 DNA 序列变化与细胞层面的分子机制变化连接起来,让非编码区的功能影响也能被系统预测。当以往需要大量实验试错的 " 盲猜 " 过程,变成了可模拟、可推理的 " 代码调试 ",人类疾病 " 黑箱 " 将被照亮,生物医药研发管线也将随之重构。
从 Alphago 到 Alphafold 再到 AlphaGenome,Alpha 系列的每一次上新都伴随着革命性影响。在上海人工智能实验室研究员、上海创智学院导师董楠卿看来,这延续了 DeepMind 独特的科研路径:不计短期商业回报,专注攻克基础科学 " 硬骨头 " ——这种坚持殊为可贵。
" 从技术角度看,AlphaGenome 更多的是工程创新,但研发出这样一个基因组大模型,难度不亚于开发一个传统大模型。" 董楠卿解释,通过 AI 实现百万级序列的超长单碱基高精度预测不仅需要大量高质量数据和充沛算力,相较于 DeepSeek 等通用大模型领域的热火朝天,基础学科大模型领域存在大量技术路径空白," 没人能打包票一定能做出 "。
AI 驱动科学发现,新范式加速到来
AlphaGenome 是否会让谷歌团队再次捧得诺奖?董楠卿认为,它有一定潜质,比如正在解决重大基础科学问题、提供了革命性的研究工具,还在疾病机理研究中展现出一定的颠覆性能力," 但要达到如 AlphaFold 一般的影响力,仍需完成不少关键挑战 "。
最重要的一个挑战是物种泛化。目前,AlphaGenome 的训练主要基于人类和小鼠数据。董楠卿表示,在生命科学领域,人和小鼠只是哺乳动物中的两个物种,除了动物,还有植物、微生物,相比之下,它们的 DNA 注释数据更加稀少,模型训练的难度更高。
然而,相对于进化更完全的人类,植物基因组有着许多特殊调控现象。董楠卿认为,若将模型能力拓展至植物和微生物领域,一方面更接近于揭示生命通用调控法则,另一方面对人类社会的生存发展同样具有重大意义。
AlphaGenome 的诞生不是终点,而是新起点:以 AI 驱动的基础科学发现新时代正加速到来。


登录后才可以发布评论哦
打开小程序可以发布评论哦