科技快讯网 06-19
阿里云生物基础大模型登上Nature子刊,可挖掘核酸、蛋白质之间的内在联系
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

6 月 19 日消息 , 国际顶级期刊《Nature Machine Intelligence》发表了阿里云 AI for Science 的研究成果 LucaOne。这是业界首个联合 DNA、RNA、蛋白质的生物大模型。该大模型学习了超 16 万个物种的 12 亿条核酸序列及 6 亿条蛋白序列数据 , 不仅可以挖掘核酸、蛋白质的内部特征 , 还可识别核酸与蛋白质之间的联系 , 帮助研究人员探索更多生物系统的内在逻辑与规则。

Nature Machine Intelligence ( 以下简称 NMI ) 是 Nature 于 2019 年创立的期刊 , 收录方向覆盖计算生物学、模式识别和计算机视觉等多个领域 , 期刊影响因子一直位居行业前列 , 是业界公认的人工智能和机器学习领域的国际顶级期刊。

据介绍 , 阿里云研究团队首次基于 DNA、RNA 和蛋白质等生命科学领域最主要的数据进行混合训练 , 涵盖 12 亿条核酸序列和 6 亿条蛋白序列 , 同时引入生物领域内基础的标签信息 , 让模型学习到丰富的生物信息。在模型结构上 , 研究团队采用 Transformer-Encoder 架构 , 在自监督学习的基础上 , 设计了 8 个不同级别的半监督学习任务 , 有效增强模型的学习能力。

(LucaOne 技术框架)

实验结果显示 , 在中心法则验证 ( CentralDogma ) 、物种 Genus 分类 ( GenusTax ) 、蛋白质位置 ( ProtLoc ) 、蛋白质稳定性 ( ProtStab ) 、非编码 RNA 的类型 ( ncRNAFam ) 、流感病毒预测 ( InfA ) 等 8 个下游任务验证中 ,LucaOne 的表现均领先于现有的生物大模型。

NMI 表示 : 该研究展示了对分子生物学中心法则的全新理解 , 极大地增强了研究人员对生物信息学分析的能力 , 可以帮助人类探索分子生物学的未知领域。

据介绍 ,LucaOne 的模型代码、训练代码、推理代码等已全面开源 , 科研人员可基于该模型进行二次训练、垂直领域生物模型构建、Embedding 推理、Embedding-based 分析、Embedding-based 下游模型构建等。目前全球已有 10 多家公司和团队使用该模型。

过去几年 , 阿里云积极与国内高校和研究机构展开合作 , 在生命科学领域已发表核酸和蛋白质统一基础模型 -LucaOne ( NMI 2025 ) 、RNA 病毒发现 -LucaProt ( Cell 2024 ) 、磷循环蛋白家族识别 -LucaPCycle ( NC 2025 ) 等研究成果。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里云 生物 dna 生命科学 机器学习
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论