IT之家 13小时前
阿里开源首个统一科学大模型LOGOS
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 6 月 18 日消息,阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院,今日宣布开源首个基于统一 " 科学语法 " 的多领域科学生成基础模型 LOGOS(Language Of Generative Objects in Science)

在六大代表性科学任务上,LOGOS 以纯序列建模范式,一致性地匹配或超越了领域专用方法。

尤其值得关注的是它的参数效率。LOGOS-1B 仅用 1/56 的参数量(1B vs 8 × 7B),就在多个任务上超越了微软 NatureLM,展现了极高的参数效率。

LOGOS 构建了涵盖 7 类模态、总计 44.87B tokens 的庞大预训练语料库:

生物大分子层蛋白质(28.9B tokens)+ 抗体(3.0B tokens)

化学实体与转化层小分子(2.1B tokens)+ 化学反应与 MOF 材料(0.47B tokens)

界面互作层蛋白质口袋(5.8B tokens)+ 蛋白口袋 - 配体复合物(4.6B tokens)

LOGOS 设计了一套共享词表,把蛋白质、小分子、材料等原本 " 鸡同鸭讲 " 的异构对象,全部编码成统一的离散 Token 序列。这让它们得以在同一个生成空间中被大模型 " 自回归 " 地理解和生成。

此外,传统 AI 要看懂蛋白质和小分子怎么结合,须依赖显式 3D 坐标和复杂的几何神经网络。LOGOS 发明了一种 " 文字描述法 ":它把 3D 空间接触模式直接 " 语法化 " 为离散 Token,完全不需要输入 3D 坐标,仅靠 " 读文字 "(序列预测),就能在脑海里构建出复杂的 3D 空间互作规律。

传统范式中,换一个研究环节(比如从结构预测换到分子生成),往往就得换一套新模型和新假设。同时,预训练目标与下游任务之间存在显著的 " 目标偏差 ",这种 " 学用脱节 " 导致模型落地时需要大量微调。

LOGOS 的科学语法设计彻底解决了这个问题:

形式一致:预训练数据的序列形式等于下游任务的输入输出形式

目标一致:预训练的 next-token prediction(预测下一个词)等于下游的条件生成目标

这种 form-objective alignment 有效消除了预训练与下游应用之间的 gap,无需复杂的适配层或大量微调即可激活生成能力。

统一语法不仅让科学对象们 " 语言相通 ",更让它们在底层 " 知识共享 "。比如模型看到蛋白质的 " 方言 "(氨基酸口袋序列),能直接 " 翻译 " 出小分子的 " 方言 "(SMILES 结构)。这证明它真的学会了两者之间的对应关系。

LOGOS 完整开源了模型权重、推理代码与技术报告,IT 之家附开源地址如下:

HuggingFace:https://huggingface.co/LOGOS-Hub

GitHub:https://github.com/LOGOS-Hub/LOGOS

技术报告 ( Paper ) :https://arxiv.org/abs/2606.16905

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 语法 开源 中国人民大学 生物
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论