浪潮 2019-08-02
探寻五千年历史变迁,浪潮AI加速中国考古DNA研究
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

中国首座 " 考古 DNA 实验室 ",借助浪潮 AI 计算的 FPGA 产品方案,其对古人类的全基因组样本(WGS)分析时间,从原来的 2 周缩短到近 9 小时。

神秘的古DNA研究有多 " 难 "?

上下五千年,各民族在中华大地上生息繁衍、融合变迁,留下了很多未解之谜。为了解开这些谜团,考古学、民族学专家运用多种方法进行了探索。近年来兴起了一种新方法——古 DNA 技术,为考古研究提供了更加直接有力的证据,开辟了全新的视角。

古 DNA 是指从古代人类和动物遗骸以及古生物化石中提取的古代生物分子。把古代 DNA 数据同现代基因库中的数据资料相结合,便可以构建出某一生物门类的系统发育树,从而进一步探讨人类的演化与迁移、民族融合、早期农业发展、动植物的家养与驯化过程等重大问题。

古 DNA 研究需要经过提取、扩增、测序等步骤,比现代 DNA 研究要难得多。特别是提取 DNA 分子非常困难,因为古生物没有特别的存储条件,在自然环境下,DNA 完好地保存下来并不容易。DNA 储存在细胞核内,生物体在死亡过程中,细胞就会逐渐发生自溶,DNA 很快会被降解。另外,在高温和潮湿的条件下,DNA 自身也容易发生水解、断裂。同时,即便有细胞保存下来也会碰到其它微生物的进驻,所产生的酶类也会把原细胞内的 DNA 破坏掉;因此,一般死亡的动物和人的遗体,DNA 很难完整保存下来。

这些原因使得古 DNA 基因序列片段比现代 DNA 更短,导致古 DNA 测序比现代 DNA 也要更复杂。不仅读取、比对的数据量更大,测序之前还需要去除 DNA 片段两端的接头序列,进行数据清洗与处理流程。

中国首座考古DNA实验室如何解难题?

为了更好地保护中国基因资源,推动中华民族基因研究,1998 年,吉林大学考古系与生命科学学院合作开展了有关古 DNA 方面的研究工作,由此中国第一座 " 考古 DNA 实验室 " 落成。边疆考古研究中心人类学实验室与考古 DNA 实验室合作攻关重大研究课题,取得了多项全国乃至全球领先的研究成果。

随着 DNA 考古研究的逐步深入,考古 DNA 实验室已有超过万例的古人类、古动植物样本,数量位居全国第一,建立我国边疆地区古代 DNA 基因库的时机日益成熟。但样本数量增加也带来了新的难题,原有的计算设备已难以在短时间内完成大量的基因测序数据处理工作。全基因组样本分析(WGS)与全外显子组样本(WES)分析是目前 DNA 研究的不可或缺的两大分析流程。然而,使用当前以 CPU 为基础的计算架构开发的 GATK Best Practices 工作流程,需要数天甚至数周才能完成单个个体的基因组变异识别。

此外,古 DNA 基因序列片段更短导致数据处理量更大,对计算力的要求也更高。数据清洗、测序过程中,需要用到非常多的不同于现代 DNA 测序的应用软件,如何实现这些应用软件的快速移植与开发也是一大挑战,影响古 DNA 的研究速度。

" 我们之前一直用台式工作站做古 DNA 的测序数据处理,一般完成一次古人类的全基因组样本分析需要耗时至少两周,过程中还要面临宕机带来的处理流程中断风险。按这种效率,我们要建立边疆地区古代 DNA 基因库几乎是一个不可能完成的任务。" 吉林大学边疆考古研究中心副主任蔡大伟教授介绍说," 但是,这个问题必须尽快解决,古 DNA 研究一刻都不能耽误 "。

浪潮为解决这一难题提供了新思路,作为中国 AI 计算的领军企业,浪潮专门为基因测序开发了 FPGA 加速计算方案,FPGA 具有可编程、并行计算、低延迟的优势 , 能够为基因测序、语音识别、视频处理、风险管理等 AI 和 HPC 场景提供强大的加速。经过严苛测试和全面考察,吉林大学考古学院决定和浪潮合作,将 FPGA 技术运用到古 DNA 基因测序中,打造我国 DNA 考古领域的首个 FPGA 基因测序加速应用方案。

提速39 基因测序处理速度实现飞跃

新的基因测序加速计算方案采用了浪潮研发的 F10A FPGA 加速卡作为核心计算模块,集成了峰科的 GATK 基因处理软件。浪潮 F10A 是目前业界支持 OpenCL 的最高密度、最高性能的 FPGA 加速设备,尺寸为半高半长功耗仅 35W,可以适用于数据中心、边缘及桌面等各种复杂计算环境,每瓦特性能达到 42GFlops,可以加载专业的软件算法库。集成的峰科的 GATK 基因处理软件与标准生物信息学分析工具完全一致,包括 GATK Best Practices 的所有流程,如 BWA、picard 和 GATK。它完全依照原软件模型,调用命令与原版本一致,中间产生与原样本一致的中间结果文件,方便用户使用和调整。

 浪潮 F10A 加速卡

测试显示,搭载浪潮 FPGA 基因测序加速计算方案可在 9.64 小时内完成全基因组分析,48 分钟完成全外显子组分析,相比基于 CPU 的方案,基因数据处理速度提升 39 倍。

目前,基于新的基因测序加速计算系统,吉林大学考古 DNA 实验室的科研工作者正在对我国北方地区的草原游牧民族,如匈奴、东胡、鲜卑、乌桓、契丹、蒙古等诸族的人骨以及出土的动植物进行古 DNA 的提取和研究工作,并开展我国新疆地区古代 " 丝绸之路 " 沿线各民族相互关系、人群间的迁徙及混杂过程、经济文化生活、自然环境与人类相互关系等相关研究,不断为古代历史、文化、民族研究提供新的资料,开拓新的领域。如蔡大伟教授及其团队正在攻关国家社会科学基金重大项目 " 古动物 DNA 视角下的丝路文化交流研究 ",从古动物 DNA 入手,还原丝路沿线古代动物群体起源与扩散的历史过程,揭示丝绸之路上东西文化交流的历史细节。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

dna 浪潮
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论