锐龙三代的提升_三代测序数据组装算法——wtdbg2,速度大幅提升 | Nature Methods

最近,中国农业科学院农业基因组研究所阮明博士与美国加拿大-farber癌症研究所李恒博士合作开发了三代测序数据组装算法wdbg2,其速度是已经发表的工具的2~17倍,实现了相当的连续性和正确性,未来人口规模较长 这项研究以文本信息的形式在Nature Methods杂志上发表了报道“fastandaccuratelong-readassemblywithwdbg 2”。

De novo序列的组装是从较短的reads重建样本基因组,对研究新物种和基因组结构的变化至关重要。 但是,由于参考基因组可能缺乏目标序列,因此基因组结构的变化常常无法进行基因映射分析。 随着Oxford Nanopore Technologies、PacificBiosciences等三代测序公司强力开发单分子测序技术,科学家可以以低成本测序10~100kb的序列。 这种长reads有助于分析灵长类的主要重复序列,提高基因组的连续性。

目前科学家正在开发一些高质量的长读测序算法,这些算法已成为细菌和小型基因组组装的常用算法。 但是哺乳动物的基因组,使用现有的组装算法可能需要庞大的计算资源。 商业云服务的计算成本与PromethION搜索器的搜索成本相当,该设备可以在两天内以30×的垄断率搜索人类基因组。

为节约计算资源,降低成本,阮珐博士和李恒博士共同开发了wtdbg2。 这是一种新的长读长测序算法,在大型基因组装中,该算法的速度提高了几倍,同时对装配质量的影响很小。

锐龙三代的提升

图1. wtdbg2算法概述。 Wtdbg2将256bp分组为bin。 资料来源: Nature Methods

Wtdbg2符合overlap-layout-consensus模式。 该算法是基于模糊流程图( FBG )理论开发的,通过快速全面核对序列数据提高了组装效率。 研究人员通过四组数据对wtdbg2和CANU、FALCON、Flye、MECAT-180314和Ra算法进行了评估。 结果表明,wtdbg2速度至少是其他算法的2~17倍,其组装连续性和精度与其他算法相匹敌。

锐龙三代的提升

图2. wtdbg2在人类基因数据集中的组装表现。 资料来源: Nature Methods

研究人员利用wtdbg2组装了4个附加的人类基因数据集(图2 )。 。 数据显示,在一台计算机上,wtdbg2能够在两天内完成四个基因数据集的组装,其性能与PromethION设备的测序流量基本一致。 相反,Flye和CANU分别需要约5,000和约40,000个CPU时间。 另外,wtdbg2使用了235Gb的存储器,只使用了Flye的一半。 相对较低的内存占有量有助于wtdbg2扩展到巨大的非人类基因组。 在两天内,wtdbg2算法可以在1.2TB存储器中嵌入32Gb的蝾螈基因组,NG50为392kb,大于已发布的序列长度。

这项研究于2013年开始,从2016年开始,wtdbg2免费提供https://github.com/Ruan Jue/wdbg 2。 wtdbg已被数十篇论文引用,被许多基因测序公司使用。 2019年1月26日,这项研究首先发表在bioRxiv。

10年前,短读长测序技术进入市场时,庞大的数据迅速淘汰了以前开发的组装算法。 随着测序市场的发展,面对人口规模测序的需求,产生了长期阅读长度的测序技术。 然而,当前长读长测序数据的组合算法需要数千小时的CPU来组合人类基因组,在完整性和成本方面测序技术不断发展。 阮珐博士和李恒博士共同开发的长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长读长

大家都在看

相关专题