MENU

新闻中心

当前位置: 首页» 新闻中心» 媒体报道

【深圳商报】深圳科学家开发基因组新算法,首次将测序数据分析时间降低到少于测序数据产生时间

2019-12-11 12:00:00来源:

【字体:

  

12月10日零点(北京时间),中国农科院深圳农业基因组所研究院(简称“基因组所”)阮珏团队在《自然·方法学》(NatureMethods)上发表第三代测序数据组装算法wtdbg。

据了解,该算法极大提高三代测序数据的分析效率,与2019年4月1日在《自然·生物技术》(NatureBiotechnology)上发表的Flye算法相比,分析速度提升了5倍,并首次将测序数据分析时间降低到少于测序数据产出时间。

科研人员表示,基因组学技术飞速进步既源于测序技术的发展,同时也依赖于数据分析技术的提高。如今,完成一个人的全基因组测序已是普通实验室甚至家庭都可负担得起费用的“平常”事。以三代测序为例,完成一个人全基因组测序仅需1天时间,费用不到5万元。但如果是在5年前,完成这样数据规模的全基因组组装分析,需要消耗50万个CPU小时,且只能在超大计算机集群上进行。当时的情况下,同时对大量个体进行组装分析是难以想象的,现在以全基因组组装方式对群体进行测序分析已成为生物和医学研究的趋势。

近年来,生物信息学领域的科学家们致力于改变这种数据产出速度高于数据分析速度的尴尬状况,不断开发出更高效的组装分析算法。基因组所成立之初就布局成立组学技术研究中心,致力于将前沿测序技术引入农业科学研究中,阮珏团队多年来始终专注于测序数据分析方法如组装算法的开发,力求推动测序数据的分析速度更快、分析质量更高。

据介绍,Wtdbg算法的开发得益于一个新的组装图理论(FuzzyBruijnGraph,模糊布鲁因图)的提出。模糊布鲁因图借鉴了德布鲁因图(deBruijnGraph)的思想,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。德布鲁因图以速度优势常用于第二代测序数据的组装分析,但因测序噪音极高的难题,从未成功应用在第三代测序数据。模糊布鲁因图重新对短串进行定义,使之能够容忍高噪音数据,并随后对生成组装图和恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。

阮珏与美国哈佛医学院李恒博士合作完成的第三代测序数据的组装算法研究始于2013年,研究成果自2016年起对所有人免费开放使用,不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具,并在2019年世界大学生超算竞赛中作为性能测试赛题。

TOP