MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

Nature Computational Science | 易会广团队破解宏基因组参考库的可拓展性难题,实现秒级、线上宏基因组分析

2025-09-01 03:18:00

【字体:

  

宏基因组的精确物种组成及丰度分析需依赖尽可能全面的参考基因组库,而参考基因组的多样性正在快速增加。目前传统的参考基因组库构建和使用方法所需的计算资源已接近或超过普通计算机的极限,导致其难以普及给广大普通用户使用,此即宏基因组参考库的可拓展性难题。另一方面,由于网络带宽及稳定性的限制,使得较大的组学数据如宏基因组测序数据难以上传到在线平台进行分析,此即宏基因组线上分析的网络瓶颈问题。解决这两大难题对于高精度大规模宏基因组分析、宏基因组大样本数据汇集及宏基因组AI大模型的构建具有重大意义。


8月29日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)易会广团队在《自然·计算科学(Nature Computational Science)》上发表了题为“MetaKSSD: Boosting the Scalability of Reference Taxonomic Marker Database and the Performance of Metagenomic Profiling Using Sketch Operations”的研究论文。此研究发布的MetaKSSD是在课题组的前期成果——基于K-mer子序列空间抽样(KSSD)的基因组素描方法(sketching)——的基础上,提出了素描运算(sketch operation),即k-mer抽样子集(素描)上的集合运算(包括交、并、减),进而将宏基因组参考库(MarkerDB)的构建与物种组成及丰度分析过程表述为一系列素描运算(图一),最终令参考库的可拓展性——定义为单位存储的物种多样性承载力——比之前的最优方法提升了53倍。


图一 | MetaKSSD算法原理


MetaKSSD 展现了显著的速度优势:以约 11 GB 的样本为例,约 11 秒即可完成丰度分析。为降低使用门槛,MetaKSSD还提供了客户端—服务器工作模式:本地仅进行素描构建(~ 2 MB),即可在有限带宽环境下实现实时在线分析(图二)。同时,在队列研究中,MetaKSSD 相比传统方法发现了更多有效的微生物组—表型关联,显示出在微生物组研究与应用中的广阔潜力。


凭借MetaKSSD的计算效率,团队进一步对 382,016 个 SRA 宏基因组样本开展了大规模分析,构建约400MB的稀疏丰度向量数据库,实现亚秒级(约 0.17 秒/次)样本相似性检索与环境谱系对比。


图二|MetaKSSD的计算效率


深远意义与未来展望

这项研究展示了看似复杂的宏基因组物种组成及丰度分析其实可以转化为简单而高效的素描运算。然而,素描运算作为一种基础的算法框架,它在组学数据分析中的可能应用并不局限于宏基因组物种丰度分析。对于其他各类纷繁复杂的组学研究任务,是否能够及适合转化为素描运算以提高效率或精度,是一片十分值得去挖掘和探索的广阔蓝海。


另一方面,通过客户端,MetaKSSD将宏基因组的原始大数据转化成素描小数据后再传输到服务器端进行分析,从而避免了传输原始大数据的网络瓶颈,使得在线分析变得便捷稳定,这为大规模用户间的实时素描共享以及联合分析提供了可能性。随着基因组测序的普及,可以预见将来绝大部分的样本测序数据来源于生信技能有限的普通人,那么一个便捷稳定的自动化在线分析平台就会成为汇集全球大样本素描信息的中心,而基于汇集的大样本素描的联合分析及以此构建的AI大模型又可能驱动新的科学发现,此即本研究所展望的“素描通讯”。


基因组所(大鹏湾实验室)易会广副研究员为论文通讯作者和第一作者。科研助理卢晓欣、常青(已离职)参与了该研究。


该研究得到广东省实验室专项启动经费、广东省实验室科研任务多组学算法开发、广东省实验室基本科研、深圳市博士后出站科研资助和深圳市大鹏新区博士后出站科研资助等项目的支持。


原文链接:https://www.nature.com/articles/s43588-025-00855-0


MetaKSSD代码链接:https://github.com/yhg926/MetaKSSD

TOP TOP