MENU

新闻中心

当前位置: 首页» 新闻中心» 科研进展

Advanced Science | 基因组所潘玮华团队开发T2T组装补洞工具GapSuite

2026-02-25 05:20:00

【字体:

  

2026年2月5日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)潘玮华团队联合中国热带农业科学院橡胶研究所、太原理工大学人工智能学院 / 计算机科学与技术学院在《先进科学(Advanced Science)》发表题为 “Time-Efficient and Informatic-Skill-Light Gap-Filling for Telomere-to-Telomere Genome Assembly” 的研究论文。该研究开发出集成化辅助软件工具盒 GapSuite,攻克了端粒到端粒(T2T)基因组组装中 “手动补洞耗时久、技术门槛高” 的核心难题,首次实现非信息学背景研究者在个人电脑上高效完成 T2T 组装补洞,为推动群体T2T 泛基因组研究提供关键技术支撑。



端粒到端粒(T2T)基因组组装是解析复杂基因组区域(如着丝粒、串联重复序列)结构与功能、减少基因变异检测误差的核心基础,已成为基因组学研究的重要方向。然而,当前自动组装流程难以生成完整染色体序列,复杂区域的补洞仍依赖手动操作。整个过程不仅需数周甚至数月时间,还要求研究者掌握编程、Linux 命令行等高级生物信息学技能,这使得大量非信息学背景的生物学家难以参与,严重限制了 T2T 基因组在更大群体、更多物种中的应用,也导致T2T 级泛基因组至今难以实现,进而影响复杂区域的种群进化分析、全基因组关联研究(GWAS)等关键领域进展。


研究团队针对性开发的GapSuite工具盒,包含 Gap-Aid 和 Gap-Graph 两个互补工具,分别通过 “序列延伸” 和 “组装图路径构建” 策略实现高效补洞,核心突破体现在三大方面:


显著降低技术门槛:两款工具均配备可视化交互界面,用户无需编程基础,仅通过鼠标点击即可完成操作:Gap-Aid 可直观展示长读长与缺口侧翼序列的比对及可靠性评分,引导逐步选择可靠序列延伸;Gap-Graph 则将组装图与染色体路径联动可视化,助力快速识别缺口对应节点,实现精准补洞。



大幅提升补洞效率:通过系列技术创新优化时空效率,例如 Gap-Aid 将重复比对任务转化为 “一次性读长比对”,避免迭代计算耗时;Gap-Graph 开发染色体 - 组装图优化对齐算法,解决传统工具难以对齐全染色体的问题。相比传统手动补洞需数周,该工具可将同类任务缩短至数天,且支持 “中途保存、回溯纠错”,适配大缺口补洞需求。



GapSuite 跨物种与多倍体适配性强,在拟南芥、水稻、人类基因组及模拟二倍体、多倍体基因组中均验证有效:拟南芥100kb人工缺口测试中,Gap-Aid组装准确率达 99.999%、插入缺失率仅0.02/100kb,而现有自动补洞工具均无法完成;人类HG002基因组着丝粒缺口经Gap-Graph识别可靠路径,补洞序列与参考序列高度一致。实战中,其成功构建籼稻9311首个T2T基因组(基因组大小从393Mb提升至401.74Mb,BUSCO 完整性98.3%升至99.6%,QV值31.55升至50.5),填补已发表杨树单倍型基因组3个遗留缺口(序列长度30265bp、15443bp、22090bp,含线粒体相关基因及串联重复区域),还在模拟三倍体番茄基因组100kb人工缺口测试中精准填充,经 k-mer 分析、共线性比对证实与真实序列高度一致。


该研究的核心价值在于打破了T2T基因组组装补洞的 “技术壁垒”:以往仅需基因组组装专家才能完成的工作,如今湿试验研究人员等非信息学背景人员也可独立开展,为T2T泛基因组在种群级研究(如数百个个体的复杂区域变异分析)、更多非模式物种中的应用奠定基础。未来,结合计划开发的 “变异可视化”“自动路径推荐” 功能,GapSuite 将进一步提升复杂区域补洞效率,其 “人机协同” 模式还可拓展至多倍体、宏基因组等低质量组装的手动校正,助力更全面、精准的基因组解析。


中国热带农业科学院橡胶研究所助理研究员许东、中国农业科学院深圳农业基因组研究所研究生赵贤嘉、研究员商连光以及太原理工大学研究生田少龙、李雁春为该论文共同第一作者,中国农业科学院深圳农业基因组研究所潘玮华研究员与太原理工大学李东喜教授为共同通讯作者。该研究得到国家重点研发计划、国家自然科学基金、中国农业科学院重大任务、中国农业科学院青年创新专项项目、热带作物育种国家重点实验室项目及山西省基础研究计划等项目资助。GapSuite 工具盒(含用户手册、示例数据、教程视频)已在 GitHub(https://github.com/panlab-bioinfo/GapSuite)开源,相关测序数据可在国家基因组科学数据中心(PRJCA035559)获取。


原文链接:https://doi.org/10.1002/advs.202518319


TOP TOP