2024-10-14 162文献解读
结构变异(SVs)对人类基因组多样性有重要贡献,在精准医学中起着至关重要的作用。尽管单分子长读长测序技术的进步为SV检测提供了突破性的资源,但准确、稳健地识别SV断点和序列仍然具有挑战性。2024年8月,《Nature Communications》发表了一种创新的混合SV检测流程——VolcanoSV,其同时利用参考基因组和局部从头组装生成分阶段二倍体组装;利用阶段性SNP和独特的k-mer相似性分析,可以精确地发现单倍型解析的SV。
为了解决现有的基于校准和基于组装的方法的局限性,开发团队提出了一种创新的混合SV检测流程——VolcanoSV,利用分阶段的snp生成分阶段的二倍体组装,用于精确的单倍型解析SV分析。
VolcanoSV使用参考序列和长读长数据来生成高质量的单倍型解析二倍体组装,然后从中全面检测SV并消除假阳性。VolcanoSV不仅限于SV,还集成了两个模块来收集SNP和小indel,并进一步完善这些小变异。VolcanoSV 的主要工作流程由两个关键组件(VolcanoSV-asm 和 VolcanoSV-vc)组成,它们通过六个概念模块相互连接:(a)依赖于单倍型定相的分区读段(VolcanoSV-asm);(b)通过独特的 k-mer 相似性分析进行非定相读段分配(VolcanoSV-asm);(c)通过增强相位块进行单倍型感知的局部组装(VolcanoSV-asm);(d) 基于 Contig 比对的大型 indel SV 检测和细化(VolcanoSV-vc);(e) 复杂 SV 收集、恢复和过滤(VolcanoSV-vc);(f) 小 indel 收集和细化(VolcanoSV-vc)。最终输出是分阶段的变异调用格式 (VCF) 文件。
VolcanoSV擅长构建全面的遗传图谱,包括SNP、小indels和所有类型的SV,使其非常适合人类基因组学研究。开发团队广泛的实验表明,VolcanoSV在检测插入和缺失SV方面超越了最先进的基于组装的工具,在包括低覆盖率(10×)数据集在内的各种数据集上表现出卓越的召回率、精确度、F1分数和基因型准确性。在模拟和真实的癌症数据中,VolcanoSV在识别复杂SV(包括易位、重复和倒位)方面优于基于组装的工具。此外,VolcanoSV对各种评估参数具有稳定性,并能准确识别断点和SV序列。
VolcanoSV 成为不同长读长数据集中基于组装的 SV 检测的首选,在 F1 分数、召回率、精确度和 GT 一致性方面表现出卓越的性能和一致性,尤其是在 PacBio HiFi 和 CLR 数据集中。VolcanoSV 在 F1 分数、精确度和 GT 一致性方面仍然表现出其对 ONT 数据集的优势。在插入和删除的召回率方面,VolcanoSV 在 6 个数据集中的 3-4 个中实现了最佳召回率。
VolcanoSV 揭示了大量独特的真实结构变异,且其在大多数SV大小范围内都表现出顶级准确性,但10-50kb范围内的插入除外;同时,VolcanoSV展示了在模拟和真实癌症数据集中识别复杂SV的能力。
VolcanoSV 在低覆盖率数据集上保持了优异的性能:在所有覆盖率(5-50 ×)中,与其他三种工具相比,VolcanoSV 保持了最佳的基因型准确度。
VolcanoSV 对 SV 评估参数具有稳定性。
综上,VolcanoSV 具有多项优势功能。(1)它的表现优于最先进的基于组装的 SV 调用程序,在各种数据集(包括低覆盖率 (10x) 数据集)中表现出更高的召回率、精确度、F1 分数和基因型准确性,而不会影响准确性。(2)VolcanoSV 与所有主流长读长测序平台兼容,这些平台的测序错误率差异很大,并且可以发现各种类型的 SV,包括缺失、插入、重复、倒位和易位。此外,VolcanoSV 在检测和定相 SNP 和小插入缺失以及 SV 方面表现出色。(3)它通过准确识别断点和 SV 序列表现出更强大的性能。(4)基于组装的 SV 调用组件 VolcanoSV-vc 具有较低的错误发现率。凭借这些功能,VolcanoSV 非常适合为人类基因组学研究生成全面的遗传图谱。
所有代码均可在GitHub上获得: https://github.com/maiziezhoulab/VolcanoSV.
参考文献:Luo, C., Liu, Y.H. & Zhou, X.M. VolcanoSV enables accurate and robust structural variant calling in diploid genomes from single-molecule long read sequencing. Nat Commun 15, 6956 (2024). https://doi.org/10.1038/s41467-024-51282-0