2024-10-16 32文献解读
高通量测序(HTS)可以同时检测和识别样本中存在的任何生物,其在植物害虫诊断中最常见的用途之一是鉴定引起新疾病或病因不明的疾病的害虫;在植物检疫认证计划中,HTS 技术可用于认证nuclear stock、种子和植物繁育材料;还被用于监测和跟踪来源。
随着测序成本的降低、高效测序仪的普及以及用于分析HTS测序数据的生物信息学工具的可访问性的提高,大家对将HTS技术用于常规诊断(包括监管植物健康)的兴趣迅速增加。然而目前缺乏涵盖实验室和生物信息学步骤的统一指南。2022年,《EPPO Bulletin》发表文章介绍了HTS应用于植物害虫检测的一般建议(例如实验室和计算基础设施、质量管理体系)和技术要求,以便实验室为实施植物害虫诊断的HTS技术做好准备,其涵盖了HTS过程的所有步骤。
这些建议适用于检测和鉴定任何植物害虫(如节肢动物、细菌、真菌、线虫、入侵植物或杂草、原生动物、病毒、病毒),也适用于从任何类型的基质(如纯微生物培养物、植物组织)中检测和鉴定植物害虫,无论采用何种 HTS 技术(例如扩增子测序、宏基因组测序)和应用方式(例如监测计划、植物检疫认证、检疫、进口管制)。
目前在植物害虫检测研究中广泛采用两种主要的HTS方法:一是对PCR或滚环扩增产生的扩增子及其相关方案进行测序(也称为靶向测序或metabarcoding);其次,核酸的鸟枪法测序(也称为宏基因组学或random sequencing)。
无论采用哪种方法,HTS 过程都可分为八个步骤。采样(第 1 步)后,HTS实验可分为六个不同的步骤,包括实验室和生物信息学部分,然后是结果的确认和解释。
采样
HTS 检测对样品的要求与其他诊断检测类似。要采样的基质(如含有害虫等微生物的植物组织、环境样本、孢子捕获器、昆虫及其微生物群)可以含有多种生物,也可以由分离的生物组成(如在人工培养基上分离的微生物菌落);
核酸提取
核酸来源可以是含有多种生物或分离生物的基质。核酸可以是基因组DNA或RNA、总DNA或RNA、小干扰RNA或双链RNA;
文库制备
测序
可选择已得到广泛商业化的平台完成测序。
分析原始数据
这一生物信息步骤由多个操作组成,包括对生成的序列进行质量控制(取决于测序技术,允许消除低质量序列和核苷酸),以及(可选)去除接头、index和引物序列。在合并样本的情况下,解复用可以将生成的序列正确分配给每个样本。还可选择进行一些附加分析,以减少数据量并提高分析质量,例如根据重叠区域(如果存在)合并正向和反向reads,或去除重复(相同)reads。
目标识别
这一生物信息学步骤也称为序列注释或分配,旨在将序列与特定生物联系起来。根据HTS检测的使用,序列注释可以是分类学分类(如将reads归属于种、属或科)和/或功能注释(例如确定reads是否属于编码区、内含子、启动子、小RNA、长链非编码RNA、转座子或重复序列)。目前,目标识别总是依赖于与数据库中现有的注释序列进行比较。它可以通过不同的方式执行:(i)对单个reads(reads注释分类);(ii)再将reads从头组装成 contigs;(iii)将reads映射到参考序列(参考组装)上;或(iv)使用这些的组合。在宏条形码中,reads被分组为具有代表性的分群或集群,称为操作分类单元 (OTU) 或扩增子序列变体 (ASV),然后与参考序列数据库进行比较,以确定最可能的生物体。或者,在文库准备过程中引入的人工制品(也称为噪声序列)的reads(例如核苷酸替换、长度变化、嵌合体)可以在 OTU 聚类之前去除(称为去噪)。最终,一旦reads被从头组装、映射到参考序列或分组到 OTU 中,就可以识别每个序列的变异,对应于单核苷酸多态性 (SNP)、核苷酸的插入和缺失或 DNA/RNA 较大部分的整合或缺失(结构变体)。
对照分析
该分析旨在验证HTS运行中包含的所有对照是否产生了预期结果,以识别和消除潜在的假阳性和/或假阴性结果。
目标确认、解释和报告
HTS检测的最后一步包括:(i)确认样本中检测到的目标的身份;(ii)对样品中鉴定的目标物(特别是未鉴定的生物)的生物学和植物检疫相关性的解释;以及(iii)HTS检测结果的报告。
与其他任何分子检测一样,适当的实验室设施有助于确保检测结果的可靠性。例如,由于在样品制备过程中需要经过多个处理步骤并使用多种不同试剂,因此 HTS 检测中的污染问题尤为严重。实验室应按照HTS流程制定工作流程,并为核酸提取和扩增等非兼容步骤划分专门区域。
实施 HTS 需要在数据存储和计算能力方面对信息技术(IT)进行大量投资。生成的大文件需要传输、存储和妥善备份。要在相对较短的时间内运行生物信息学流程,需要具有高计算能力的机器或访问高级计算的云服务。 计划实施HTS检测的实验室应始终探索市场上的最新技术选择,以获得适合其计划执行分析的 IT 基础设施。用于存储的IT基础设施配置应考虑到预期的样本数量、每个样本的数据量(包括原始reads、中间数据文件和最终结果)、与数据安全和保密、维护和数据备份有关的法律或商业义务。需要考虑的其他方面还有操作系统环境(如 Windows、MacOS、Linux),这可能会影响生物信息学算法的选择和版本,以及运行软件所需的计算能力或服务器,以便及时交付结果。还应考虑运行和更新基础设施所需的专业知识水平。因此,建议与实验室组织的信息技术部门密切合作。为确保适当的可追溯性,最好还能为生物信息学管道中的所有分析和用户注册日志。
使用HTS技术需要训练有素的人员,这些人员应具备该过程每个步骤的专业知识,包括实验室和生物信息学部分以及对结果的生物学解释。
与其他任何分子诊断检测一样,只有经过培训的合格人员才能处理样本。序列数据分析需要特定的信息技术基础设施和生物信息学专业知识。生物信息学部分需要训练有素的人员能够正确运行生物信息学流程(软件和数据库的安装、开发、验证、日常使用和定期更新)。此外,还需要相关的科学专业知识来选择生物学特定的设置和参数(如选择相似性阈值来生成 OTUs),以及对数据进行适当的解释(以避免报告假阳性和/或假阴性结果)和评估其生物学相关性。就可能的后续行动(如确证检验)作出决策时,也可能需要相关的科学专业知识。
实验室应建立质量管理体系(包括文档系统),以便追溯任何操作并确定样品或污染的来源。文档系统应描述从采样到结果报告进行 HTS检测所需的所有程序,包括实验室中的不同步骤、生物信息学组件(例如软件版本和设置,其中包含所有参数、脚本和序列数据库版本的详细信息)和数据(例如生物信息学流程每个子步骤的输入和输出文件)。文档系统还应包含有关关键仪器(例如测序机)和所用生物信息学流程的操作程序。
高通量测序技术和方案在其实验室和生物信息学组成部分发展迅速。这种情况可能经常需要更新方案、序列数据库甚至生物信息学流程。实验室应努力通过监控、实施和记录修改来跟踪任何相关变化。
序列数据库是生物信息学分析的关键部分,因此是重点关注点。它们可能不完整或包含错误,而其内容会因科学发现或害虫分类学的变化而不断发展。因此,选择合适的序列数据库对于正确的分类分配以及避免假阴性或假阳性结果非常重要。
序列数据库可以公开获取,也可以由实验室开发(最好来自有记录的参考资料)并维护(即内部序列数据库)。无论哪种情况,都应评估序列数据库,以确保序列在识别至少预期目标方面的准确性。此外,重要的是使用从准确识别的样本生成的序列来编制整理的序列数据库,避免因形态或表型错误识别而导致注释错误的序列,从而导致错误的害虫报告。
序列数据库“应保持最新且随时可用”,并且应记录这些数据库的信息。此类信息包括但不限于版本号、下载日期和原始来源或位置。记录数据库版本很重要,因为有时生物的名称会从一个版本更改为另一个版本。此外,实验室需要确保在升级到新版本时目标生物仍然是数据库的一部分。
将序列上传到公共序列数据库将有助于科学界识别生物。实验室应努力将序列(部分或(接近)完整基因组序列、变异序列)连同可用的生物信息上传到在线数据库,例如NCBI、ENA、BOLD System 。只要有可能,序列就应永久链接到凭证样本。该标本应由实验室保管和/或存放在公立保藏中心。
此外,对于所有流程中涉及的外包服务,建议选择至少与诊断实验室具有同等质量保证管理水平的供应商,最好具有官方认可或认证,如 ISO 9001 或 ISO 17025。应定期对外包服务进行监控,以确保提供商的表现符合预期。
参考文献Lebas B, Adams I, Al Rwahnih M, et al. Facilitating the adoption of high‐throughput sequencing technologies as a plant pest diagnostic test in laboratories: A step‐by‐step description[J]. EPPO Bulletin, 2022, 52(2): 394-418.