2024-10-24 48文献解读
必须明确HTS检测的预期用途(即检测或鉴定)、目标生物体和检测基质,以确保HTS方案适合目的。当使用HTS时,目标生物体可以是一种或多个变种、种、属、科或生物组(如细菌、真菌、病毒),从一系列基质(如植物、土壤、水)中进行检测。在确定范围时,应考虑样本的质量和数量,因为在处理某些诊断样本时可能无法重新取样或重新检测。
HTS检测的实验室部分包括几个步骤,从采样到测序。每个步骤都要经过开发、优化和验证,才能用于常规检测。在对HTS检测进行验证后,应在日常使用过程中使用适当的对照措施来监测其性能。
1. 采样流程
样本类型(例如不同的植物部位)和采样季节会影响任何诊断检测的结果,包括 HTS检测。尽管实验室可能不参与采样,但实验室可能需要推荐采样程序。这样的程序应该描述材料的类型(例如植物的组织)、所需的最小材料量、组成一批的样品数量,以及(如果相关)采样季节和对有症状和/或无症状材料进行采样的要求。该程序还应定义如何处理不符合这些标准的样本。
一些采样程序不需要操作员的任何监督,可以被视为自动化或半自动化。有些昆虫诱捕器(即陷阱和吸力诱捕器)和真菌诱捕器(即孢子诱捕器)几天甚至几周无人看管,这就是这种情况。在这种情况下,应考虑在整个采样阶段保存 DNA 和 RNA 的必要性。DNA 保存剂的例子包括:不同浓度的乙醇、二甲基亚砜、丙二醇和 RNAlater®。在采样时可能还需要保存植物 DNA 和/或 RNA(例如 RNAlater® 用于 RNA 保存),以便运送到实验室或外部服务。
2. 样本处理
与任何诊断检测一样,样本的质量会影响HTS检测的结果。实验室应制定程序,包括防止样品之间交叉污染的措施、二次取样、样品的登记和可追溯性、收集和实验室接收之间的样品保存(例如用乙二醇/乙醇保存的昆虫)、运输到实验室(例如冷链箱容器、避免脱水的塑料袋)、接收时样品状况的评估、储存(例如到达时的冷藏室储存)、分装、保留和处置。
3. 确保核酸的质量和数量
核酸的质量(就纯度和完整性而言)和数量(即 ng/μL)很重要,因为它们会影响 HTS检测的结果。在大多数情况下,提取纯度和完整性足以满足PCR或实时PCR(RNA 提取物先进行逆转录)的核酸的方案应该适合HTS检测,特别是基于扩增子的情况下。但是,一些文库制备方案具有更高的核酸完整性和/或最低浓度要求。长读长HTS技术通常就是这种情况。最终,应检查提取的核酸的质量,并预先确定最低阈值(例如,最小、平均或最大片段长度、最低可接受纯度或产率)。根据他们的经验,实验室可能会根据其用户偏好/经验和其所在地区的试剂可用性,偏好某些提取方案。可能需要针对特定生物/基质对方案进行特定调整。
在某些类型的基质(例如水样)中,样品中的目标浓度可能非常低,这可能导致无法检测到它们。可以将目标富集或选择步骤包括在核酸提取方案中或之前,以提高 HTS检测的分析灵敏度并通过减少每个样本的读reads数来降低成本。富集方案的选择取决于目标基因组 [例如病毒的基因组(如单链RNA、双链RNA(dsRNA)、总RNA、环状DNA)]、其物理特性(例如类病毒裸露RNA、衣壳化病毒RNA/DNA、受细胞壁保护的细菌和真菌DNA)和基质(例如植物、土壤、水)。对于植物样品,有许多方案可以提高灵敏度。例如,通过超速离心富集病毒颗粒、从总RNA中去除核糖体RNA(rRNA)或通过纤维素亲和层析富集 dsRNA(使用或不使用额外的核酸酶处理)。当针对具有环状基因组的DNA病毒时,滚环扩增也经常用作富集流程。还可以设计针对特定害虫的低浓度靶向富集,以提高HTS检测的灵敏度。
4. 文库制备方案
无论采用哪种HTS方法,文库制备方案的选择都取决于所使用的HTS技术。
对于鸟枪法测序,方案通常以包含所有试剂的试剂盒形式提供。它们的选择取决于技术标准(例如提取核酸的最小所需数量和完整性以及目标核酸的预期比例)、所需时间、所需人员、试剂和耗材的成本。目标核酸的富集也可以在文库制备过程中进行。它可以基于大小选择或使用特定寡核苷酸来消除非目标核酸(例如植物样本中的核糖体 RNA)或特异性地选择目标核酸。例如,已经证明通过特定寡核苷酸去除植物核糖体RNA可导致病毒序列富集10倍。
对于通常依赖于PCR步骤的扩增子测序,应特别注意选择引物以确保目标生物能够被扩增。最好使用高保真聚合酶,以尽量减少由于核苷酸错误掺入而导致的扩增误差 。应选择PCR循环数以确保PCR仍处于指数期。宏条形码PCR扩增靶向基因组的一小部分区域,即条形码,通常对应于基因的部分序列。在选择用于宏条形码分析的条形码时,应考虑可能扩增宿主序列的风险,并可通过选择合适的引物或使用阻断寡核苷酸来降低风险。
5. 文库Pooling水平
可以将多个文库pooling,每个文库都由特定的核酸序列(也称为 MID 或 index)独立标记,以降低测序成本,同时考虑到每个样本预期的最小reads数。然而,pooling过程会导致每个样本生成的reads数量变化更大,并且由于在文库准备和测序期间(即index-hopping或index switching)或测序运行之间(即如果在连续运行中使用相同的index,则会发生运行间污染)可能发生的标记交叉污染,增加了将reads分配给错误样本的风险。由于index中的测序错误,在解复用步骤中也可能会发生index错误分配。当使用pooled文库获得高测序深度时,风险会增加,因为可以检测到非常低的误差水平。实验室还应注意预期的index错误分配率,因为使用的测序平台之间存在差异。
可以在Illumina平台上使用双indexes减少样本错配,而使用独特的双indexes几乎可以消除样本错配,从而提高识别index-hopping的生物信息学能力。另一种选择是使用足够长且不同的index,以便它们的识别是稳健的并且可以容忍一些测序错误。然而,这些选项只能限制index-hopping的问题,因为它们没有考虑其他来源,例如由于连接自由接头而产生的嵌合序列。在测序之前将文库pooling或添加一个步骤以移除自由接头也可以减少这些(错误)分配问题。每次运行中包含的index集序列应记录下来,以便进行回溯和计划后续的测序运行。
pooling还要求池中每个文库的核酸量是标准化的。这可以最大限度地减少但不能消除导致样本之间产生不均匀序列数量的pooling偏差。实验室应意识到与pooling相关的风险,并证明所使用的pooling策略不会影响检测性能(例如较低的检测水平、较高的污染)。pooling方法取决于要测序的目标所需的reads次数,应进行优化以确保HTS检测符合其预期用途的标准。
6. 测序平台
实验室应考虑最适合HTS检测预期用途的测序平台和测序输出。影响测序平台选择的参数的非详尽列表如下:
每批收到的预期样本数和每个样本所需的reads数。通常,每个样本生成的reads数越多,样本中存在的所有目标被识别的可能性就越高,但这将增加成本,并可能增加检测低水平污染的风险。
每次测序运行生成的reads总数。通常,可以从产生更多输出的技术中获得更高的通量(以及更低的样本成本),从而允许每次运行更多的样本。
所需的测试周转时间(如易腐材料的紧急测试)。有些技术的单次分析需要较长的运行时间。如果急需结果,操作人员可能更愿意选择价格更贵但速度更快的技术。
reads的长度和类型(例如选择单端或双端测序)。
错误率和错误类型,因测序平台和运行而异。产生较长读取但错误率较高的技术通常被认为更适合单个纯化生物体的基因组测序,其中同一区域被多次测序,因此可以纠正测序错误。另一方面,宏条形码分析通常应优先考虑较低的错误率,因为它旨在对来自多个个体的同一基因区域进行测序,而测序错误可能会被误解为遗传变异。
对下游生物信息分析的影响(取决于序列的数量、长度、质量和准确性)。
生物信息支持、平台(外包时)、实验室资源和技术专长以及制造商技术支持水平的可用性。
测序仪操作所涉及的费用——购买和维护。测序平台会定期更新,实验室应密切监测这些更新,并评估其对HTS检测结果的潜在影响。
7. 防止污染
污染问题对HTS检测尤为重要,因为HTS检测与PCR检测一样,甚至更容易受到污染。HTS检测的高污染风险来自样品制备过程中的多个处理步骤和更多试剂的使用。此外,由于HTS检测范围广、检测特异性强,因此检测污染物的可能性也很高。污染可能发生在实验室方案的不同步骤(即采样、核酸提取、文库制备、测序)。污染源可能包括样本处理、实验室表面和设备/工具污染、试剂和携带物。
经常观察到测序仪连续使用之间的污染(即残留污染)。此外,当在单个测序实验中复用多个样本时,可能会发生污染,即由于其他样本的痕迹或样本之间的index-hopping而导致制备的核酸之间的交叉污染。研究还表明,用于HTS的实验室试剂(如DNA提取试剂盒或分子级水)的污染可能会影响使用鸟枪法或扩增子测序测试获得的结果。
此外,应采用分子实验室的最佳实践(例如使用“干净”的试剂、耗材、工具和设备,频繁更换一次性工具以及频繁清洁工作台、设备和工具)。强烈建议将疑似含有高浓度目标生物的样本与其他样本进行物理分离。
尽管采取了一切预防措施,但仍可能发生一些污染,例如由于混合样本的index-hopping而导致的交叉污染。因此,应在整个HTS测试过程中监测污染水平。
生物信息分析是HTS检测的关键要素,因为它可能产生假阳性和/或假阴性结果。它由用于分析原始测序数据的连续算法(通常称为流程)组合而成。
正确的生物信息学分析依赖于对 “生物信息学三要素 ”的适当选择,即(i) 算法,(ii) 算法参数和阈值,(iii) 序列数据库。
1. 分析raw reads
生物信息学分析的第一个子步骤是通过查看测序过程中产生的原始数据(如聚类密度、质量分布、reads数和长度)以及指标的规格来检查测序数据集的整体质量。
还应通过检查基础质量分数(例如Phred质量分数)来分析原始数据的质量,这取决于所使用的测序平台。应删除质量不符合既定阈值的reads的部分核苷酸和/或完整序列,以便只保留质量合适的序列。基本质量分数的最低阈值应在测试验证期间确定。选择最佳的reads剪切阈值总是序列丢失和数据集质量之间的权衡,可能取决于HTS测试的范围。
其他子步骤(相关时)包括:解复用、引物、adapter和indexes的去除(也称为剪切)、去除背景噪音、删除重复reads、合并reads、去除嵌合序列、去噪/聚类(特定于元条形码)等。
2. 目标识别
对靶标进行适当的生物信息学鉴定对于避免假阳性(不正确的分类分配、基因注释或变异检测)或假阴性(缺乏鉴定)结果非常重要。可选子步骤包括:
对单个read进行直接注释。经过质量检查的reads可以在分类或功能级别进行注释,而无需任何组装、聚类或映射。注释过程的特异性将取决于序列的长度、应用的算法及其参数以及使用的序列数据库。
从头组装。鸟枪法测序库中的质量检查reads可以重新组装以创建更长的序列,称为contigs。组装的参数取决于所使用的算法类型,应在测试开发/优化期间定义。这些包括reads之间的同一性百分比、最小重叠、contigs的最小长度、k-mer长度或气泡大小。对于细胞生物分离株的基因组测序,可以评估contigs的组装质量(例如N50等)。一旦reads被组装成contigs,就可以对它们进行分类和/或功能注释。
选定目标的参考图谱(也称为参考组装)。如果已知样本中可能存在的生物(例如宿主、害虫)的参考序列,则可以将经过质量检查的读取直接映射到目标的参考序列上,该参考序列可以是部分或完整的基因组。每个目标可以使用多个参考序列来解释遗传变异,增加映射reads的数量并提高注释质量。映射参数(例如允许的错配数或间隙数/长度等)对于避免错误结果至关重要。还可以考虑纳入可能存在于样本中的密切相关的非目标物种的参考序列,因为这样可以避免可能的假阳性结果。重要的映射结果指标包括基因组覆盖率、平均深度、参考序列上的reads分布以及与参考序列的同一性百分比。它们各自的相关性取决于所使用的技术。
可能需要结合参考图谱和从头组装,以增加识别低浓度目标的可能性。基因组序列的contigs(即scaffolding)可以改善下游分析。
用于害虫鉴定的分类。使用参考图谱时,可以从参考序列的注释中获得分类位置,但可能存在错误分配的风险。此外,从reads组装生成的contigs可能需要进一步独立注释。对于单个reads、聚类reads和contigs,应使用最新的分类信息确定分类分配,包括最新的基于序列的划分标准和适当的序列数据库和软件。使用专用工具(如AODP、BLAST、DIAMOND、EDNA、Mash、Kraken、KAIJU)对已组装的contigs或reads进行相似性搜索,可为分类学分配提供指示,通常还带有置信度阈值。除了序列相似性搜索之外,一些分类学分类器(例如RDP classifier, QIIME2’s q2-feature-classifier, Metaxa2, SINTAX或TAG.ME)还会考虑参考序列数据库中的其他相似序列,并使用自举等方法提供置信度分数。应始终保留并提及相似性搜索的确定性指标(例如 E值、bit分数、bootstrap分数)以及所使用的工具和序列数据库(版本)。可能需要专家判断来评估分类分配的结果。当处理未表征的生物体或接近物种划分阈值的序列身份时,这尤其具有挑战性。当可以通过鸟枪法测序检测目标的完整基因组时,基因组的完整性和测序深度可以支持分类注释的结果(即基因组越完整,分类分配就越可靠)。在从环境样本中识别序列时,这一点尤为重要。可能还需要进行其他分析,如系统发育分析。对于扩增子测序,OTU或ASV的分类归属的分辨率取决于不同的因素,主要因素是所选的条形码、参考数据库的完整性和准确性以及用于识别分类的算法。目前,条形码相对较短(几百个核苷酸),因此只能提供有限的分类学分辨率。根据所用序列的类型,可以使用多种分类方法,例如朴素贝叶斯分类器、基于最低共同祖先的方法和系统发育定位方法。结合短条形码,大多数分类方法无法产生令人满意的物种级分类。这些限制是扩增子测序或鸟枪法测序中单个reads注释所固有的,应在测试开发/优化期间考虑和探索,以验证条形码是否适合在令人满意的分类学水平上检测目标生物。
功能预测。根据HTS检测的预期用途,确定基因的(潜在)功能、与致病性、抗生素或杀虫剂抗性相关的基因组特征(预测)、在边境截获的活体昆虫的辐照证明(引发核苷酸突变)或任何其他可能对植物健康很重要的序列特征可能是有用/必要的。
恢复害虫的(近)完整基因组。可能需要获取(近)完整的基因组序列来验证已确定的分类群、获得有关基因含量和种群多样性的信息,或妥善解决流行病学和疫情起源的问题。由于病毒的基因组较小,因此获得(接近)完整的基因组序列相对容易。而对于细菌、真菌和植物病原体等基因组较大的害虫,恢复(接近)完整基因组的能力就变得更加复杂。当需要(接近)完整的基因组时,可以结合参考图谱和不同参数的从头组装。另外,结合使用长、短读长测序等测序策略也有助于获得(接近)完整的基因组。
变异calling。变异可能来自SNP或indels,也可能来自与参考序列或与产生的共有contigs(例如病毒种群中的类物种)相比,整个基因的整合/缺失。SNP和indels的识别依赖于具有特定参数的专用算法,例如strand bias, mapping quality, base calling quality。变异鉴定对某些应用很重要,因为它可以影响生物体的致病性(例如细菌的致病岛、抗性突变),或者表明存在一个物种的不同分离株。
未被使用的reads。经过各种生物信息学分析后,一些通过了所有质量检查的reads可能仍未组装、映射或注释。这些reads可以在分析过程中作为单独的输出收集,并计算其数量或比例。根据HTS检测的目的和所使用的算法,可丢弃这些reads或使用其他算法重新分析,以验证目标序列的缺失或其中是否存在不可预见的生物。在第二轮生物信息学分析后,某些单个序列或某些contigs可能仍未注释。这些未注释的序列有时被称为“暗物质”。可以进行定期重新分析,以查看策略、算法或数据库的发展是否允许对其进行注释。
3. 对照分析
生物信息学分析的第三步也是最后一步对于识别潜在的假阳性和/或阴性结果非常重要。假阴性结果可能来自几个方面,例如,因为植物提取物中的目标浓度低于检测限值,或者因为样品降解、酶反应抑制或reads数不足或生物信息学三要素选择不当。
假阳性结果可能来自实验室阶段不同子步骤的污染或不适当的生物信息学三要素。它们可能是由于样本处理不当和/或文库pooling不当造成的。为了解决假阳性和/或阴性结果,可在HTS检测的不同阶段加入不同的对照。应调查和解决假阳性和/或假阴性结果的来源,并记录是否重复(部分)HTS检测的决定。
生物信息学分析第三步的可选子步骤:
污染评估。尽管随着实验室方案和测序平台的改进,污染率在不断下降,但仍有必要对其进行定性和定量监测。为检查 HTS 测试不同阶段的污染情况,可使用不同的对照(如外来对照、阴性对照、阳性对照和内部对照)。
评估检测预期目标的能力。这可以通过适当的对照来实现。这些靶标都应该根据指定的指标(例如基因组完整性、生成的序列/reads数、测序深度和与相关参考序列的同一性百分比)进行检测。
对照组的假阴性结果。如果序列数据中没有检测到对照组中的目标之一时,可能会出现假阴性结果。参考图谱的结果指标,如基因组完整性、测序深度和与参考序列的一致性百分比,对于过滤假阴性结果非常重要。
变异过滤。如果感兴趣,应从原始序列文件、经验错误率定义或平行技术重复测序中标记或过滤由于HTS检测期间测序错误而产生的假变异。变异calling应始终考虑到测序错误、聚合酶错误或逆转录酶错误也可能产生变异artefacts。
不确定的结果。如果测序运行的对照出现问题,例如质量指标略高于或略低于定义的阈值(即不确定的结果或灰色区域),则应调查并解决该问题的根源(例如可使用参考序列数据集来检查生物信息学流程是否按预期运行)。可能需要重复进行HTS检测,也可能需要HTS以外的确证检测来确定HTS结果。无论实验室做出何种决定,都应将这一过程记录在案,作为质量保证的一部分。
性能监测。可通过加入适当的对照来对HTS检测的性能进行例行检查。例如,对于用于检测检疫性有害生物的HTS检测,应在每次测序运行中加入接近检测极限的阳性对照,并对对照结果进行长期监测。
HTS 技术带来了独特的机会,可以在没有任何先前信息的情况下提高对任何样本中存在的任何害虫的检测。十多年来,该技术一直用于植物害虫检测和鉴定研究,并取得了重大进展,包括发现以前未知的害虫或在检疫或入境后检疫评估期间意外发现害虫。这些进步,加上这些技术的成本降低和可靠性的提高,现在为植物健康诊断实验室逐步采用它们创造了动力。
然而,采用HTS技术进行植物病虫害检测和鉴定代表着一种颠覆性的转变,给任何实验室都带来了复杂的挑战。最大的挑战与HTS检测的生物信息学部分相对应,具体来说,需要妥善管理大量生成的序列数据以及分析所需计算的复杂性。植物健康实验室不习惯处理如此大量的信息,这需要全新的技能、设备和技术。因此,HTS检测需要在信息管理技术和新专业知识方面进行大量投资。对于实验室部分,大多数HTS检测技术依赖于经典的分子生物学反应:核酸碎片化、核酸连接、末端修复、逆转录、扩增等。其中的挑战与所需步骤的数量相对应,这远远高于其他分子测试,例如 (RT-)PCR 或LAMP。在分析部分之后,采用HTS检测还将对实验室的所有支持流程产生影响(质量管理、试剂或服务采购、信息技术、人力资源管理等)。
在此背景下,本文介绍了针对植物健康诊断和研究领域的实验室的一般和技术建议,以准备采用HTS检测。这些建议确定了实验室和生物信息学组件需要考虑的关键要素,并为开发和实际实施HTS检测提供了准备指南。
HTS过程及其不断发展的技术非常复杂,因此需要具有足够灵活性的指南以保持最新状态,同时提供足够的信息来支持开始建立HTS诊断的实验室。本指南的设计方式也使其可以应用于检测和识别任何类型的基质中的任何植物害虫。
参考文献Lebas B, Adams I, Al Rwahnih M, et al. Facilitating the adoption of high‐throughput sequencing technologies as a plant pest diagnostic test in laboratories: A step‐by‐step description[J]. EPPO Bulletin, 2022, 52(2): 394-418.