2022-12-28 1026CNGBdb
2022年7月,由深圳华大生命科学研究院、青岛华大、青欧生命科学高等研究院Lars再生医学研究所罗永伦团队、丹麦哥本哈根大学Jan Gorodkin团队、丹麦奥胡斯大学林琳团队以及哈佛医学院George M. Church团队再一次于大规模评估CRISPR脱靶方面取得重要进展,相关研究成果已在Nature Communications(IF: 17.69, 2022)在线发表,题目为“Massively targeted evaluation of therapeutic CRISPR off-targets in cells”。
本研究生成的所有NGS数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号分别为:CNP0001979和CNP0002648。
癌症基因的基因编辑脱靶是制约RGN治疗的临床应用的主要问题,所以有关脱靶的研究数不胜数。目前已有的几种实验性的脱靶鉴定方法总体上分为三类:
前两类方法都会因为自身的原因捕获到假阳性的脱靶位点,而第三种方法却又受限于人力和时间成本无法大规模开展。而青欧团队改进的SURRO-seq方法是一种大规模且精准的脱靶分析方法,这大大扩展了深度测序对CRISPR脱靶分析的潜力。
为了提高CRISPR gRNA脱靶检查的精准性和规模性,研究团队设计了一种被称为SURRO-seq的大规模检测方法,该方法可以在细胞中同时评估数以万计的RGN (CRISPR RNA 引导的核酸酶) 脱靶位点。本文研究者同时评估了110个治疗性RGN及其对应的8150个脱靶位点,超过90%的RGN检测到了脱靶效应,其对应的37个癌症基因中皆发现了可检测到的脱靶效应。最后,对大规模脱靶数据分析后,研究者们还发现热力学稳定的摆动碱基对(rG·dT)和自由结合能强力影响了RGN的特异性。综上所述,该文通过严谨的论证和数据分析,强调了高保真RGN以及RGN的准确评估皆是减少脱靶的必要条件。
数年来,青欧团队始终致力于解决CRISPR基因编辑on-targets 和 off-targets 的问题,最近发表的两篇文章[1-2]充分证实了利用surrogate载体大规模评估on-targets的方法,然而若想把该方法应用于脱靶分析并非易事。一个首先想到的关键因素便是编辑后的序列改变会导致对其归属的错误识别。为此,青欧团队开创性地引入了10nt的条形码序列来特异性的识别和拆分由不同RGN引起的脱靶。
总结下来共有三处改进。
1. 替代位点包含一个10nt的条形码,位于27nt的替代脱靶位点之前。
2. 引入了新的条形码拆分策略。
3. 引入了新的Fisher精确检验方法,从而可以对是否脱靶精确定量。
显而易见,SURRO-seq分别可以捕获100%的T7E1检测到的脱靶,70%的GUIDE-seq以及51%的CIRCLE-seq检测到的脱靶。同时对GUIDE-seq,CIRCLE-seq和SURRO-seq中的5个共同的RGN分析表明,58%的脱靶被至少两种方法所检测到,仅SRRRO-seq, GUIDE-seq和CIRCLE-seq捕获的脱靶分别是1,18和40个。受CIRCLE-seq和GUIDE-seq各自原理的限制(背景中已提过),而染色质也可以抑制Cas9的脱靶效应, 上述的差异再次证明了这点。同时也证实了,SURRO-seq可以为全基因组筛选方法鉴定的脱靶提供一种补充性的细胞内评估方法。
在移除了可能会在下游分析中导致误差的脱靶位点后,治疗性RGN引起的脱靶所带来的潜在问题引起了研究团队的关注。值得注意的是,该文库中包含一个已经报道过可用于治疗亨廷顿病的编辑位点,该位点被发现具有广泛的脱靶效应,其中具有代表性的两个脱靶分别发生于ZFHX3和SOHLH2上,且两者都是癌症相关基因。因此,治疗性RGN的脱靶所引起的安全性问题必须被重点关注,而SURRO-seq正是在细胞中高通评估该问题的有效方法。
对脱靶的大规模数据分析的前提是,SURRO-seq捕获的脱靶是否广泛存在于相应的内源基因位点。为此,研究团队使用5种细胞系外加额外的高保真spCas9分析了部分SURRO-seq捕获的脱靶位点。
由于SURRO-seq和验证方法在RGN递送,编辑时间以及RGN表达水平方面存在差异,内源性验证的脱靶效率远低于SURRO-seq, 但仍旧有很好的相关性。87%的SURRO-seq捕获的脱靶位点都可以被内源基因所验证,而显著脱靶位点被验证的频率更是高达88%。这充分证明了SURRO-seq脱靶数据的准确性,同时也说明了高保真的HiFi-Cas9不仅有更高的on-target效率,其脱靶也显著减少。
以往的分析往往认为随着错配的增加,脱靶发生的可能性会降低。这通常是事实,但也有例外。SURRO-seq通过大数据分析也发现,3-4个错配的脱靶之间存在广泛的脱靶效率异质性,而这种异质性很大概率来源于错配发生的位置和错配类型。
脱靶错配的耐受区已经被报道过,而SURRO-seq的结果充分验证了这一点。SURRO-seq的数据表明,脱靶对N1和N2位点有更高的耐受度,而N12-N18则是更低的耐受度,更有趣的是,N19和N20作为PAM近端位点却有更高的耐受度。另一方面,SURRO-seq的数据也捕获了关键的错配类型(GA错配), 该类型属于摆动错配的一种(rG:dT)。
本文属于青欧团队合作开发的高通量CRISPR编辑方法应用的第三个重要成果。CRISPR应用的两大核心问题便是高效性和特异性,但无论是针对gRNA的效率预测或者是减少脱靶的特异性提高,都依赖于大量的、稳定的以及准确的基因编辑数据产出。例如对gRNA效率预测来说,虽然科学家们开发了众多的效率预测工具,然而这些模型基于不同的数据制备和采集模式,训练得到的可靠性不一的模型,对想要预测的科研工作者来说是一个严峻的挑战。另一方面,该团队开发的高量 CRISPR基因编辑技术可以获得大规模且准确的数据,使得我们对大规模基因编辑脱靶分析成为了可能,本文的发表也充分证实了该技术在基因治疗评估CRISPR脱靶上的重要价值。
参考文献:Pan, X., Qu, K., Yuan, H. et al. Massively targeted evaluation of therapeutic CRISPR off-targets in cells. Nat Commun 13, 4049 (2022).
信息来源:“青欧生命科学高等研究院”公众号