Nature子刊发表“高通量 CRISPR基因编辑技术和更精确深度学习设计方法” | CNGBdb支撑发表科研成果解读

2021-06-22 499CNGBdb

2021年5月,深圳华大生命科学研究院,青欧生命科学高等研究院的罗永伦团队与哥本哈根大学的Jan Gorodkin团队合作(青欧研究院向熙和渠坤丽博士, 哥本哈根大学Giulia Corsi和Christian Anthon博士为共同第一作者),在Nature Communications发表了题为“Enhancing CRISPR-Cas9 gRNA efficiency prediction by dataintegration and deep learning”的研究文章,介绍了目前已知最准确的gRNA效率预测模型:CRISPRon。

Nature子刊发表“高通量 CRISPR基因编辑技术和更精确深度学习设计方法”-1.png

此项研究的测序数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0001031。 

研究背景

CRISPR/Cas9作为最新一代的基因编辑技术,以其简便和高效性,已被广泛应用于生命科学的各个领域。携带有特异性靶向序列和保守二级结构的引导RNA (guide RNA, gRNA),能特异性的结合spCas9蛋白形成核糖核蛋白复合物( Ribonucleoprotein, RNP),并靶向切割目标基因组序列,从而进行高效精准的基因组编辑。除了内源靶基因的表观修饰及染色体3D结构等影响因素,高效的基因组编辑很大程度上依赖于选择效率高的gRNA。因此,通过依赖于大数据的机器学习来建立精确的gRNA编辑效率预测模型,是近年来CRISPR/Cas9基因编辑领域的重要研究方向。

随着基因编辑技术的飞速发展,科学家们已开发出多种CRISPR/gRNA效率预测模型。这些模型基于不同的数据制备和采集方式,结合不同策略的机器学习算法,训练得到可靠性不一的gRNA剪切效率预测模型。如Doench等[1, 2]开发的“Azimuth“,Kim等[3]的“DeepspCas9”,Wang等[4]的“DeepHF”,Shen等[5]的“inDelphi”等。这些算法在模型验证的参数和测试数据的选择上不同,直接影响了它们在gRNA效率预测上的可靠性和拟真度。一方面,不同算法模型的数据来源并不相同,有的基于“功能缺失”(loss of function)的方式采集数据[6, 7],有的则是基于高通量的替代性indel(surrogate indel)捕获定量的方法[3, 4, 8]。另一方面,目前基于大数据的机器学习算法曲线也并不饱和。此外,相较于采用更为高级的机器学习算法,增加基础数据的规模和质量能更显著的提高预测模型的准确性和可靠度。

研究内容

从上述角度出发,研究团队采用高通量芯片合成及文库筛选的方法,采集获得了10,592个gRNA产生的高质量替代性indel数据。他们将这些数据与已发表的数据整合起来得到了23,902个基础学习数据。通过这批高质量数据的机器学习输出得到了更精准的gRNA效率预测模型——CRISPRon。通过对多组独立数据的测试评估,他们证实了CRISPRon的预测可靠度要显著优于已有的预测模型,是目前已知最准确的gRNA效率预测模型。同时他们将该模型整合进在线网站,研究人员可通过登录https://rth.dk/resources/crispr/crispron/ 进行基因组信息交互型的gRNA设计和效率预测。

Nature子刊发表“高通量 CRISPR基因编辑技术和更精确深度学习设计方法”-2.png

作者针对3832个药靶基因设计了12,000条靶向gRNA,随后采用高通量芯片合成的方法,合成寡聚核苷酸文库芯片。研发团队开发更加简易芯片文库构建方法,并通过第3代慢病毒感染方法将该文库稳定整合到表达spCas9蛋白的HEK293T细胞中。随后采用药物筛选的方法对感染细胞进行富集,最后采用靶向PCR扩增和DNA纳米球测序方法,将合成的12,000条位点进行高通量测序分析。最终获得了超过1万多条高质量的CRISPR gRNA基因编辑效率数据。该数据集与目前已经发表的inDelphi预测数据(图1.e),Kim2019和Wang2019的两组独立数据亦有较强的相关性(图1.g)。进一步证明了研究团队开发出来的高通量CRISPR基因编辑效率检测方法的有效性。

Nature子刊发表“高通量 CRISPR基因编辑技术和更精确深度学习设计方法”-3.png

随后作者将产生的高质量的10,592个数据与Kim 2019数据整合起来,形成超过2万个数据的基础数据库,用于更高质量的机器学习和预测模型的输出(图2.a)。作者将输出得到的CRISPRon V1.0模型与现有的几种模型进行了横向比较,发现在多组独立数据的平行验证结果中,CRISPRon V1.0的效果均好于其他几种模型(图2.b),表明该模型有更佳的精准性。 

Nature子刊发表“高通量 CRISPR基因编辑技术和更精确深度学习设计方法”-4.png

作者基于CRISPRon V1.0预测模型构架在线CRISPR gRNA设计网站,并采用基因组交互的可视化方式,清晰明了的展示出基因组中目标靶点的所有可用gRNA及其预测效率。同时,CRISPRon设计软件整合了基因组交互可视方法,方便科研人员查看gRNA所处的基因元件性质,包括基因间,内含子内,外显子内,3/5’UTR等信息。

研究意义

该研究开发的高通量 CRISPR基因编辑技术和更精确深度学习设计方法,为系统性了解CRISPR编辑规律,提高基因编辑效率和促进CRISPR基因治疗提供关键研究工具。为今后科研人员应用CRISPR cas9技术提供了可靠的数据基础,帮助科研人员能更好的进行高效精准的gRNA设计。

相关链接:
1.Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning:https://www.nature.com/articles/s41467-021-23576-0
2.高通量CRISPR基因编辑效率文库:http://www.crispratlas.com/crispr
3.基因CRISPRon深度学习方法开发的CRISPR设计平台:https://rth.dk/resources/crispr/crispron/

参考文献
1. Doench,J.G., et al., Rational design of highlyactive sgRNAs for CRISPR-Cas9-mediated gene inactivation. Nat Biotechnol,2014. 32(12): p. 1262-7.  
2. Doench, J.G., et al.,Optimized sgRNA design to maximizeactivity and minimize off-target effects of CRISPR-Cas9. Nat Biotechnol,2016. 34(2): p. 184-191.  
3. Kim, H.K., et al., SpCas9 activity prediction by DeepSpCas9, adeep learning-based model with high generalization performance. Sci Adv,2019. 5(11): p. eaax9249.  
4. Wang, D., et al., Optimized CRISPR guide RNA design for twohigh-fidelity Cas9 variants by deep learning. Nat Commun, 2019. 10(1): p. 4284.  
5. Shen, M.W., et al., Predictable and precise template-free CRISPRediting of pathogenic variants. Nature, 2018. 563(7733): p. 646-651.  
6. Xu, H., et al., Sequence determinants of improved CRISPRsgRNA design. Genome Res, 2015. 25(8):p. 1147-57.  
7.Hart, T., et al., High-Resolution CRISPR Screens RevealFitness Genes and Genotype-Specific Cancer Liabilities. Cell, 2015. 163(6): p. 1515-26.  
8. Kim,N., et al., Prediction of thesequence-specific cleavage activity of Cas9 variants.NatBiotechnol, 2020. 38(11): p.1328-1336.  
9. Xiang, X., Corsi, G.I., Anthon, C. et al. Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning. Nat Commun 12, 3238 (2021). 
信息来源:“青欧生命科学高等研究院”公众号。 图片源于NC官网和“青欧生命科学高等研究院”公众号。

上一篇下一篇

相关专题