<2019第四期课程回顾>打开微生物世界的秘钥『宏基因组技术』

2019-07-29 4190课程宏基因组

课程回放:

https://db.cngb.org/dc_assets/media/science/weike20190726.mp4

CNGBdb组学/数据库系列课程开讲啦!
2019年7月25日<第四讲>上线
课程名称:打开微生物世界的秘钥『宏基因组技术』
讲师:宋泽伟/深圳华大生命科学研究院,宏基因组研究中心,研究员;明尼苏达大学,博士/博士后

课程概要

  1. 什么是生态学?为什么要研究微生物生态?
  2. 测序能干什么?
  3. 如何开展宏基因组项目:实验、计算、分析

现场Q&A

  1. Q:目前基因测序与干细胞移植有没有相关联交叉的课题呢?
    A:这个问题更多的是和人的基因组相关,例如病人术后康复会和其肠道菌群密切相关,不过这主要在癌症上,即调节病人肠道菌群可以帮助其进行术后康复,具体到胚胎实验的话,这个不在我的领域范围。

  2. Q:关于样本采集,比如研究一个湖泊的微生物,如何采样比较合理?
    A:这个首先需要研究者清楚自己要回答什么问题(研究目的),统计学可以计算我们需要的样本量,这需要你事先知道测定样本的变异程度(variation),所以有条件的话,我会进行预实验,如果没有条件进行预实验,建议尽可能的多采样(尽管不是那么科学)。

  3. Q:如果用denovo来建立那个表的话,每一行是一个OTU,它们基于数据集产生,denovo产生的OTU只能是一次项目使用吗?对于同类型的其他项目是否有参考意义?如果基于目前的数据库也找不到OTU,要怎么分析呢?
    A:我们前期的研究显示:目前针对扩增子(16s或ITS)的数据库,已经基本能代表大家平时能想到的样品,即使对于一些非常罕见的样品,大部分序列都可以在参考数据库找到。基于这样的研究结果,我们认为可以用refrence来代替denovo的方法。如果想研究未知的物种怎么办?这个需要从两个方面来思考:1)解读菌落结构,利用菌落矩阵选择可靠的refrence的方法,得到一些结论;2)把已知数据库无法解读的信号单独出来再做研究。即分成独立的两个问题来回答,而不是用同一个方法解决两个问题。

  4. Q:宏基因组测序可以应用于感染病吗?
    A:可以。

  5. Q:宏基因组测序在寄生虫领域有哪些应用?
    A:首先不知道寄生虫领域具体是哪个方向,以人体寄生虫领域为例,可以进行一些早期预测的检测,即在这个寄生虫信号还比较低的时候,就把它从几百万的序列中挑出来,这也是目前的一个已经在做的应用方向,这个应用涉及快速检索的算法,需要建立一个搜索引擎,对于医院及需要做预测的部门会比较有用。

  6. Q:最新开发的Linked read测序方式对meta测序方面有改进作用吗?
    A:不知道这里提到的Linked read是不是类似10x的技术,我暂时默认是。目前我们正在做用stLFR测扩增子的开发项目,我们希望把核糖体RNA的全长测出来,但是这中间存在算法和实验技术的挑战,是可以做但是这条路还没有最后走通,我们正在努力。

  7. Q:16S引物的覆盖度是怎样?V3和V3-4那个好一些?
    A:这个问题没法回答,这取决于经验,比如人类肠道基因组计划中,他们分别挑了分属于不同种Staphylococus,这两个种在V4区是完全一样的,即在V4区是无法区分但是可以在V1区被分开,但是又不是所有菌在V4区都分不开,而实际上V4区是目前大家用的最多的区域,不同的菌在不同区的分辨率是不同的。如果你局限于单基因,那么就永远跳不出单基因给你的分辨率,这也就是为什么我们最终还是会走向shotgun sequenncinf,但是扩增子由于单个样本需要的通量小,它可以应用于快检或者用于测量百万级别的样品。对于分辨率,如果你focus在一个基因,就逃不过这个基因给你的分辨率。

  8. Q:实验部分,如果16S或meta建库条带很散,散的部分没割胶回收是不是多样性会变低?但是回收散的部分文库检测又不合格。
    A:实际上我们不割胶,只是为了验证条带是否有跑出来。不过这确实是一个问题,比如做真菌ITS,会看到多个条带,这个条带已经超过了预测的长度,我们不知道具体原因,但有可能是因为核糖体RNA在基因组中是连续重复的,而且在真菌中是连续上千个重复,这就有可能导致更大片断的扩增子,但是目前还不确定是不是这样的原因,不过经常遇到这样的现象。

  9. Q:现在是否可以用人工智能的技术进行基因组测序?
    A:测序可能不太可能,但是说到数据分析目前有一些工具,但是效果并不能达到传统工具的效果,我个人认为是因为我们知道的还太少,我们已知的测序得到的基因组还远远不够,我们现在无法估计世界上有多少微生物。

  10. Q:宏基因组是不是也需要和很多微生物的基因组去比对呢?那比对的时候,有没有常用的微生物基因组呢?
    A:我推荐大家去看一下2018年natrue那篇文章,如果你做的是人类肠道样本而不是土壤样本,你想知道最可靠最不可能被编辑拒稿的方法,可以去看一下这个文章,它实际上是把测序的序列比对了最常见的蛋白数据库,比如KEGG等,或特定功能的数据库,比如抗生素基因、和碳源代谢有关的基因等。现在尤其是对土壤来说,宏基因组你想比较充分利用你的数据可能比对的方法会更有效,但是目前很多公司都会把测序数据先组装,然后根据组装的结果进行解读,而组装利用到的数据不到10%,不过这也取决你测序样本的复杂性。

  11. Q:16sV4区是否有最新发表的通用引物?
    A:目前有研究是通过搜索数据库,发布了一个V4区的改进引物,但是这个引物效果如何很难验证,所以目前大家常用的还是之前的引物。

  12. Q:病人的肠道菌群是可能因为每天的饮食不同而发生变化,但是我们实际上是想要知道,因为某种比较固定的膳食习惯,人体肠道菌群可能会有一些固定的菌群在某种疾病的发生发展中发挥作用,如何区分这些因素对固定肠道菌群混杂?
    A:这不是一个测序的问题,是一个实验设计的问题,怎样通过实验设计把饮食效果识别出来。实验设计可以减轻后续统计的难度,或者通过示踪,但是这个我没有做过。

  13. Q:如了解土壤微生物与植物土传病害间关系,该如何设计和取样?
    A:首先和土传病害没有关系,还是在于你想回答的问题是什么,是否有已知信息已经知道某些微生物会抑制某些疾病,还是所有信息都未知,希望通过实验得到一些重要信号。我没有办法给大家一个具体建议,这个问题还是取决于你本身的实验目的和实验设计。微生物测序只能给你多一层的数据(一个矩阵),怎么用这个矩阵是实验设计的问题。

  14. Q:我有两组数据,做β多样性pcoa得到pc1是95%,pc2是2%,但图示显示两组样本几乎重叠,这样的数据有意义吗?
    A:这个取决于你如何解读,但是pc1为什么会那么高,是否考虑有outlier。

  15. Q:宏基因组测序的测序深度一般是多少呢?
    A:还是取决于你要回答的问题,但是有一点,宏基因组测序永远是浅的,随机的片段永远是非常浅的数据,你的coverage达不到1,甚至达不到0.01,不过这个是针对复杂样品,比如土壤或者肠道。如何分析shotgun数据,目前没有100%的定论,但是我们倾向于用基因组的方法来解决而不是组装的方法,我有shotgun的数据,有从头组装和比对两个选择,从头组装就是我不依赖数据库,把它拼回原始的“拼图”,但是因为宏基因组数据没有办法得到完整的数据,即使我得到了一个较长的序列,还是需要依赖数据库对这些序列做注释,即还是无法绕开已知基因组。我们可以把这个问题分成两个部分,完善基因组是一些科学家的任务,而作为微生物生态学家我们没有太多精力去详细研究具体微生物,所以我们选择相信目前的数据库是可靠的,如果目前的数据库无法回答我的问题,可能高通量测序不是一个有效的工具。

  16. Q:荧光定量的实验方法验证宏基因组测出来的优势菌,是否有必要?
    A:这取决于对你是否有帮助,我们之前的研究中会去做,是因为不太相信通过PCR之后再来进行定量是不是准确,但是我们也不可能每个OTU都去设计引物,当时我们有一个样品中,一个已知真菌有一段特定序列我们已经有探针,我们发现通过Q-PCR做的定量和高通量做的定量相关性还是很好的,基本上可以满足我们对定量的需求。

  17. Q:如果分析时某个菌种比对上的reads数特别少,怎么确定是该物种?该菌种是否实际存在?
    A:这个问题很好,比如一个矩阵中,OTU在某个样品中数据是1,那么它究竟是有还是没有?之前有研究也有讨论这样的问题,这个不是那么容易得出结论的,测序深度是有一个检测限的,如果矩阵中出现了1和0,并不代表这个菌是1或者0,有可能在一个样品中没有测到这个菌不是因为没有这个菌而是因为测序没有测到,测到1可能是在样品中它很丰富但是只测到1,这个东西可以通过技术重复定出来,但是很少有研究会这么做,因为还没有那么大的深度应用于扩增子的数据。通常一个微生物群落都是有非常少数很丰富的物种和非常长的尾巴,这个尾巴就是非常多稀少物种,越稀少测不准的概率越高。

审核:宋泽伟

上一篇下一篇