课程回放: https://m.lizhiweike.com/lecture2/12465445st=sharelink&inviter_id=80696460&from_old_lecture=1
CNGBdb组学/数据库系列课程开讲啦!
2019年5月31日<第一讲>上线
课程名称:动物群体基因组多样性及演化动态研究
讲师:冯少鸿/深圳华大生命科学研究院助理研究员
利用57份朱鹮馆藏标本的全基因组数据,结合当前保育区个体数据,对朱鹮种群多样性的时空变化特征及其成因进行了分析:
Q:IBD怎么计算呢? A:IBD(identical by descent),是用来识别来自于祖先在后代个体中保持不变的区域,计算的时候用到的都是snp数据,需要根据使用的软件进行格式的转换。
Q:PSMC用每个物种的参考基因组可以做吗? A:使用原始测序数据和参考基因组作比对,得到出杂合位点后,接下来就可以进行PSMC的分析了。
Q:请问建树时候发现有的bootstrap支持为0是什么原因,这样的进化树可信吗? A:通常来说,你在建树的时候bootstrap在某些位点上支持率为0,这样的进化树至少在那个节点上是不可信的。所以,遇到这种情况,需要首先检查数据,因为通常20已经是很低的支持率,很少有位点是0。Bootstrap表示的是,在重复100次的构树里面有多少的拓扑结构是支持当前的拓扑结构的。如果结果为0 ,那在这100次重复中并在这个节点上完全没有任何一次是支持当前的拓扑结构,这就非常奇怪了。
Q:如果没有古代个体的话,这篇文章大概能发到水平? A:由于现代样本使用的是现有数据,所以本文以及近些年同类型文章都是依靠古代样本与现代样本的比较。没有现代个体,这个文章核心要解决的科学问题就不会成立了。本文的一个重点就是博物馆样本数据的挖掘,目前博物馆样本的使用程度还很低,假如你有一些现代样本个体,而这些个体在近100~200年有经历一些种群事件,可以考虑加入古代样本,使研究更加完整。
Q:如何选取历史群体的major allele呢?有什么代码吗? A:例如历史群体有20个,由于是二倍体,所以你有40个样本数,统计其中哪种allele是最多的,就可以了。
Q:怎么选择LD cutoff?plink的代码是怎样的呢? A:LD的计算选择plink里面的默认代码即可。通常计算LD需要考虑两个问题:1)snp之间的间距大于多少停止计算?2)如何判定多大的LD值代表已经可以认为背景的连锁不平衡基本无影响了?第一个问题需要大家根据自己的数据去尝试,通常是500K到1M的距离,LD基本都会小于0.2。两个SNP之间的LD<0.2,我们就认为这两个SNP之间不存在LD的影响。如果物种不是特别特殊,根据参考文献及本次实验的经验,cutoff都可以选择0.5。
Q:去博物馆申请材料要费用吗? A:现在许多博物馆可以公开申请,需要和馆长说明,样本用于非盈利性质的科研用途,博物馆不会收取额外费用,但是运费需要自理。
Q:我们是做林木的,手头这个群体的分布区越来越小,打算做150个重测序,但是没有古代个体,只有现代个体样本,如果按您这个分析来,不加古代个体,大概能发到几分的文章呀?A:林木这块可以去查询一下是否有相关的古代个体。国内的博物馆也可以尝试联系,如果知道林木的分布地,可以联系当地的博物馆和林木机构,他们可能保有一些历史样本,可能不需要太古老,比如您关注的是近几十年的演化,选择100年左右的样本即可。
Q:对于长寿物种,比如裸子植物几百年寿命的树种,那模拟出的ne是显示不出人类活动的作用的是吗? A:因为我主要做动物方面的研究,植物了解的不是很清楚。目前,接触比较多的对于近代人类活动影响的研究还是动物方面。动物的生存与周围的植物密切相关,也有一些研究选择植物相关的动物,以此来推断人类活动是否会影响植物,就我所知目前没有还没有历史样本的全基因组数据做植物方面的。
Q:maf 20%过滤是不是太严格了? A:maf过滤并没有严格规定,由于一般做种群波动分析建议maf 20%过滤,但是也可以根据自己的数据量去做选择是否放宽要求。
Q:推断ne的软件的数据都需要做maf过滤吗,maf的影响主要是在哪方面呢? A:很多群体学的分析中都需要考虑maf,比如群体中有一些频次很低的SNP(排除分析稀少SNP的情况),我们的目标是分析群体的大致走势,频次很低的SNP可能是calling 时候的错误或测序错误引入的,如果数据中有很多maf值很低的snp会对解析趋势造成干扰。
Q:博物馆的网址都是在哪找啊? A:伦敦自然历史博物(https://data.nhm.ac.uk/dataset)、美国自然历史博物(http://sciweb001.amnh.org/db/emuwebamnh/index.php)可以直接使用网址查找样本;其他博物馆,可以先选择大一些的博物馆查询样本馆藏记录。
Q:研究的朱鹮是由几个个体繁殖出来的,研究的结果会不会有必然性?或者在群体数目扩大后会不会产生新的多样性? A:我们在做分析的时候也有考虑过这个问题,对于保育物种来说我们不仅想知道多样性损失的严重程度,还想知道在人工保育过程中是否会产生新的突变。由于我们只有8个现代个体,我们能做的就是不断叠加进行snp calling时候的投入个体量,通过这种饱和度的分析来确定现在的个体数是否可以代表当前种群的多态性情况。引入新个体肯定会获得一些新的snp位点,但是它们对于整体SNP的贡献可能是比较低的,而且很多maf值也可以都比较低。国内朱鹮种群大多源于陕西保育区,目前来说很难产生频率高的SNP位点供我们进行分析。但是,我们不能排除取了不同保育区的样本,例如把目前的取样范围扩展到20-30的时候,肯定是会获得一些新的snp位点,这也是如果我们想要深入做这个项目未来的发展趋势。即对现代群体的SNP多样性进行彻底调研,一来可以回答目前研究中是否遗漏了新产生的SNP;二来可以判断,在短短保育的几十年中,是否朱鹮群体已经在不同保育区产生适合当地保育区的SNP,这也对于我们未来想要对朱鹮种群进行多样性恢复都是非常重要的。
课程示例文献:
Feng S, Fang Q, Barnett R, et al. The Genomic Footprints of the Fall and Recovery of the Crested Ibis[J]. Current Biology, 2019, 29(2): 340-349. e7.