课程回放:
CNGBdb组学/数据库系列课程开讲啦!
2019年8月8日<第五讲>上线
课程名称:如何利用NGS技术做遗传病基因组分析与研究
讲师:方明艳/深圳华大生命科学研究院资深信息分析工程师,华大基因学院高级讲师,瑞典卡罗林斯卡医学院医学科学博士。
Q:转录组水平检测突变是否可靠?
A:转录组水平的流程和基因组水平类似,也是variants calling (获得vcf文件),然后看突变数据的具体信息。比如说突变的质量信息及reads的支持情况;
如何结合基因组水平和转录组水平分析,以遗传病为例,可以根据基因组突变的具体情况去判断,如果这个基因突变是loss-of-function,可以去转录水平找表达的表达情况,如果表达量有显著降低,也就反应了基因的功能。
Q:请问RAPID是什么?
A:这是一个日本科学家建立的原发性免疫缺陷病的数据库,在2012年之后就没有更新,之前都是手动收集和致病相关的突变信息,所以这个数据库质量比较高,但是因为后续没有更新,所以其数据量始终维持在6000个左右。
补充信息:http://web16.kazusa.or.jp/rapid_original/
Q: 没有检测到变异的区域是否也可能是很重要的区域?
A:首先看参考基因组区域是否是N,如果不是N的话,需要判断这个区域的特征,比如是否存在重复序列或GC含量异常,举例的数据是基于WES的分析结果,如果通过以上判断,捕获环节也没有问题,或基于WGS的分析时,这个就是重要的区域,即完全没有变异但是被检测到。
Q: 基于染色体区域变异情况,这个是从哪里可以看到呢?
A:这个是需要统计的数据,一般这个不是常规分析过程中改的,不过做生物信息分析时,比对文件中有一个bam_stat文件(bwa比对),或者用Soap比对也有一个SOUP_stat文件,这些文件可以看出具体基因每一个外显子coverage的情况,还有探针的覆盖情况以及实际的覆盖情况,然后根据这些数据就可以做出这个图(PPT:21)。
PPT22页的图是因为我们研究时比较关注这个基因,在做变异(拷贝数/结构)分析时发现它存在大段的缺失,但是这个是基于不同的样本,即每个样本是不同的颜色,这块区域在所有样本中都是缺失的,所以我们想研究这是什么原因导致的缺失,看是群体的差异还是参考基因组的差异,后来发现是由于参考基因组的N序列导致的。
Q: 老师有没有与畸形相关的数据库推荐?
A:畸形相关数据库我这边没有做具体了解,但是遗传病相关的都可以看OMIM数据库,还有CNGBdb上的罕见病数据库也是可以做搜索的。
Q: non-coding区域目前有哪些疾病研究过?
A:具体疾病名称我可能记得不是很清楚,但是我记得有一个在启动子区域大概1M的位点,是一个非常保守的位点,这个位点的突变导致了表达出现异常,这个是有被报道的;有些免疫缺陷也会发现大片断的缺失,即除了外显子区域之外还会出现内含子或者相邻区域的缺失,也会导致一些表型;神经肌肉类疾病,会有一些简单序列重复的次数不一致,也会导致一些变异,这些可能出现在coding区域也可能出现在non-coding区域。
参考文献:Lettice LA et al, Hum Mol Genet, 2003
Q:好用的神经系统相关疾病 的数据库能否推荐几个?
A:神经系统相关疾病很多,具体疾病来说都比较重要比如帕金森等,那么具体疾病都有其具体的数据库,但是用的相对多的,比较全面的就是我们CNGBdb上的罕见病数据库,其他的还有LOVD、Clinvar还有OMIM上都是有的。
Q:3D基因组可否有公用数据库可用?
A:这个是有的,只是本次课程没有列举,比如TAD Boundaries found by ENCODE Hi-C experiments (https://www.encodeproject.org/matrix/?type=Experiment),可以直接下载。
Q:可否解释连锁分析?
A:在用NGS之前很多关于遗传病的研究都是基于连锁分析,所谓连锁分析是基于不同的marker比如SNP、SSR等,通过比较患者和正常人之间的差异,就可以定位到一个宽泛的区域(有时候有几M区域) ,即基因比较多,筛选起来比较困难。
Q: 哪里可以看到测序数据的哪些染色体区域没有变异或未捕获到?
A:如果做变异注释时用到的软件是VEP的话,VEP分析结果中有一个网页的报告文件,会展示染色体上突变的检测情况。也可以自己根据变异的情况画图展示。
Q: 同义突变有什么致病评分吗?
A: 这个比较少,因为一般认为同义突变对氨基酸是没有改变的,所以正常情况下认为同义突变是不致病的;但是在合成生物学或基因治疗领域发现,同一密码子的表达效率是不同的,有时可能差几千倍,这样的情况下它也可能是致病的,就我所知目前没有软件可以预测同义突变的。
Q:非编码区域的位点如何筛选呢?
A:可以根据一些软件,比如GWAWA,会有一些预测,但是非编码区的变异很多,即使筛选之后还是会留下很多位点,预测软件会有假阳性和假阴性率,所以预测软件的结果仅供参考,可以尝试筛选一下。当然有些重要区域,比如序列保守的区域、启动子区域、转录因子结合区域等都可以重点考虑。
Q:vcf的过滤参数如何设置?有文献推荐吗?
A:需要看你的具体操作,对于原发性免疫缺陷,vcf文件我们会优先考虑对功能有害的突变、低频的突变,与功能相关的突变(在具体疾病组织中有表达)。
Q:同义突变是否还要考虑一下是否影响剪切之类的?
A:这也是有可能的,除了同义突变,还有内含子区域的突变,即使突变位点没有靠近剪切位点的位置,但是它可能位于内含子保守区域的某个位点,它也有可能会影响剪切,这种情况下如果认为影响剪切,可以用PCR进行验证(产物长度)看是否影响剪切。
Q:如果疾病是复杂疾病,怎么筛选?
A:复杂疾病需要用复杂疾病的研究策略,复杂疾病做的比较多的都是case/control的分析,需要样本量较大,例如1w对1w,可能现在这个数量级已经不够了,2010年左右的数量级已经是1w对1w,去判断在患者中一些突变频率较高的位点,一般要求p-value达到10-8。
Q:关于GDI分值的问题。
A:GDI分值比较高,会出现high damage,即这个基因是high damage,那么它是不太重要的。GDI分值越高这个基因越不重要。筛选中可以先忽略GDI分值较高的基因。
GDI分值高的基因即代表它们在绝大多数测序结果中都会被观测到,经常被报道可能在筛选后得到罕见、有害的变异,这些基因高频出现,所以其得分特别高。如果你研究的性状和这个基因相关性不高的情况下,这些基因可以先不考虑。
Q:通常在那个列表里面的基因多是由于哪些原因造成的呢?
A:这个可能有几种不同的情况,比如TTN就是因为这个基因特别长,基因比较短的时候被检测到有害突变的概率是低于它比较长的时候,这是一个原因;还有一些原因,那些基因在进化中没有那么重要,比如嗅觉相关的基因;还有很多基因亚型和家族序列比较类似,有时候因为比对的原因导致的,比如HLA相关的基因,尤其是HG19我们只用到了一个HLA型别进行了比对,所以找到的HLA突变可能是其他型别的,实际上不是真正的突变;T细胞受体基因因为数量非常多,它可能反映的是多态性,而不是和疾病相关的突变。
课程作业 :
https://db.cngb.org/dc_assets/media/science/Task_20190808.pptx
作业答案:
可能的候选基因为:
筛选过程:
1) 优先考虑非同义突变,剪切位点突变或者Indel;-------筛选AN列,挑选出非Low的突变(剩余62/239);
2) 考虑频率低于1%突变, 公共数据库(结果中已完成这部分筛选),内部数据库-------筛选K列,参数为小于0.01(剩余60/239);
3) 优先考虑非high damage gene------筛选AB列,参数为GDI-raw小于1000(剩余22/239);
4) 除去低质量低reads 支持的位点(具体信息BS列标红),剩余10/239个为点;
5) 考虑家系情况:父母来自同一偏远上去,且非近亲结婚且均正常,亦无其他亲属患病报道。
考虑de novo突变导致,常染色体隐性遗传(复合杂合突变 or 纯合突变)or 双/多基因模式;
------其中纯合突变是考虑父母来自同一偏远山区,有可能同时携带同一founder mutation。
1. 纯和突变仅一个基因ITK基因,其为stop-gain,SIFT score:0.14 (SIFT对stop gain的注释一般都有问题);
a. CADD:36; MSC:23.4 ----支持pathogenic;
b. 罕见变异,仅ExAC中有报道:0.000016541,gnomAD 中有报道:0.000007977 且无纯合突变报道----支持pathogenic;
c. ITK 报道为Lymphoproliferative syndrome 1, 613011的致病基因,已报道案例中也表现为早发(本案例1岁发病)且也是免疫系统障碍-----值得进一步开展验证工作。
2. 由于本示例中,仅测一个样本,所有的杂合突变都有可能为de novo突变,需要结合表型数据进一步家系内验证;
3. 但其他双基因遗传,比如PRKDC(NM_006904.6:c.9336-4dupT)和TYK2(NM_003331.4:c.2783C>T,NP_003322.3:p.Ala928Val) 也有可能,但值得注意的是这两个基因的GDI得分比较高。
审核:方明艳