2021-01-04 13230文献解读
自从 "基因 "这个词出现以来,已经有100多年的历史了。科学技术的发展极大地改变了基因组领域,尤其是在基因图谱、数据库、疾病图谱、CRISPR/Cas9、大数据和下一代测序等方面。
人类疾病是广泛研究(包括基因组学、生物信息学、系统生物学和系统医学)的核心。来自美国的研究团队在《Briefings in Bioinformatics》发表综述,从43个数据库/工具中筛选出提供基因→疾病搜索的数据库进行详细探讨,有助于科研人员针对目标疾病选择适合的数据库。
ClinVar数据库包括任何大小、类型和基因组位置的胚系和体细胞变异信息。ClinVar当前拥有超过158000个提交的注释,代表超过125000个变异。用户通过基因名称即可检索到所有相关的变异和条件的名字,以及它们的状态。结果主要来自三个方面:临床试验、研究和文献。由于缺少足够的方法来衡量临床试验结果的准确性,一些信息可能是不明确的。
CNVD是一个系统、全面的拷贝数变异及相关疾病的数据库,其中所有的记录都是从CNV相关文章发表的实验数据中人工提取的。因此,CNVD是研究疾病相关拷贝数变异的可靠资源。它收录了251697条记录,包含从2006年至2014年发表的文章中挖掘出的183219个CNV片段、844种相关疾病和46348个基因。CNVD允许用户以多种方式对数据库进行检索:按基因名称、疾病名称、染色体位置或拷贝数变异区域进行检索。在查询结果中,每条记录都包含这样的信息:物种、染色体、CNV的起始和结束位置、相关疾病、CNV区域的基因和来源文章的PubMed ID。
DO是标准化的常见和罕见疾病概念的生物医学资源,具有按疾病病因组织的稳定标识符。当前版本的DO扩大了实用性,通过人类疾病的视角对遗传变异、表型、蛋白质、药物和表位数据进行检查和比较。DO是一个疾病研究的专业网站,其中还包括每种疾病的ICD代码。但它们与基因没有关联,必须对每种疾病分别进行搜索。由于它不是一个特定于基因研究的网站,无法执行多个输入的搜索和相对较小的基因库是一个相对不利的方面。
DiseaseEnhancer是一个精心策划的疾病相关增强子数据库。截至2017年7月包括143种人类疾病中的847个疾病相关增强子。数据库功能包括增强子的基本信息(如基因组位置和靶基因)、疾病类型和增强子的相关变异及其相关表型(如增强子的增益/损失和转录因子结合的改变)。这个网站是基于增强子与基因的相互作用,而不是直接基于基因组。但由于基因相关的增强子在定义疾病表型中起着一定的作用,因此本网站只提供了一种间接的联系。疾病结果的数量非常少,虽然该数据库可以进行疾病到基因和基因到疾病的双向检索,也可以接受多个基因的输入,但该数据库只能作为部分参考。
DISEASES整合了从现有数据库中挖掘疾病-基因关联、癌症突变数据和全基因组关联研究的文本结果。搜索一个基因如BRCA1,会生成一个主要结果页,其中包含系统中所有匹配的名称,包括主要名称、类型和Ensembl ID。该数据库以其独特的数据采集方法和庞大的数据量而成为一个有用的数据库。然而,对于进行大规模基因搜索的研究人员来说,该数据库的搜索过程会比较费时。
GARD保存一份罕见疾病和相关术语的清单,以帮助公众找到可靠的疾病信息。它是一个更适合普通患者而非研究人员的资源。当搜索某个基因时,输出的结果会显示所有相关疾病,有些结果并不直接相关,或者是重复的。另外,每次搜索仅限于一个基因。
GTR保存着全世界范围内遗传性疾病检测的综合信息。数据库提供了每项检测的详细信息(如检测目的、目标人群、方法、测量、分析有效性、临床有效性、临床效用和订购信息)和实验室(如位置、联系信息、证书和许可证)。直到2018年10月,GTR已在所有55475个检测,11260个条件,16452个基因和509个实验室中探索了多项研究。由于其依赖提交者提供准确且不具误导性的信息,因此该网站上的数据可能需要额外的证据检查和验证。
miR2Disease是一个涉及microRNA失调的人类疾病简明数据库。检索提供了microRNA及其疾病关系的详细信息,包括microRNA ID、相关疾病名称、microRNA与疾病关系的简要描述、microRNA的表达模式、microRNA表达的检测方法、经实验验证的microRNA靶基因和文献参考。从2008年创建到2018年,miR2Disease记录了349个人类microRNA和163种人类疾病之间的3273种关系。
成立Orphanet的目的是为了收集有关罕见病的稀缺知识,以改善这些疾病患者的诊断、护理和治疗。它涵盖了OMIM,ICD10,MeSH,MedDRA,GARD,UMLS等来源的6000多种稀有疾病,并使用现有已发布的专家分类精心编制了疾病分类。对于每个基因搜索,都会出现一系列相关的蛋白质,单击这些蛋白质可显示与疾病相关的信息。单击该疾病即可得到该特定疾病的ICD代码。
DisGeNET是一个发现平台,它包含了与人类疾病相关的基因和变异的综合目录。它涵盖了人类疾病的全部情况,包括孟德尔病、复杂病、环境病和罕见病,以及与疾病相关的特征。允许用户同时输入多个基因。系统会对每个基因进行单独的介绍,并将它们的疾病关联结合在一行,可以下载所有相关信息。
HGMD是与人类疾病密切相关基因的综合数据库。截至2017年3月,该数据库包含超过203000个不同的基因损伤,这些损伤来自2600多份期刊的8000多个基因。HGMD有五种搜索方式,主要信息包括基因名称、位置和基因描述,其中基因描述指的是相关疾病。通过点击基因名称,用户可以得到完整的信息,包括疾病和表型。
G2F是一个在线资源,它可以在模式生物数据库(MODs)支持的人类基因和常见遗传模式物种之间绘制直系同源图,并显示每个直系同源图的摘要信息。G2F可以方便地调查正交基因的大量信息,从一个物种导航到另一个物种,并将用户连接到各个MODs和其他来源的详细报告和信息。G2F的优势在于它可以进行双向检索,但是它不能接受多个基因的输入,也无法直接跳转到相关疾病。
SwissVar通过一个独特的搜索引擎提供对UniProtKB/Swiss-Prot数据库中单一氨基酸多态性(SAPs)和疾病的全面收集。它包含近4160个带有疾病注释的基因和20412个人类蛋白质。SwissVar是一个蛋白质-疾病研究的网站。
eDGAR是一个疾病-基因关联数据库,包含来自OMIM、Humsavar和ClinVar的基因间的注释关系。对于每个与疾病相关的基因,eDGAR收集其注释的所有信息。目前发布的eDGAR包括2672种疾病,涉及3658种不同的基因,共5729种疾病-基因关联。
GeneCardsSite是一套生物医学数据库和工具,包括用于全面人类基因注释的GeneCards、用于基因-疾病链接的MalaCards、用于批量查询的GeneALaCart以及用于寻找功能基因和基因集提炼的GeneAnalytics。
一些数据库是基于简单的文献网站,如OMIM;DISEASES、eDGAR和GeneAlaCart搜索基因直接给出相关疾病,但只是间接的讨论了基因和疾病之间的关系;ClinVar用变异来衔接相关基因和疾病;在CNVD中,使用了拷贝数变异;miR2Disease使用了miRNAs;DiseaseEnhancer使用了增强子;HGMD的重点是胚系突变;SwissVar使用了蛋白质变异;GARD和Orphanet以罕见病为中心;DO涵盖人类疾病本体。
现在是大数据时代,与人类相关的生物数据库不仅在数量上持续增长,而且在体量上也在不断增加,对数据的存储、处理、交换和策展提出了前所未有的挑战。
参考文献
Saman Zeeshan, Ruoyun Xiong, Bruce T Liang, Zeeshan Ahmed, 100 Years of evolving gene–disease complexities and scientific debutants, Briefings in Bioinformatics, Volume 21, Issue 3, May 2020, Pages 885–905,
https://doi.org/10.1093/bib/bbz038
图片均来源于参考文献,如有侵权请联系删除。