2024NAR数据库特刊:时空组+单细胞数据库合辑

2024-01-15 1021CNGBdb

今年1月2023 Nucleic Acids Research Database Issue上线,包含180篇涉及生物学和相关领域的论文:其中90篇论文报告了新数据库;83篇更新了该期先前发表的资源;7篇提供了最近在其他期刊发表的数据库的更新。

2024NAR特刊-时空组数据库合辑

时空组+单细胞数据库合辑-1.png

STOmicsDB是一个时空组学综合数据库,其致力于促进时空组学的数据探索和学术研究。当前版本的STOmicsDB整合了17个物种的221个时空组数据集,涵盖25种时空组技术。开发团队注释了细胞类型,并识别空间区域和基因,对这些数据集进行了细胞间相互作用分析。STOmicsDB具有用户友好的界面,可快速可视化数百万个细胞。为了进一步促进时空组不同层次数据的收录与整合,STOmicsDB建立了时空组数据归档标准,并构建了时空组数据归档系统。同时,STOmicsDB和各科研团队合作研发了多个时空组数据库专辑,共同打造时空组数据生态圈。

截至目前,STOmicsDB已归档37个项目,数据量达202TB,并且已支撑Nature、Science、Cell在内的17篇文章发表,包括【时空组学联盟第一批生命发育时空图谱】覆盖小鼠、斑马鱼、果蝇、拟南芥四种模式生物胚胎或器官发育,【蝾螈脑再生时空图谱】,【猕猴大脑皮层多组学细胞图谱】等。

数据库地址:https://db.cngb.org/stomics/

时空组+单细胞数据库合辑-2.png

CROST是一个空间转录组综合资源存储库,其应用标准化处理流程整合了182个高质量的空间转录组数据集,涵盖8个不同物种、35种组织类型和56种疾病的1033个子数据集。针对单个样本提供了全面的生物信息分析,包括空间变异基因(SVG)分析、细胞类型注释、空间相关性、空间共定位、通讯分析和功能注释等。CROST通过集成空间转录组、经典转录组、表观基因组和基因组的数据全面阐明了肿瘤相关SVG,是用户(尤其是临床医生)快速评估特定癌症类型中基因表达水平、甲基化水平、拷贝数变异以及预后的宝贵工具。此外,数据库提供了一个用于可视化、空间通讯、空间共定位和细胞类型相关性的交互式环境。CROST还开发了一个专为空间转录组分析而设计的一站式分析平台,旨在帮助用户即使不具备任何编程技能也可进行空间转录组分析。

数据库地址: https://ngdc.cncb.ac.cn/crost

时空组+单细胞数据库合辑-3.png

SORC是第一个癌症空间组学在线共享数据库,提供了一个全面的人类癌症空间转录组资源注释分析平台。其涵盖17种癌症类型超过72万的空间spot和超过33万配对/高质量的单细胞并交互地可视化每个肿瘤组织切片的形态特征。此外,SORC提供了五个主要的分析模块,涵盖了空间转录组学分析的基本要求,包括切片的注释、识别SVG、免疫细胞和肿瘤细胞的共存、功能分析和细胞-细胞通讯。

数据库地址:http://bio-bigdata.hrbmu.edu.cn/SORC

时空组+单细胞数据库合辑-4.png

SCAR是首个结合了单细胞转录组和空间转录组数据集的癌症数据库,截至目前已涵盖348种癌症亚型,包括21个器官的空间转录组数据和来自11301352个细胞的单细胞转录组数据。此外SCAR 还在肿瘤细胞类型分类、生物标记物选择、生存曲线预测等方面提供了广泛的分析和可视化工具。其将使用户能够在癌症研究中全面评估肿瘤微环境和免疫反应。

数据库地址:http://8.142.154.29/SCAR2023

2024NAR特刊-单细胞数据库合辑

时空组+单细胞数据库合辑-5.png

scGRN是一个全面的人和小鼠单细胞多组学基因调控网络平台。其目前包含来自多个测序平台的1324个scRNA-seq和scATAC-seq样本。这些样本来自160个组织/细胞系的6808724个细胞,包括疾病和健康状况的样本。scGRN提供了TF结合区启动子、超级增强子和典型增强子的详细功能注释。此外,scGRN还为用户提供了三个在线分析工具,包括TF富集度分析、差异网络分析和通路下游分析。综上scGRN是一个用户友好的平台,用于查询、分析和可视化与scGRN相关的信息

数据库地址: https://bio.liclab.net/scGRN/

时空组+单细胞数据库合辑-6.png

CellSTAR是首个单细胞转录组注释资源综合数据库。其独特之处在于:(a) 首次为数百种细胞类型的注释提供了全面的专家注释参考数据;(b) 通过纳入数以万计的标记基因,实现了对参考数据和标记基因的集体考虑。

最新版本的CellSTAR (a)提供了从14种测序技术、515个项目和1679批次收集的有价值的注释参考表达谱,包括18个物种和139个组织的107种注释方法鉴定的889种不同的细胞类型;(b)收集了典型细胞标记,其中包含超过80000个条目,覆盖76%参考数据中鉴定的80%以上的细胞类型;(c)详细描述了与注释相关的实验元数据;(d)提供各种交互式可视化,能够全面探索复杂分布的细胞和潜在的分子驱动因素。此外,物种、组织、细胞类型和相应的标记分别基于最新版本的Taxonomy、Uberon、Cell Ontology和Entrez Gene进行了标准化。

数据库地址:https://idrblab.org/cellstar

时空组+单细胞数据库合辑-7.png

基于bulk和单细胞转录组学的人类和小鼠疾病特征图谱(DiSignAtlas)旨在满足对全面疾病特征的需求,为多种疾病提供基于转录组学的特征。其包括从涉及人类和小鼠1836种非冗余疾病类型的研究中手动整理出来的181,434 个转录组图谱,建立了包含疾病和对照样本的10306个比较数据集(其中有328个scRNA-seq数据集)。开发团队通过使用常用的流程分析转录组图谱,将人类中总共3775317个差异表达基因和小鼠中1723674个差异表达基因确定为疾病特征。除了提供多种疾病特征检索方法外,DiSignAtlas 还提供下游功能富集分析、细胞类型分析以及疾病或物种之间的特征相关性分析(如果可用)。此外,还有多种疾病特征分析和比较工具可供使用。

数据库地址: http://www.inbirg.com/disignatlas/

时空组+单细胞数据库合辑-8.png

DRMref数据库旨在利用从药物治疗环境中获得的单细胞数据提供耐药机制的全面表征。目前版本包括来自30项研究的42个scRNA-seq数据集,其中14个研究同时包含治疗前和治疗后样本,涵盖666个样本,13种主要癌症类型,26种次要癌症类型,35种治疗方案,42种药物。DRMref中的所有数据集都是可浏览和搜索的,并提供了详细的注释。同时,DRMref包括在抗性细胞中的细胞组成分析、肿瘤内异质性、上皮-间质转化、细胞-细胞相互作用和差异表达基因。值得注意的是,DRMref研究了在耐药细胞中的耐药机制(如药物治疗靶点畸变,结构修饰药物失活等),hallmark/KEGG/GO通路的附加通路富集分析,以及鉴定与耐药细胞相关的microRNA、motif和转录因子,这些在DRMref中提供给用户探索。综上DRMref是研究耐药性、药物联合治疗和发现新的药物靶点的独特的单细胞资源。

数据库地址:https://ccsm.uth.edu/DRMref/

时空组+单细胞数据库合辑-9.png

scQTLbase是一个集成的人类单细胞eQTL门户网站,其中包括来自 304 个数据集的sc-eQTLs,涵盖57种不同的细胞类型和95种细胞状态。此外,scQTLbase还支持sc-eQTLs搜索、利用UMAP实现单细胞数据可视化以及通过基因组浏览器实现sc-eQTL可视化。scQTLbase为sc-eQTLs提供了一站式门户,极大地推动疾病易感基因的发现。

数据库地址:http://bioinfo.szbl.ac.cn/scQTLbase

时空组+单细胞数据库合辑-10.png

scATAC-Ref是一个手动整理的scATAC-seq数据库,旨在提供全面、高质量的染色质可及性图谱来源。当前版本的scATAC-Ref收录了超过400种由已发表文章手工标注的细胞/组织类型,涵盖了人类、小鼠、牛、玉米和拟南芥5个物种的1,694,372个细胞。同时使用统一的系统环境和软件参数来计算基因活性评分、TF富集评分、差异可及性区域(DAR)和通路/GO富集。scATAC-Ref还提供了一个方便、友好的界面来查询、浏览和可视化感兴趣的细胞类型,以帮助阐明细胞类型相关的功能和潜在的生物学效应。

数据库地址:https://bio.liclab.net/scATAC-Ref/

时空组+单细胞数据库合辑-11.png

scTEA-db是一个基于单细胞的末端外显子注释数据库,其通过分析53,069个公开的单细胞转录组,提供了12,063个迄今尚未注释的末端外显子和相关转录本异构体。scTEA-db网站提供了一系列功能,用于查找和探索属于5,538个人类基因的新型末端外显子,其中110个外显子是已知的癌症驱动因子。

数据库地址:http://www.scTEA-db.org

时空组+单细胞数据库合辑-12.png

SingPro数据库提供基于质谱和流式细胞仪的单细胞蛋白质组学研究的原始数据、实验细节和蛋白质表达概况。其共收集了201项研究(128项病例对照研究、21项多类研究和52项单臂研究)的SCP原始数据,数据量超过6.25亿个细胞和超过16,000种蛋白质,包括不同物种(如人、麝和爪蟾)、组织/器官(如外周血、肾脏和乳腺)和疾病(如感染、消化系统疾病等)。

数据库地址:http://idrblab.org/singpro/

时空组+单细胞数据库合辑-13.png

SPDB是一个全面的单细胞蛋白质组学数据库,包括基于抗体或基于质谱的单细胞蛋白质组学,提供了从单细胞角度研究蛋白质组学的强大工具。SPDB具有标准化的数据处理流程和友好的web界面,提供统一的数据格式,方便与下游分析交互,并提供数据集级和蛋白质级的数据搜索和探索能力。SPDB还提供了一个模块,用于从细胞元数据或蛋白质特征的角度对数据进行可视化。迄今为止,SPDB集成了来自12种基于抗体和质谱技术的143个单细胞蛋白质组学数据集,涵盖了4个不同物种的3亿个细胞和8000多种不同的蛋白质。作为一个用户友好的网络服务器,SPDB提供了广泛的功能,包括单细胞蛋白质组数据部署,数据集搜索和挖掘模块、蛋白质搜索和挖掘模块、数据统计模块,以及详细的用户手册。

数据库地址: https://scproteomicsdb.com/

时空组+单细胞数据库合辑-14.png

ZEBRA全面概述了神经退行性疾病和大脑衰老方面的单细胞和单核RNA测序数据。其收录了从GEO、Synapse 和UCSC Cell Browser上收集的10X Chromium人类样本和小鼠样本,采用统一的预处理流程,对元数据进行质量控制和归一化处理。每个物种的数据集都是单独整合的。缺失的细胞类型分配是根据修订后的聚类和已发表的标记基因推断出来的。人类皮层图谱包括19个数据集的1,930,270个细胞和21,158个基因。要选择其他数据集,请点击网站左上角徽标下方的下拉菜单。

数据库地址:https://www.ccb.uni-saarland.de/brain_atlas

时空组+单细胞数据库合辑-15.png

CellCommuNet以交互式图形格式呈现不同状态下组织的细胞-细胞通讯分析结果,并允许对疾病和正常样本之间的通讯强度进行差异分析。其收集并整理了376个scRNA-seq数据集,其中包含超过4300000个细胞转录组,涵盖健康样本和广泛的疾病。还组织了来自同一scRNA-seq研究的疾病和对照样本之间的118个比较数据集。此外,使用Seurat/ScType/Cellmarker/CellChat工具进行细胞通信分析推断出:每对配体受体和每条信号通路的514,463个细胞-细胞通信网络,其中329,174个网络显示出疾病组与健康组之间的差异。该数据库提供“搜索”、“浏览”、“下载”和“查询”等功能。

数据库地址:http://www.inbirg.com/cellcommunet/

时空组+单细胞数据库合辑-16.png

scPlantDB是最大的植物单细胞数据库,提供了最多的植物单细胞转录组数据集。其收集了17个植物的67个高质量单细胞数据集,并对这些数据进行了严格的人工审核、质控和标准化处理。该数据库提供了如基因集富集分析 (GSEA) 和比较不同物种间的细胞标记等功能。为了方便用户交互和分析,作者开发了两个交互工具:第一个工具允许用户根据自定义的基因列表预测细胞类型,从而实现定制化的分析和探索。第二个工具使用户能够比较不同细胞类型的细胞标记,提供对标记表达模式和潜在细胞关系的见解。

数据库地址:https://biobigdata.nju.edu.cn/scplantdb

时空组+单细胞数据库合辑-17.png

StemDriver是一个全面的知识库,致力于对参与决定造血干细胞命运的基因进行功能注释。目前版本的StemDriver整合了42项研究的数据,涵盖从胚胎期到成年期的14种不同组织类型。为了确保数据的统一性和可靠性,所有数据都经过了标准化处理,其中包括高质量的数据预处理、细胞类型注释、差异基因表达分析、与分化相关的基因类别鉴定、伪时间高变异基因分析以及基因表达调控网络探索。StemDriver评估了人类样本中23 839个基因和小鼠样本中29 533个基因的功能。同时StemDriver 还为用户提供了用于细胞注释的参考数据集和模型。

数据库地址:http://biomedbdc.wchscu.cn/StemDriver/

参考文献 [1] Xu,Z., Wang,W., Yang,T., Li,L., Ma,X., Chen,J., Wang,J.,Huang,Y., Gould,J., Lu,H., et al. (2023) STOmicsDB: acomprehensive database for spatial transcriptomics data sharing,analysis and visualization. Nucleic Acids Res.,https://doi.org/10.1093/nar/gkad933.
[2] Zhou,W., Su,M., Jiang,T., Yang,Q., Sun,Q., Xu,K., Shi,J., Yang,C.,Ding,N., Li,Y., et al. (2023) SORC: an integrated spatial omicsresource in cancer. Nucleic Acids Res.,https://doi.org/10.1093/nar/gkad820. 
[3] Wang,G., Wu,S., Xiong,Z., Qu,H., Fang,X. and Bao,Y. (2023)CROST: a comprehensive repository of spatial transcriptomics.Nucleic Acids Res., https://doi.org/10.1093/nar/gkad782.
[4] Deng,Y., Chen,P., Xiao,J., Li,M., Shen,J., Qin,S., Jia,T., Li,C.,Chang,A., Zhang,W., et al. (2023) SCAR: single-cell andSpatially-resolved Cancer Resources. Nucleic Acids Res.,https://doi.org/10.1093/nar/gkad753.
[5] Huang X, Song C, Zhang G, et al. scGRN: a comprehensive single-cell gene regulatory network platform of human and mouse[J]. Nucleic Acids Research, 2023: gkad885.
[6] Zhang Y, Sun H, Zhang W, Fu T, Huang S, Mou M, Zhang J, Gao J, Ge Y, Yang Q, Zhu F. CellSTAR: a comprehensive resource for single-cell transcriptomic annotation. Nucleic Acids Res. 2023 Oct 19:gkad874. doi: 10.1093/nar/gkad874.
[7] Zhai Z, Lin Z, Meng X, et al. DiSignAtlas: an atlas of human and mouse disease signatures based on bulk and single-cell transcriptomics[J]. Nucleic Acids Research, 2023: gkad961. 
[8] Liu,X., Yi,J., Li,T., Wen,J., Huang,K., Liu,J., Wang,G., Kim,P.,Song,Q. and Zhou,X. (2023 ).DRMref: comprehensive referencemap of drug resistance mechanisms in human cancer. NucleicAcids Res., https://doi.org/10.1093/nar/gkad1087.
[9] Ding R, Wang Q, Gong L, et al. scQTLbase: an integrated human single-cell eQTL database[J]. Nucleic Acids Research, 2023: gkad781.
[10] Qian F C, Zhou L W, Zhu Y B, et al. scATAC-Ref: a reference of scATAC-seq with known cell labels in multiple species[J]. Nucleic Acids Research, 2023: gkad924.
[11] Barquin M, Kouzel I U, Ehrmann B, et al. scTEA-db: a comprehensive database of novel terminal exon isoforms identified from human single cell transcriptomes[J]. Nucleic Acids Research, 2023: gkad878.
[12] Lian,X., Zhang,Y., Zhou,Y., Sun,X., Huang,S., Dai,H., Han,L. andZhu,F. (2023) SingPro: a knowledge base providing single-cellproteomic data. Nucleic Acids Res.,https://doi.org/10.1093/nar/gkad830.
[13] Fang Wang, Chunpu Liu, Jiawei Li, Fan Yang, Jiangning Song, Tianyi Zang, Jianhua Yao, Guohua Wang, SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution, Nucleic Acids Research, 2023;, gkad1018.
[14] Flotho M, Amand J, Hirsch P, et al. ZEBRA: a hierarchically integrated gene expression atlas of the murine and human brain at single-cell resolution[J]. Nucleic Acids Research, 2023: gkad990.
[15] Ma Q, Li Q, Zheng X, et al. CellCommuNet: an atlas of cell–cell communication networks from single-cell RNA sequencing of human and mouse tissues in normal and disease states[J]. Nucleic Acids Research, 2023: gkad906.
[16] He Z, Luo Y, Zhou X, et al.  scPlantDB: a comprehensive database for exploring cell types and markers of plant cell atlases[J]. Nucleic Acids Research, 2023: gkad706.
[17] Luo Y, Guo J, Wen J, et al. StemDriver: a knowledgebase of gene functions for hematopoietic stem cell fate determination[J]. Nucleic Acids Research, 2023: gkad1063.

上一篇下一篇

相关专题