2023-04-11 2049文献解读
此前小编已经为大家介绍过两个空间组数据库SpatialDB和STomicsDB。2023年2月,《Nature Methods》发表了一个综合性的空间组学数据库:SODB。
主流空间组学技术包含空间转录组、空间蛋白质、空间代谢组等。随着技术的发展,大量的空间组学数据快速产生,并存储在各种异构数据平台中。在具体数据分析之前,首先,研究者必须下载原始数据,然后将其正确处理为标准格式,这通常费时费力;此外,数据量也是另一问题,因为目前一些先进实验技术提供大视野和高空间分辨率(例如Stereo-seq、MERFISH等),处理这些数据需要大量内存和时间消耗。
因此开发团队搭建了SODB:支持用户快速浏览、可视化、读取、处理感兴趣的数据。
SODB提供了来自26种空间组学技术,数据量超过5000万细胞(spot),所有数据均由标准流程处理为Anndata形式,可兼容SCANPY、Squidpy等多种分析软件。
SODB还提供了多种数据分析和可视化模块,包括基因空间表达、细胞类型注释、基因表达比较、SOView可视化分析等。
此外,SODB还提供了配套Python工具包pysodb,仅用一行代码可以方便的读取数据,相比传统数据处理和读取方式,带来时间效率和内存效率的提升。以Slide-seq数据为例,时间效率提升160倍(传统方法读取需要19.04分钟,pysodb仅需7.16秒);内存效率提升549倍(传统方法需要21.97GB,pysodb仅需0.04GB峰值内存)。
未来,SODB还会有一些潜在的改进,例如由于处理不同数据格式的异构管道,用户目前不允许将自己的数据集上传到SODB,数据提交需要通过电子邮件联系相应作者来完成。开发团队将每两周处理和更新一次数据库。目前,SODB可以探索由多达106个点组成的数据,未来需要进一步优化对更大规模数据的可扩展性。
SODB: https://gene.ai.tencent.com/SpatialOmics
命令行包可在如下链接获取:https://pysodb.readthedocs.io/en/latest/
参考文献
Yuan Z, Pan W, Zhao X, et al. SODB facilitates comprehensive exploration of spatial omics data[J]. Nature Methods, 2023: 1-13.
信息来源于“光华俱乐部”公众号,图片来源于参考文献。