2023-03-09 1180CNGBdb
深圳华大生命科学研究院联合深圳国家基因库、首都师范大学、美国哈佛大学等多个研究团队,提出了一套DNA信息存储专用的比特-碱基编解码系统,研究通过编码学的理论推导以及不同数据类型文件的模拟编码,证明了该系统在保证信息密度的前提下,在数据恢复稳定性方面体现显著的性能提升(存储数据的平均恢复率较DNA喷泉码现有水平提升近两个数量级)。该成果在2022年4月25日以封面文章的形式发表于Nature系列子刊Nature Computational Science,以下是第一作者平质博士详细解读。
DNA分子作为一种新颖的信息存储介质,在存储密度、复制与维护成本、存储寿命等方面都具有颠覆现有信息存储技术的巨大潜能。2012年的Science文章显示,每克DNA可以存储455EB,相当于数千万个1TB移动硬盘大小的数据。DNA存储是由DNA高通量合成与测序技术催生的信息与生物相融合的新领域,通过DNA分子的碱基序列直接编码数字信息,由高通量合成技术合成序列进行信息写入,并利用高通量测序技术实现信息的读取,以实现存储数据的信息还原。DNA存储的编解码,即比特与碱基之间的转换,是DNA存储中最重要的环节之一,不仅决定信息转换的效率(信息密度),还直接影响了存储信息的稳定性及可靠恢复性。从2012年起,编解码技术的发展主要聚焦于提升信息密度,而技术兼容性和原始信息的稳定恢复方面的考虑尚不全面。直到2017年前,编解码技术都未能实现完全的技术兼容,产生序列的GC含量很大程度还是依赖于原始数据的0/1分布情况。2017年,美国哥伦比亚大学Yaniv Erlich团队开发的DNA喷泉码几乎解决了这一问题,但研究人员随之也发现直接套用的信道编码技术有较强的数据类型偏好性,因此在实际的存储应用中存在较高的数据无法恢复风险的问题。
研究团队从DNA双链模型中受到启发,结合中华文化中“阴阳”对立统一的思想,将其巧妙应用到DNA编解码系统当中,以两套不同的规则,分别对两条二进制信息进行“一对一”编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。另一方面,引入筛选机制,将与现有合成测序技术兼容性不佳的序列通过预先设置的筛选条件进行过滤。根据不同的组合方法,该系统共能提供1536种不同的编码规则组合,大大扩展了其应用场景范围。
研究通过约束编码理论,结合信息论,完成了对信息密度理论上界的数学推导,结果证明,其编码的理论最高值为1.951 bits/base,而将索引开销考虑在内的理论最高值为1.778bits/base,均达到领域先进水平。技术兼容性方面,由于筛选机制的存在,转换后的DNA序列均能满足上下游合成测序的技术要求。除去此前研究者最关心的GC含量、长单碱基重复等,该研究进一步引入二级结构稳定性作为序列约束之一,进一步提升了与合成、测序、PCR扩增等技术的兼容性。研究团队也利用计算机仿真的方式将包含文本、图像、音频、视频等不同数据类型的1GB大小数据集进行编码,证实了理论推导。
研究团队首先通过模拟编码的方式,通过在DNA文库中随机引入不同程度插入/删除/替换错误的方式进行模拟解码,证实该编码系统较DNA喷泉码表现出了更高的信息恢复稳定性。无论错误类型是什么,阴阳码系统都能恢复除无法恢复错误序列以外的所有原始信息。另一方面,DNA喷泉码在出现插入/删除(InDel)错误时,数据恢复率会随着错误率升高出现断崖式下滑。当错误类型仅有替换(SNV)时,DNA喷泉码的数据恢复率略有提升,但仍然远远不如阴阳码。
研究团队进一步设计合成了多个不同DNA存储文库,通过逐级梯度稀释获得了不同平均分子拷贝数的稀释样本200余个,利用PCR扩增将所有样品扩增至同样浓度。研究团队通过高通量测序(DNBSEQ-T7测序系统)对样本进行测序解码,以分析所有样本的数据恢复率。结果证明,该编码系统采用的线性数据恢复模式在每种DNA分子的平均拷贝数仅有100时,仍然能恢复最高88%的原始数据。而相同条件下,DNA喷泉码的平均恢复率仅有1.3%。
使用细胞进行DNA信息存储在近年来也受到了极大关注。该研究中,研究团队也测试了该系统在酵母细胞内存储、传代后的数据恢复稳定性。结果证明,作为载体的酵母菌株经过1000代以上的传代,信息仍可以被完整恢复,该存储方式接近天然DNA分子存储物理信息密度的理论极限,每克DNA能存储的信息量约为 432.2 EB。
该研究为DNA信息存储的应用提供了一种高密度、高稳定性的比特-碱基编解码方法,并完成了体内外两种模式的信息存储实验验证。DNA存储作为生物技术(BT)与信息技术(IT)相融合的主要方向之一在近年来受到广泛关注。本研究开发了一种全新的DNA存储编码方法,并提出1536种不同编码规则组合的方案,为DNA存储的多类型应用提供了重要工具,有望在海量数据长期存储的新型介质研究中起到积极的推动作用。
支持此项研究的相关测序数据已存储于国家基因库生命大数据平台(CNGBdb),项目编号为:CNP0001650。
原文链接:https://www.nature.com/articles/s43588-022-00231-2