一公斤DNA可存储全球数据是如何做到的? | 《DNA存储蓝皮书》连载(2)

2016年Nature刊登文章讲到,“如果可以实现像大肠杆菌的基因一样的信息封装密度,那么大约一公斤的DNA就可以满足全球的数据存储需求”【1】。一公斤DNA可以存储全球所有数据,如何实现呢?特别是信息编码与纠错、信息封装和读取。本文通过国内首部《DNA存储蓝皮书》第二部分连载分享如下。

一、DNA存储是一套系统

图:DNA存储系统流程举例(来源/DNA存储蓝皮书》,下同

  • 信息存储系统最重要的步骤是信息的写入与读取。尽管蛋白质、代谢化合物、聚合体高分子化合物的序列合成已可以部分实现,但序列合成与信息读取(依赖于高分辨率的质谱技术)的成本与效率均阻碍了下游应用普及。相比之下,DNA分子的合成与测序技术相对更成熟,大部分装备已商业化。因此, 基于相对低成本和规模化等巨大潜力,目前全球科学家和工业巨头代表正大力推动DNA作为信息存储介质。
  • DNA存储从本质上均是将数字文件的二进制编码转换为DNA碱基的编码,不同系统的技术路径有较大差异,本蓝皮书重点讨论的是依赖DNA合成及测序的DNA存储系统。整体上,DNA存储系统是在体内或体外合成可以编码数字信息的DNA序列,并能进行稳定存储、读取和访问原始信息的系统。DNA存储全流程一般可分为6个主要步骤,包括编码、合成、保存、获取、测序、解码。
二、DNA存储的第一步:信息编码
  • 从二十世纪二十年代起,随着通信技术的兴起,信息论思想开始萌芽。1948年香农在贝尔系统技术杂志发表了《通信的数学理论》后,信息论才真正成为一门学科理论。信息论的基础包含应用数学、电子学和计算机科学,涉及了信息的量化、存储和通信等等,其应用也已拓展到很多其他领域,如统计推断、密码学、分子编码等。信息论的发展也促进了计算机、互联网等现代信息技术的发展。在DNA存储中,信息编码方法开发也在香农信息论的框架下快速发展。
  • 自2012年美国哈佛大学George Church团队首次验证了规模化DNA存储的概念,每年与DNA存储信息编码方法相关的研究文献逐年递增。研究思路主要聚焦于提升信息密度、生物化学约束的兼容性、错误纠正、不同存储功能适配性(如信息的随机读取、搜索、预加载等)以及安全性等。
  • 现有已发表的编码算法的工作大致可分为两类:
    • 第一类为基于受限的基本映射关系的编码算法,包括Church编码算法、Goldman编码算法、Grass编码算法、Blawat编码算法等。这些编码算法在考虑单碱基重复和/或其他的约束要求下确定了比特与受限碱基之间的映射规则。通过牺牲一定的编码信息密度,利用固定映射规则,避免了出现单碱基重复的可能性。
    • 第二类为在基本映射关系基础上增加筛选过滤步骤的编码算法,包括DNA Fountain喷泉码和Yin-Yang双编码算法等,利用文件中二进制信息片段的组合多样性,生成更多不同的DNA序列。在完成基本映射编码后,会针对生成DNA序列进行生化约束条件下序列筛选过滤,完全满足预先设定的生化约束条件,如GC含量、单碱基重复、二级结构自由能等。

  • Church编码算法:2012年,George Church团队首次验证了规模化DNA存储的概念,并估计了DNA存储的理论存储密度(5.5Pb/mm3或455EB/g)。该团队率先提出了“比特-碱基”的简单编码过程,即Church编码算法。该方法可以完全避免三个以上连续碱基重复的情况,但对特定数据结构,一旦映射关系确定,则无法实现对GC含量的调控。

  • Goldman编码算法:为了直接消除单碱基重复对合成或测序过程的影响,2013年Nick Goldman团队提出了一种基于霍夫曼编码的轮转编码规则。也是首个将比特-碱基信息密度纳入考虑的编码方法。同时它也利用分段重复保存的原理,将每个信息在4个不同的分子中进行备份拷贝,尽管一定程度上增加了成本,但大大提高了稳定性。后续的Borholt等人对该方法进行了改进,利用异或运算大大降低了备份拷贝或者冗余的信息量。

  • Grass编码算法:2015年,Robert N. Grass团队将有限域与碱基三联体进行关联,提出了可避免长度大于3的单碱基重复的编码算法。该方法可以有效避免连续三个以上的单碱基重复,其理论信息密度可以达到1.78比特/碱基。在编码过程中,Grass等人首次引入了信息技术中的纠错编码,拓展了DNA存储的编码模块,为此后的DNA存储更准确地应对DNA序列在合成、扩增、测序中无法避免的碱基替换错误提供了解决方案。

  • Blawat编码算法:Meinolf Blawat及其同事在2016年发布了一种编码算法,以处理DNA测序、扩增、和合成过程引入的错误。该方法以字节而非比特作为碱基转换的基本单元,将一字节信息(长度为8)转换为长度为5的DNA序列信息。Blawat编码一定程度上继承了Church编码碱基互换的思想,在纠错方面并没有利用信息学中的纠错码,而是利用自身编码算法的特点,通过反向推导去除错误选项达到纠错的目的。

  • DNA Fountain喷泉码:2017年,哥伦比亚大学的研究人员Yaniv Erlich和Dina Zielinski提出了基于Luby变换码(Luby Transform)的编码算法“DNA 喷泉码”。Luby变换码作为首个实用性喷泉码,可以从一组给定的源数据包中产生一串无限的编码符号序列,在理想情况下,只需获得大小和源数据包总量相同或稍大的任意编码符号子集,便可恢复源数据信息。与上述算法不同的是,该算法并未将约束条件写入映射规则中,而是通过筛选机制使得最终获得的DNA序列满足约束要求。

  • Yin-Yang阴阳双编码算法:参考筛选操作和Goldman编码算法,深圳华大生命科学研究院的平质等研究人员主导提出了Yin-Yang阴阳双编码算法。相比DNA Fountain编码算法,该方法并非基于随机数种子和异或操作获得DNA序列,而是基于某种选中的规则簇(共计6144种),基于“阴”和“阳”两种轮转规则,将两条二进制子序列转换为一条DNA序列。此外,如果在一定迭代次数后仍然找不到满足要求的DNA序列,则选中一条二进制子序列并在外部生成一条随机的比特序列进行阴阳轮转操作,获得一定满足要求的DNA序列。
  • 阴阳码借鉴了自然界中DNA双链特征与中国古代哲学的阴阳两面思想,同时结合了Goldman编码的轮转思路与DNA喷泉码的筛选思路。它可以达到与DNA喷泉码相媲美的高信息密度(1.95比特/碱基),并针对DNA存储中信息传输异步这一有别于传统信息传输体系的特点,不同信息包之间相互独立,并未建立解码关联性。这一做法使得其在应对碱基错误与序列丢失的表现上比DNA喷泉码有了明显优势。在进一步的实验验证中,阴阳码可以在低分子拷贝数(≤100)下获得更高的数据恢复率(实验数据表征可达到88%)。阴阳码也提供了多达数千种的编码规则,结合二进制片段灵活的组合方式,该方法可以应用于多种场景,包括文件的归档、数据的加密等等。

  • 目前公开的DNA存储编码算法所采用的编程语言、编码所设定的技术参数各不相同,不利于基于已有研究基础的后续开发优化,针对不同类型数据文件的最适配算法选择也缺乏相应的评价或是选择标准,从而阻碍了该领域的交流与发展。为解决这个问题,2021 年,深圳华大生命科学研究院研究团队发表针对DNA存储不同编码算法的集成与评价平台Chamaeleo系统的研究成果。Chamaeleo系统由转码模块、纠错模块和流程模块构成。其中,流程模块用于实际转码/评估任务的执行,转码模块中的转码算法以及纠错模块中的纠错码都会通过实例化的方式被流程模块中的具体流程所使用。
  • 除Chamaeleo平台外,中科碳元联合中科院深圳先进技术研究院研究团队发布了首款DNA数据存储在线编解码软件——“阿童木(ATOM1.0)”。根据官网介绍,该软件为用户提供了友好的操作界面,可在二进制数据文件和A/T/C/G的4碱基核苷酸编码的自由转换,方便进行数据存储或读取。与传统计算机间的数据转换和通讯不同,该软件实现了计算机和生物体遗传信息之间的数据交互。
  • 此外,值得关注的无比率纠删码软件架构NOREC4DNA,是针对无比率纠删码(rateless erasure codes,例如DNA Fountain)开发的一套使用、测试、比较和改进的软件架构。该架构中着重分析了包含卢比变换码、在线编码(Online Code)、旋风编码(Rapid tornado Code)在不同参数情况下的解码情况。
三、DNA存储的第二步:DNA合成

图:DNA合成技术与仪器研发进展概述(来源/DNA存储蓝皮书》,下同

  • DNA合成是DNA存储中的核心技术之一,其效率与成本极大地影响着DNA存储技术的规模化应用。人工合成DNA是基于化学法或生物法,将这些脱氧核苷酸单体按事先确定的顺序依次连接起来,即DNA合成。常规DNA合成方法以单链寡核苷酸合成为基础,因此本节中的DNA合成如无特殊说明,均指的是单链寡核苷酸合成。
  • DNA的合成按原理一般分为化学法合成和生物法合成。化学法合成主要基于亚磷酰胺法,其中控制方法包含光化学法、电化学法、喷墨打印法、集成电路控制等。生物法合成包括基于TdT、TdT-dNTP交联体以及混合酶介导。
  • 化学合成:寡核苷酸化学合成起步于二十世纪四十年代末。1955 年,剑桥大学的 Todd实验室,第一次用化学法成功合成了简单二聚寡核苷酸,并于1957年获得诺贝尔化学奖(如下图)。1965年,Khorana等利用化学方法大量合成脱氧核苷的单一聚合物或二种、三种脱氧核苷的重复序列,并人工合成了六十四种核糖三糖苷用于研究蛋白质的生物合成过程,从而确定了氨基酸的三联密码子, 因此获得1968年的诺贝尔化学奖。
  • 二十世纪六十至七十年代,寡核苷酸的化学合成方法不断被完善,主要包括改善亚磷酰胺单体的稳定性和反应活性以提高单体偶联步效率,优化保护基团的反应活性及产物的稳定性以提高氧化环节的氧化效率等。目前几乎所有的工业化的Oligo合成,均起源于1987年由美国科学家Marvin H. Caruthers发明的“固相亚磷酰胺三酯法”。
  • 然而,由于每一步化学反应的不完全性和副反应的发生,随着寡核苷酸合成链的延长,合成错误率急剧上升,合成产物得率也显著下降。此外,由于合成过程中需要大量使用有毒化学试剂,所产生的废液、废气也需要特殊处理。为此,近年来科研人员开发出很多旨在提高合成效率、降低副反应发生率的方法,并尝试创新研发不依赖有毒化学试剂的合成方法。包括亚磷酰胺三酯合成法、光化学脱保护合成法、电化学合成法、氢磷酸酯合成法、两步合成法、双碱基单体合成法等,具体见《DNA存储蓝皮书》。

  • 国外工业化的Oligo合成定制服务,始于1989年由ABI推出的第一台商业化自动DNA合成仪。国内始于1995年由生工生物建成第一条商用Oligo合成生产线,标志着中国由此开始了DNA合成定制化服务的大规模应用
  • Oligo合成需要在合成仪的合成柱上先得到Oligo粗品,再经过氨解、纯化、定量、分装和干燥等步骤,最终获得符合客户定制需求的Oligo成品。从合成的基本技术原理上来说,“亚磷酰胺三酯法”仍是目前主流的Oligo化学合成的原理基础。而从设备平台上,根据不同的应用场景, 可具体可分为三个不同的层面:
    • 柱式法固相合成和芯片合成
    • 超微量、微量、常规量和大规模合成
    • 低通量、中通量和高通量合成

  • DNA合成仪是DNA合成的核心装备。自上世纪九十年代起,英美等国基于经典化学合成法原理基础上开始了DNA合成仪的研发与商业化,经历了从第一代柱式合成仪到第二代高通量芯片合成仪的关两个关键性时期。目前,第一代柱式合成仪在市场上有多款机型流通,其中接受度较高的代表是Bioautomation-Mermade和Biolyitc-Dr.Oligo系列合成仪。详情见《DNA存储蓝皮书》介绍。

  • 相比一代柱式合成仪,二代高通量芯片合成仪的通量高、成本低。
  • 芯片合成仪,即以芯片为DNA合成载体。单张芯片可实现成千上万条长度不等的单链DNA合成。该类型设备可在提供高通量合成的同时降低试剂的消耗,初步实现低成本高通量的寡核苷酸合成。但目前市场上仅提供技术服务,还没有商业化的仪器。
  • 目前国际上的高通量合成仪,根据其合成原理主要包括五类:
    • 光化学法DNA合成仪:以联川生物为代表机构,代表仪器可以在2.5cm*4cm大小的芯片上一次性合成数万条DNA,合成DNA长度达到200nt,均一性良好;在载玻片大小的基质上同时合成数十万条DNA。
    • 电化学法DNA合成仪:以Custom Array为代表机构,基于电化学原理的高通量DNA合成仪是目前唯一被商业化的高通量芯片DNA合成仪。合成反应已缩小到微米级别的反应孔内,一张芯片的合成池上有上万个反应孔。
    • 喷墨打印法DNA合成仪:以Agilent、Twist Bioscience、迪赢生物为代表机构。其中,Agilent公司最早实现利用喷墨打印原理进行DNA合成,随后,Twist Bioscience公司进一步改进了合成芯片设计,并开发了高通量DNA合成仪。
    • 基于集成电路控制原理的DNA合成仪:以Evonetix公司为代表机构,关键技术是理论上接近十亿个位点的Oligo合成和可实时监测的高保真DNA纠错组装技术。该技术还处于研发和未公开阶段,实际应用效果还有待验证。
    • 基于分选的高通量并行合成原理的DNA合成仪:以深圳华大生命科学研究院为代表机构,旗下基于分选的高通量并行合成原理自主研制DNA合成仪,目前最高通量达十万级,在错误率(~1‰ -3‰)及合成载量(> pmol 级别)方面具备突出优势, 有望快速实现合成成本的指数级下降。
  • 化学合成技术面临的行业痛点(解决方案见蓝皮书):
    • Oligo合成的长度越长难度越高
    • 不同应用市场对Oligo的多样化定制需求
    • 在高通量合成和大规模合成上找寻平衡点

  • 酶促合成:传统亚磷酰胺化学合成法受化学反应效率限制,DNA合成产物长度仅能达到约200-250nt,极大地限制了下游应用。合成过程中涉及强酸、强氧化剂,产生较多对环境有害的化学废液,导致后续处理费用高昂。而近几年出现的生物酶法DNA合成技术通常在水相环境下进行,可有效避免上述问题,并有望以更低的成本合成更长的DNA分子。在自然界中,DNA分子的体内合成主要是由各种DNA聚合酶催化并依赖于DNA模板进行合成。DNA末端转移酶和一些种类的DNA聚合酶却可以不依赖于已有的DNA模板分子,直接催化DNA链的合成。而生物酶法DNA合成技术也借鉴了自然界中的不同DNA合成方式。
  • 酶促合成技术举例(详情见《DNA存储蓝皮书》):
    • TdT酶介导的酶促合成反应
    • TdT-dNTP交联体介导的酶促合成反应
    • 混合酶介导的酶促反应
  • 连接合成:由于DNA存储目前通常采用按需合成,即每次需存储的数据在进行“比特-碱基”编码转换后, 将得到的DNA序列以寡核苷酸文库或DNA片段形式从头合成。而在针对大量数据的存储需求方面,现阶段该方式需要投入的合成成本极高。因此,不少研究者或企业也提出了预先合成短DNA序列单元,在信息存储时将短序列单元进行定位选择,并按顺序连接起来的信息写入(合成)方式,即连接合成。
  • 连接合成代表机构包括:深圳华大生命科学研究院、美国Catalog公司、中科院武汉病毒所刘翟团队等。
四、DNA存储第三步:DNA封装
  • DNA分子的保存是DNA存储中的重要环节,尽管DNA分子生化稳定性高,其半衰期可长达521年,但暴露在空气中的DNA极易被DNA酶降解。在长期保存中,DNA分子也可能发生化学键的断裂、 碱基的突变(如脱嘌呤)等损伤,因此随着分子链的长度增加,其半衰期也显著降低。
  • 从封装的形式上,可分为物理封装(即通过低温密封、矿化、无机物密封、固体胶囊等形式进行封装)和生物封装(即将 DNA 分子通过不同形式存储在活细胞内,并进行传代或低温保存)两种。

  • 除了传统方式,直接将携带信息的DNA片段通过基因编辑的方式插入活细胞的基因组内也是一种可行的技术手段。2017年美国哈佛大学研究团队利用直接基因编辑的方式,将图片和短视频通过DNA存储的方式存入了大肠杆菌,并成功将其读取恢复。其步骤与常规基因编辑手段类似,即利用CRISPR Cas系统将多个外源DNA序列插入大肠杆菌的基因组中的repeater区域。

  • 更有意思的是,2021年,美国哥伦比亚大学研究团队利用CRISPR Cas系统在电压不同情况下表现的特异性,将电信号脉冲写入细菌质粒中,实现了电学信号向生物信号的转换,从而可以通过二进制的方式直接在细菌质粒中写入信息。
  • 在《“十四五”国家重点研发计划“生物与信息融(BT 与 IT 融合 )”重点专项2021年度项目申报指南》的相关项目包括:● DNA分子信息存储的高加密性编码与信息安全体系研究 ● 基于多类型生物分子的超高密度信息存储技术研发 ● 大规模可寻址可控催化DNA合成技术研发 ● 超高通量单分子晶体管测序技术研发
五、DNA存储第四步:DNA测序

  • DNA测序是指,利用基因测序技术获得目标DNA片段的碱基排列顺序,即腺嘌呤A、胸腺嘧啶T、胞嘧啶C、鸟嘌呤G的排列顺序。而DNA存储的原理本质上是将数字文件的二进制编码(0、1) 转换为DNA碱基的四进制编码(A、T、C、G)并通过DNA合成完成信息写入。因此,将存储在DNA片段中的信息读出,首先需要测定该DNA片段的碱基序列,即DNA测序。
  • 从1975年Frederick Sanger发明的Sanger双脱氧链终止法至今,测序技术经历了近50年的发展。从初步规模化到当今主流的大规模平行测序(Massively Parallel Sequencing, MPS仅用了短短的十余年,包括但不限于:
    • 焦磷酸测序法(454系列测序仪,后于2007年被罗氏收购,并于2014年停产)
    • 半导体测序法(Ion Torrent系列测序仪,后于2013年被Thermo Fisher收购)
    • 可逆末端终止测序法(以Solexa测序技术为基础的Illumina测序仪)
    • 联合探针锚定聚合测序法(以DNBSEQ测序技术为核心的华大智造测序仪)……

  • 测序技术评价:作为DNA存储的关键环节之一,测序技术的发展为DNA存储的可行性和普及性创造了方便快捷的条件和路径选择。但是,不可否认的是,目前在测序过程中也会存在一定的失真情况,这会对还原DNA存储信息带来“噪声”。

  • 清华大学研究团队建立了针对碱基突变、序列丢失等不同类型DNA存储信道噪声仿真算法, 并基于噪声分布仿真进行了编码算法优化:利用iGeneTech芯片高通量合成~1万条DNA序列、PCR扩增,然后对该序列进行高通量测序,将测序后reads的链内噪声、链间噪声的统计结果与仿真算法比较,最终DNA序列丢失与链内错误的噪声仿真结果,与实际高通量文库合成、PCR后,高通量测序的统计结果一致。
  • 在具体的测序过程中还涉及到文库构建。例如DNA测序前的获取步骤中(Random access),传统PCR扩增对原始DNA文库破坏严重,使其难以重复读取。因此通过改进PCR、磁珠分离等方法对DNA文库中的文件选择性地获取也是近年来的研究热点。
  • 未来,DNA存储技术将会与包括测序技术在内的其他DNA相关的技术联系更加紧密。Grass等人于2022年在Nature Communications发表综述,认为DNA存储技术可与DNA计算、DNA神经网络结合,在传统DNA存储系统中引入逻辑单元,实现更加智能的信息管理和获取。随着相关研究的日益丰富,以及测序技术的成熟发展,DNA存储技术及产品将成为一项人人可及、人人普惠、人人可选的常见存储方式之一。

作者丨目又(基因慧)

编辑丨Barney

关键词 | DNA存储

参考资料:

[1] Extance, A. How DNA could store all the world’s data. Nature 537, 22–24 (2016)

[2] 基因慧等,DNA存储蓝皮书

 

《DNA存储蓝皮书》下载链接

 

感谢欧阳颀院士、元英进院士、杨焕明院士和樊春海院士的指导和作序,感谢华大生命科学研究院、华大智造、国家基因库发起,基因慧策划,生工生物、联川生物、擎科生物、腾讯医疗健康对蓝皮书的大力支持,共同推动生命科技普惠和产业融合发展。

【预告】基因慧的《2022基因行业蓝皮书》预计Q3发布,欢迎地方政府和行业大会合作发布;《2023基因行业蓝皮书》即将启动,欢迎企业预约联合发布限量合作名额。

扩展阅读
国内首部DNA存储蓝皮书发布(附下载链接)
元英进院士:DNA 存储是生物技术与信息技术融合的典范
欧阳颀院士:纳米尺度的DNA是人与自然和谐共处的分子桥梁

版权所有,未经允许不得转载。基因慧—数字生命健康产业内容平台 » 一公斤DNA可存储全球数据是如何做到的? | 《DNA存储蓝皮书》连载(2)

相关推荐

抢沙发