解决数据存储瓶颈的黑科技:DNA存储丨专访深圳华大生命科学研究院平质博士
解决数据存储瓶颈的黑科技:DNA存储丨专访深圳华大生命科学研究院平质博士

解决数据存储瓶颈的黑科技:DNA存储丨专访深圳华大生命科学研究院平质博士

全球数据存储需求量大幅增长,目前储存媒介已无法满足,DNA存储成为最有可能解决存储难题的新型技术之一。基因慧特邀深圳华大生命科学研究院平质博士参与《大咖论健》栏目,与读者分享DNA存储的核心技术及产业展望等见解,详见下文深度对话。

文章 | 基因慧  编辑 | Kathy 审核 | Mark

关键词 | DNA存储;DNA编码算法;DNA合成

基因慧:有人说DNA存储是真正的生物信息,即BT和IT的真正融合,您怎么理解?它和过往人们对于生物信息学(Bioinformatics)的认知有哪些不同呢?

平质博士:传统生物信息学本质上是数据科学,利用信息学方法,研究生物学中获取的大量数据,属于数据驱动的研究方向。而DNA存储属于用生物学的方法解决信息学的问题,所以“DNA存储是真正的生物信息”这个说法有一定道理。

图1 DNA存储发展历程(来源/华大研究院)

平质博士:在DNA存储过程中,有时需要读取DNA序列上的信息,可能还会涉及到数据的修改,随后重构DNA序列、再次进行存储,因此,这三个版块其实是一个循环。

合成方面,华大拥有自主研发的高通量DNA合成设备;存储方面,深圳国家基因库可以存储大量DNA样本和数据;测序方面,华大的测序设备可以满足各种通量和不同效率的测序需求。

图2 DNA存储流程(来源/华大研究院)

平质博士:在DNA存储的研究早期,研究会更侧重于开发与现有DNA合成以及测序技术更兼容的编码方法。目前的DNA编码方法都有其局限性,例如信息存储密度低、解码恢复不稳定等。深圳华大生命科学研究院自2016开始进行DNA存储的研究,重点关注的也是编码算法的这些局限性,并研发出了Yin-Yang双编码算法。

同时,我们正在研究能否利用信息学工具解决DNA存储中的功能性问题。DNA数据在长期存储过程中,需要进行随机读取、模糊检索和信息修改等操作,读取数据库所有信息会花费大量时间;而常规测序技术需要将信息完全读取,才能进行解码等后续操作。目前已发表的研究成果主要是利用分子生物学工具解决这些问题,效率低、准确性不高,可能会损坏原始样本。

从数据层面、利用信息学工具处理这些问题的优势在于,修改完信息后,不需要每次都重新合成DNA,避免损坏原始样本,而且成本会更低。我们也会研究如何提升测序效率,例如采用单分子测序技术,或者测序过程中,边测序边解码,通过先解码一部分数据,完成“半即时”的数据读取等。

此外,我们还申请了DNA合成的一项专利,旨在提升效率、降低成本。在DNA存储过程中,常规的DNA合成方式采用的是木板印刷原理,需要存储数据时再大量合成DNA;我们的专利采用了活字印刷原理,即提前合成DNA小元件,需要存储数据时,再找出对应元件,完成拼接,形成所需的DNA序列。

基因慧:回到您的专业领域,在开发DNA编码算法的过程中,相比一般分析算法,有哪些需要特别考虑的约束条件(例如生化约束等)呢?

平质博士:首先,DNA编码算法需要兼容后续的DNA合成及测序技术,例如,过长的DNA序列无法合成和测序。编码算法的约束条件包括:避免DNA序列的GC含量过高或过低、以及单碱基重复,此外,合成的DNA序列需要进行建库扩增等分子生物学操作,因此,合成的DNA序列不具有稳定的二级结构也是约束条件之一。

第二点是,DNA数据长期存储时可能会产生碱基突变、序列丢失等情况,需要纠错,信息学上的常规方法是利用纠错编码保护数据,从物理层面,也可以将分子拷贝数增高,降低错误率。

今后,在DNA存储研发过程中还需要关注的是,DNA存储正由纯编解码往功能模块实现的方向发展,若在活细胞中进行DNA存储,合成的DNA序列是否会影响活细胞的正常生理功能,活细胞中的酶是否会降解或部分降解合成的DNA序列,都是需要考虑的因素。目前,对于DNA自组装、DNA折纸等技术的研究也正逐渐深入,我们也在考虑是否可以将这些技术应用到DNA存储中。

基因慧:能否简单介绍一下常见的DNA编码算法?

平质博士:常见的DNA编码算法有Goldman编码算法、DNA Fountain编码算法等,华大也有自研的Yin-Yang双编码算法。

Goldman编码算法将信息学知识用于DNA存储,引入霍夫曼三叉树概念,将二进制序列转为三进制序列,再转为DNA序列,这种方法的优点是转码后的序列一定不会出现2个或以上的单碱基重复。DNA Fountain编码算法开创性地将信息学中的喷泉码工具用于DNA存储中,并引入了条件过滤机制,在提升信息密度的同时保证了生成出的序列符合合成与测序的要求。

华大Yin-Yang双编码算法基于某种选中的规则簇(共计6144种),基于“阴”和“阳”两种轮转规则,将两条二进制子序列转换为一条DNA序列,在保证信息存储密度的同时,与合成测序技术的兼容性好,且数据恢复稳定。

图3 华大Yin-Yang双编码算法原理(来源/华大研究院)

基因慧:华大Yin-Yang双编码算法的命名很有意思,契合中国文化,它重点解决了哪方面的问题,在整个DNA存储系统中会发挥怎样的作用?

平质博士:华大Yin-Yang双编码算法的研发思路,来源于DNA的双链结构。由于自然界中大部分DNA都是双链结构,我们也在思考,是否可以利用两条二进制序列生成一条DNA序列。参考Goldman编码算法和DNA Fountain编码算法后发现,这个思路是可行的,于是在此基础上研发出了Yin-Yang双编码算法。它的优势在于,在保证信息存储密度的同时,兼容性好,且数据恢复稳定,原始信息的码元不需要保证平均分布状态。利用Yin-Yang双编码算法,有利于DNA存储后续步骤的顺利进行。

基因慧:目前,DNA合成的成本仍是一大痛点,您对此乐观吗?解决成本问题、实现DNA存储可及的关键点是什么?

平质博士:DNA合成成本下降是必然的。

IT行业的发展遵循摩尔定律;而测序技术则是基于摩尔定律、又打破了摩尔定律。所以我认为,DNA合成也会遵循摩尔定律,甚至往打破摩尔定律的方向发展

对于现有的化学合成法,解决成本问题的关键在于试剂能否实现国产化替代,以及能否利用工程学方法降低试剂用量,从而控制成本。此外,酶促合成法是否能进一步降低成本、提高效率,也是值得关注的方向之一。

在DNA存储过程中,若降低对DNA合成错误率的要求,就可以降低成本,随后可以在DNA存储的后续步骤中纠正错误率,但这样做也会导致信息存储密度降低,所以需要多次探索,在两者间达到平衡。

基因慧:回到技术上,DNA合成包括化学合成、酶促合成等不同方法,目前的合成方法有哪些特点?

平质博士:传统DNA合成采用的是化学合成原理,即利用固相载体,通过化学循环反应(一般为亚磷酰胺四步合成法),将碱基单体按既定顺序依次连接起来形成单链DNA。该方法经历了近五十年的发展,成熟度高,反应效率稳定。当然,也有其局限性,比如合成效率难以进一步提升实验室环境要求严格以及试剂毒性可能对环境造成影响等。

酶促合成法是近年来提出的新型DNA合成方法,同样是将碱基单体按既定顺序依次连接起来,但反应是在酶催化下完成的,目前还处于发展早期阶段,有待大量的优化与完善。

表1 常见DNA合成法的对比

2020年DNA存储联盟成立,标志着产业内的头部企业已开始关注DNA存储技术,必然会投入大量资源,推动技术发展;此外,许多数据公司、云计算公司等也非常关注数据存储的效率和新型存储介质的研发。而从国家层面来看,中国、美国和欧洲已经把DNA存储列入战略研究方向。

DNA存储实现商业化的突破口在于DNA合成,因为目前DNA合成的成本和效率与DNA测序有较大差距。当研发出更多高通量和低成本的DNA合成技术后,会更好地推动DNA存储的商业化进程。

基因慧:在这些技术路径和应用展望中,华大在DNA存储领域可能会做什么,推动行业发展?

平质博士:华大在DNA存储的编解码、合成、存储和测序这4个核心技术都有自主专利,已初步实现自主的技术闭环,未来的研发方向将会是提升合成和测序效率,降低合成和测序成本,并将DNA存储的技术闭环结合成一个集成化系统。

同时,我们会研究DNA存储系统的功能模块,例如信息的增加、删除、修改、查询和加密等。此外,华大还会推动DNA存储行业标准化,并对DNA存储进行应用示范,例如大批量数据的灾备存储、DNA存储与现有存储设备稳定性的对比等,让大众充分了解DNA存储的颠覆性优势。

声明:以上文章,仅代表个人观点,仅供研究参考,不作为投融资及医疗等决策依据;知识版权属于基因慧,公众号以及机构转载请征得基因慧书面同意。