数十亿年来,生物都在用 DNA 存储生命信息。现在,科学家已经实现将DNA像超级硬盘一样存储数据,而且密度更大、保存时间更久。
其实,数十亿年来,你我在内的生物都在用 DNA 存储生命信息。2021年,微软研究院联合西部数据等机构成立DNA数据存储联盟;2022年基因慧联合深圳华大生命科学研究院、华大智造、国家基因库、腾讯医疗健康等发布国内首份《DNA存储蓝皮书》(超链接)。以下是蓝皮书连载第一篇。
- 医疗大健康、生物工程、“工业 4.0”等领域的发展带来大数据的繁荣。一方面,互联网、物联网、医疗健康、生物工程等加速生产大规模数据,5G 数字技术大幅加快数据传输,人工智能赋 能数据挖掘;另一方面,目前的存储介质远远无法满足大数据存储的需求。
- 2021 年 IDC 预测,全球数据量 2020 年至 2025 年的复合增长率为 23%,到 2025 年将达到 180 泽字节(1 泽字节 =1024 艾字节,1 艾字节相当于一部 36000 年才能播完的高清视频),预计 2035 年数据量将突破 1000 泽字节。根据全球最大的硬盘制造商希捷(Seagate)的观点,2025 年 预计有 98.29% 的数据由于存储技术和存储规模而无法保存。
- 市场缺乏密度更高的存储介质加剧了土地资源的过度使用与能耗过大;存储介质较短的使用年限增加了数据迁移和维护成本;大型存储设备迁移性不足增添了数据安全隐患。低成本、高密度、长久保留、低能耗,将是未来数据存储的发展方向。
- 在数据存储发展的长河中,1846 年的穿孔纸带第一次把数据转变成二进制信息,奠定了早期 计算机的输入系统;1952 年研发的磁带成功延续至今,因其极高的存储密度成为数据冷存储的主要媒介之一;而 1984 年的闪存第一次将非易失性的特点带入存储,增强了数据的安全性。
- 但自闪存媒介研发至今,近 30 年未有新型存储研发。直至 2019 年,微软和华盛顿大学发表了 DNA 存储 的原型实验室装置,预计需要 5-10 年才能投入大规模使用。
- 目前市场上常见的存储介质包括磁带、硬盘、闪存等,其中硬盘和闪存占据消费级和企业级产品,而磁带存储多应用于数据冷存储;读写速度最快的是闪存,最高可达 28000 比特 / 微秒;保存年限最长的是磁带,可超过 30 年;能耗最低的是闪存,最低可达 0.01 瓦特 / 吉字节。
- 与现有介质相比,DNA 存储技术的优势是使用寿命最长,可达百年,数据密度最大,可达 1019 比特 / 立方 厘米;但也存在一定劣势需要不断研发和优化,包括信息读写速度慢、合成和测序成本高。
- 目前主流的 DNA 存储是基于 DNA 的四种碱基(A、G、C、T)来映射 0 和 1,通过信息编码来进行存储,这是一个数字信号到化学信号的过程。相对传统介质,DNA 存储基于分子流存储信息流,加上它的非周期性晶体等结构特点以及生物属性,因此 DNA 存储极其稳定且存储密度高。
- 现有技术框架下,DNA 存储主要由 6 个步骤构成,包括:编码、合成、保存、获取、测序、解码(部分 DNA 存储技术不涉及获取步骤)。
- 在硬件上,最核心的技术是DNA测序及DNA合成,前者相对比较成熟(待进一步降低周期和成本),后者正快速发展,特别是国产化设备;在软件上,最核心的是编码算法。
- DNA 编码的方法众多。算法上包括固定规则的简单映射编码、Goldman 编码、Grass 编码、Blawat编码、DNA 喷泉(DNA Fountain)编码、水印叠加编码等。其中还包括集成多种规则的华大 YYC 阴阳双编码系统与 Spider-Web 系统、中科碳元的“悟空”编码系统、联川生物研发的 DNA 存储编码系统等。此外,针对 DNA 的生化 – 数字特性,可预计编码方法上还有较大的研究空间。
- 存储数据的DNA自身如何保存呢?(这也是部分人的疑虑)现有 DNA 保存包括三种方式:宏观级保存、分子级保存、体内保存。
- 宏观级保存可以包括将 DNA 介质以液状、干粉、封装、DNA 与碱性盐混合干燥等方式保存;DNA的分子保存,是将单个DNA分子嵌入基质材料中,旨在防止水和氧气接触到单个 DNA 分子, 玻璃等无机材料是目前最适合的材料,但具有较大的加工难度,并且会增加后期的 DNA 分子读取难度;相比之下,DNA 体内储存具有较大优势,如低成本精准复制和长久稳定保存,是目前信息存 储的最具潜力的方式。
- 在全球大数据存储远不能满足大数据生产和使用的需求的情况下,各国近年非常重视 DNA 存储的技术研发和产业布局,包括编码算法、集成系统以及支撑技术 DNA 合成与测序等。
- 美国作为全球最早布局 DNA 存储技术研发的国家之一,自 2017 年,颁布多项国家政策推动 DNA 存储发展。尽管中国 DNA 存储技术起步相比略晚,但自2018年我国高度重视 DNA 存储技术的研发和创新,并布局了全链条 DNA 存储核心技术,包括 DNA 编码、DNA 合成、DNA 测序等。
- 中国在 2018 年的《60 个重大科学问题以及重大工程技术难题》政策中专门设立 DNA 存储的相关项目:包括高通量脱氧核糖核酸(DNA)合成创新技术及仪器研发、使用合成 DNA进行数据存储的技术研发。
- 在《“十四五”国家重点研发计划“生物与信息融合 (BT 与 IT 融合 )”重点专项 2021 年度项目申报指南》的相关项目包括:● DNA分子信息存储的高加密性编码与信息安全体系研究 ● 基于多类型生物分子的超高密度信息存储技术研发 ● 大规模可寻址可控催化DNA合成技术研发 ● 超高通量单分子晶体管测序技术研发。
- 目前,DNA 存储技术处于早期,DNA 存储研发中心和技术研发量快速增加,且研究论文发文量和专利数量也大幅增长。在国家及地区方面,美国、欧洲和中国已经高度重视 DNA 存储技术,美国在 DNA 存储技术的专利研发和 DNA 存储相关论文上占据绝对优势。
- 在专利数上,据中国科学院上海生命科学信息中心分析,美国、欧洲、中国是目前全球在 DNA 合成与存储领域中最为活跃的三个地区。美国、欧洲因行业起步早而在专利数上有一定的领先地位,中国则与其他国家合作研发中较为活跃。近十年来,专利布局保护的课题也从寡核苷酸合成转变到多核苷酸合成,酶促合成的专利逐渐增加。
- DNA 存储吸引了一大批投资机构和企业。企业融资来开发降低 DNA 合成成本的方法,并推动 DNA 存储实现商业化。在 2012-2021 年期间,合成生物学企业融资额从 3.74 亿美元快速增长至 89 亿美元,CAGR 为 42.22%,其中 64% 的企业专注于 DNA 合成领域。
- 国外DNA 存储代表企业有 DNA Scrpit、Iridia、Molecular Assemblies、Catalog、Ansa Biotechnologies、 Customarray 等,其中国外 DNA 存储代表企业关注的方向有酶促 DNA 合成、DNA 编码算法、化学合成等。
- 国内 DNA 存储代表企业有华大、擎科生物、联川生物、生工生物、腾讯云、中科碳元、密码子、华为云等。其中在细分方向上,国内代表的融资企业专注于微阵列 DNA 合成,DNA 化学合成,DNA 编码算法等。
- 总体而言,通过国内外融资赛道分析,目前 DNA 存储行业的难点仍然在于 DNA 合成领域,如何降低合成成本以及提高合成的效率是资本市场重点关注方向。
作者丨吴铭 编辑丨Barney
首发丨基因慧 关键词 | DNA存储
蓝皮书下载链接

版权所有,未经允许不得转载。基因慧—数字生命健康产业内容平台 » 我们自带祖传的超级“硬盘” | 《DNA存储蓝皮书》连载(1)