DNA存储效率可提升千倍,但要解决这些挑战才能实现商业化应用

IT猿人 2022-08-05

dna信息存储生物技术

4729 字丨阅读本文需 11 分钟

1 TB 数据存储成本 8 亿美元,还是有点高。

恐龙灭绝 6000 多万年后,科学家们获得了一块有史前蚊子的琥珀,从蚊子血中获得了恐龙的基因,从而让遥远的生物复活。讲这个故事的《侏罗纪公园》,至今仍位列全球电影票房前十。这个系列故事的原理很简单:DNA 存储了恐龙的生物信息,科技让它重新表达。

现在,用 DNA 想象另一个故事:在宇宙长河中,「人类世纪」也寂灭了。另外一种智慧生物出现,TA 们去探究远古的「人类文明」。有什么会承载人类文明的记忆?气温异变,地球上的庞大数据中心徒留遗迹。

而冻土中有一份 DNA,它很轻,只有 1 公斤,看起来是一些被封装在胶囊里的白色粉末。读取后,里面却记载了地球上曾有的巨量信息。视频、文字、代码展现了人类历史进程中的无数发明和文艺作品。于是那个遥远文明的痕迹在宇宙间再次展开。

这是另一个科幻设定了。背后的技术正是目前被关注的一个前沿方向:DNA 存储信息。在大自然里,DNA 负责存储遗传信息。单个人体细胞的平均直径是 5 到 200 微米,这其中的 DNA 可以包含一个人全部的遗传信息:30 亿对碱基。

那为什么不能用碱基存储别的信息?这个科幻般的设想,正在走出实验室,被当作信息存储的未来方案。

那么,DNA 存储有什么好处呢?要实现商业化应用,还有哪些挑战?

01 存储效率的千倍提升

DNA存储简单来说,原理就是将DNA分子中的碱基序列与存储信息编码一一对应,将文字、图片、声音等信息转化为DNA序列进行存储。这是一门需要多学科交叉的高精尖技术,涉及生物、计算机、化学等学科。

在生物分子中储存信息,非常复杂。科学家们将目光与精力投入到DNA存储的领域,最根本的原因是看重其极高的存储密度特性。据悉,1克DNA即可储存215PB的信息,而硬盘的存储量不过几TB。要知道,1PB=1024TB=1024X1024GB,按照高清电影每部10GB算,1克DNA能够存储2.2亿部电影。与此同时DNA存储的维护成本也相较数据中心低很多。在能耗方面,1GB的数据硬盘存储能耗约为0.04W,而DNA存储的能耗则远远小于硬盘存储能耗,可忽略不计。

在数据量日渐激增的信息时代,高存储密度,低成本维护与低能耗储存信息的方式,使得科研机构与资本都将精力与金钱押码在这个可能成为未来主流存储方式。不过虽然有资金与科研的投入,但其进展仍较为缓慢。我们能在公开渠道中看到的成果都是实验室的最佳成绩。例如2012年,哈佛大学研究人员用DNA储存了一本五万字的图书。欧洲生物信息研究所在DNA储存了莎士比亚的十四行诗以及马丁·路德·金的演讲《我有一个梦想》的录音带。

从上世纪50年代提出,DNA的数据存储研究的进展一直缓慢,没有什么较为重大的变化。不过在近两年,DNA存储的技术开始有了一些新的进展。近日微软研究院对外宣称,研究出新的分子控制器,使得DNA的存储写入的速度相较以往提高了1000倍。微软研究院作为DNA数据存储的早期入局者,2015年开始进行相关研究,直到2019年才有研发进展,到如今速率千倍的升级,还是着实下了一番功夫。

与此同时,国内的东南大学生物科学与医学工程的刘宏团队也实现了DNA存储的新突破:立足自主开发实现了DNA合成与测序环节的一体化,仪器设备也实现了小型化。DNA存储在国外的技术路线大都是存储的合成与测序环节分开进行,需要大型的仪器设备,操作也相对复杂一些。刘宏团队将仪器设备等朝着便携式改进了许多。

佐治亚理工学院(GTRI)近期也公布了新进展,他们的团队设计了一种微芯片,可以显著提高以DNA形式写入数据的速度。该团队预计将比当前的DNA存储技术提高100倍。

研究机构的各种进展也使得嗅觉灵敏的投资机构风闻而来,中科碳元(深圳)、密码子(杭州)等创业公司获得数千万的天使轮融资。

而政策方面,DNA存储已经成为国家层面部署的重点发展方向。国家“十四五”规划中提到要加快布局量子计算、量子通讯、神经芯片、DNA存储等前沿技术。我们可以看到,DNA存储在政策、资本与技术的集中发力中开始蓄势待发,不过对于这类高精尖的技术来说,距离其真正的商业化落地进程还尚早。

02 基因组数据太多了,怎么办?

本来是生物学家想解决生物学发展的问题。

11 年前,一群生物信息学家在德国的一家酒店里讨论「数据存储问题」。Nick Goldman 也在其中,那是他在欧洲生物信息所(EBI)担任高级科学家的第二年。

大规模的基因组测序正在进行,随之产生的数据规模快速增长。存储、压缩这些数据是个麻烦事,现有的技术方案看起来不太行。据估计:人类基因组需要高达 2-40EB 的存储容量。这可能超过一个世界级科技公司的云存储量——全世界苹果用户存储在谷歌云上的数据总量大约是 8 EB。这 8EB 数据,每月存储费需要 2.18 亿美元。(1EB= 102^3GB)

生物学家们陷入了沮丧。

Nick Goldman 拿着存储了莎士比亚所有十四行诗、一张照片和「我有一个梦想」演讲片段的 DNA| 来源:EBI

有人灵光乍现:是什么东西阻止了我们用 DNA 来储数据呢?

看起来是一句玩笑话,但是生物学家们意识到了这不仅仅是个玩笑,他们拿起手边的餐巾纸,用圆珠笔认真计算起可行性。

DNA 存储遗传信息的原理并不复杂,它由四种核苷酸 A、T、G、C 组成,彼此两两对应,组成双螺旋结构。核苷酸的序列,记录了遗传信息。

在数字世界,所有的信息本质上是 0 和 1 组成的数据串。想要 DNA 存储数字信息,简单理解,原就是将 0 和 1 的编码序列转换成核苷酸的序列。DNA 存储的优势在于密度大,大约在你眼前逗号这么大小,1 立方毫米的 DNA,就可以容纳 9TB(1TB=1024GB)的信息。

用 DNA 存储数据,也并不是完全新的想法,之前就有科学家尝试过。不过属于科学和艺术的先锋跨界实验。

1988 年,艺术家 Joe Davis 和哈佛大学的研究员,将一副名为「小维纳斯」(Micro Venus)的图案存储到 DNA 短链中。

这个图案编码简易,白色的地方标记为 0、黑色的线条部分标记为 1,文件大小只有 35bits,用了 28 个核苷酸长度的 DNA 链条来存储。

在那次酒店讨论的 2 年之后,2013 年,Goldman 团队发表了研究成果。这次,他们存储了 5 种不同格式的文件,一共有 0.75MB。为了确保信息读取不出错,科学家存储的时候,每份信息按照四倍冗余的量来存储。

五个文件分别是:

•154 首莎士比亚的 14 行诗(ASCII 编码格式)

• 提出 DNA 双螺旋结构的论文(PDF 版)

•一张照片(JPEG 格式)

•马丁· 路德金「我有一个梦想」演讲其中 26 秒片段(MP3 格式)

•一串霍夫曼密码

这些年,DNA 存储容量的上线不断被突破。2019 年,美国一家创业公司 Catalog 在 DNA 中存储了 16GB 的维基百科。这个公司表示自己正在建设世界上第一个基于 DNA 的大规模数字数据存储和计算平台。

03 编码和解码,要处理的事情很多

在一些生物学家看来,用 DNA 来存储是一件非常「顺滑」的事。「大自然的编码语言非常类似于我们在计算机领域使用的二进制语言。在硬盘上我们使用 0 和 1 来代表数据,而 DNA 中,我们拥有 4 种形式的核苷酸,A、C、T 和 G」。在瑞士联邦理工学院的生物学家 Robert Grass 说。

DNA 存储的关键之一是用四个核苷酸去映射 0 和 1 两个数字。方案可以很简单。比如:A 对应 00,C 对应 01,G 对应 10,T 对应 11。然后再按照所需要的核苷酸序列,像串珠子一样,把核苷酸们串成一串。(这就是 DNA 合成)需要读取信息的时候,再运用基因测序技术,把这一串核苷酸序列读取出来,再翻译成 0 和 1 的字符串。这个流程就是编码—DNA 合成—测序—解码。

这个听起来像是「把大象装进冰箱」的流程,操作起来需要考虑的问题还有很多。不然科学家就不必一直研究新的编码方案了。

在自然界存在的 DNA 中,A 和 T,C 与 G 两两配对,在一条 DNA 中,CG 与 AT 的存在比例基本均匀,为 50% 左右。如果 C 和 G 的含量过高,可能会让 DNA 链产生一些复杂的物理结构。这就会让 DNA 测序(解码)变得复杂。

DNA 存储的步骤| 来源:DNA Data Storage Alliance

而且在「串珠子」(也就是合成 DNA 链条)的过程中,错误率不可避免。目前大约每合成 100 个碱基就会出现一个错误。这是由目前的化学合成技术带来的瓶颈,每合成一个碱基,有 99.9% 以上的正确率。但是当碱基串变长,0.01% 的概率相乘,错误就难以避免。目前人工合成 DNA 的单链的长度一般不超过 100 个碱基,极限在 300 个碱基左右。而在自然界的 DNA 动辄有几千个碱基对。

也就是说,虽然 DNA 的存储能力很强,但它们不得不以很多条短链的方式存在。如果存储的信息量比较大,这些 DNA 短链就像一本散装的书。它可以存储很多信息,存在形式却是一张张标着页码的纸。当然,可以将一条条 DNA 短链拼接成长链。这就意味着增加了一道工序。在测序的过程中,又需要把长链打断成短链。这是因为目前技术还不能一次性读取长链。

在测序的过程中,也存在错误率。尽管目前的错误率已经低至 10^-3 数量级,比起商业硬盘的读写错误率,仍相差至少 9 个数量级。

正确率受到合成和测序这两项技术的影响,科学家想到设计编码方案来避免:在编码中增加纠错机制。这样,哪怕碱基合成和测序中出现了错误,依旧能够保证被存储进 DNA 的内容能够被正确读取出来。

04 最新突破:深圳科学家巧妙破难题

但是,如何在保证信息转换效率和技术兼容的同时,大幅提高信息恢复的稳定性?这是DNA存储中编解码系统存在的棘手问题。如今,DNA存储的技术壁垒,深圳华大生命科学研究院(以下简称“华大研究院”)提供了全新的解决思路。

4月25日,华大研究院、深圳国家基因库等多家机构的研究团队联合在《自然》子刊《自然-计算科学》发表研究论文。研究团队结合DNA双链模型,开创了一套比特—碱基编解码系统,验证了该系统在信息密度、技术兼容性、数据恢复稳定性等多方面的优势。

华大研究院团队以两套不同的规则,分别对两条二进制信息进行“一对一”编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。

机智的朋友可能会问,人工合成的DNA要保存在哪?目前,常用的保存方法分为体内和体外两种模式,两者孰优孰劣尚未形成明确定论。为了全方位验证新系统的信息恢复稳定性,华大研究院团队通过体外DNA干粉和细胞体内大片段两种存储环境进行测试,皆实现了原始存储数据的完整恢复。

在体外模式方面,研究结果证明,深圳科学家研究的编码采用的线性数据恢复模式在每种DNA分子的平均拷贝数仅有100时,仍然能恢复最高88%的原始数据。

在体内模式方面,研究将信息存在了酵母活细胞的体内,酵母菌株经过1000代以上传代之后,信息仍可以被完美恢复。这在一定程度上意味着,利用活体细胞作为DNA存储的载体,上千年后原始信息或仍能被解读。这样的存储方式可以得到接近于天然DNA分子存储理论极限的物理信息密度,每克DNA能存储的信息量约为432.2EB。据透露,华大研究院团队曾将《开国大典》影片存储于DNA中。

该研究由深圳华大生命科学研究院主导,深圳国家基因库、首都师范大学、美国哈佛大学等多个研究团队共同参与。华大研究院平质博士为论文第一作者。

05 走出实验室,还要考虑速度和成本

DNA 存储也正在尝试走出实验室。

2020 年 10 月,微软、西部数据和基因测序巨头 Illumina、DNA 合成初创公司 Twist Bioscience 等联合成立了 DNA 数据存储联盟。

这是世界上第一个该领域的学术和产业链联盟。这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。

微软研究院在 2015 年就成立 DNA 存储的项目,并聘请了华盛顿大学的计算机科学与工程学院的副教授 Karin Strauss 担任高级首席研究经理(Senior Principal Research Manager)。

2013 年,她和同事去英国 EBI 访问,了解到 Goldman 和同事们关于 DNA 存储的研究,就对这个方向产生了很大的兴趣。Strauss 说,「DNA 的密度、稳定性和成熟度让我们兴奋。」

在他们的研究中,想开发的是另一个功能:随机读取。常见的 DNA 测序技术中,必须要将所有的碱基串一次性读取完,才能够获得信息。要么不读取,要么全读。如果只想要数据中的某一个小片段,就会非常麻烦。

2016 年,他们发表了一项研究,可以在 DNA 已经存储的信息中搜索到指定的图像,定位后,用酶来复制所需的 DNA 片段,然后只需读取这一小段即可。

要让 DNA 存储离商用更进一步,还需要解决合成速度和成本。现在合成速度是每秒存储上千个字节(KB),成熟的云存储方案已经有每秒千兆字节(GB)以上。

这意味着,编写 DNA 的速度还需要提升 6 个数量级。如何让提升数据处理量?就像并行计算能够提升数据处理速度,科学家希望 DNA 在合成时也可以并行多条,同时处理。

2021 年,微软开发出首个纳米级 DNA 存储器,能够在每个平方厘米的区域上,同时合成 25X106(2650)条碱基序列。这个新的技术把原来同时合成碱基序列的数字从个位提升到了千位。这个吞吐量,让 DNA 合成速度变成了每秒兆字节(MB)。

新的方法让 DNA 合成的阵列数量大大增加|来源:微软研究院

更大的吞吐量,也就意味着更低的成本。现在 DNA 存储的成本是每万亿字节(TB)8 亿美元。而磁带存储成本已经降到了每万亿字节 16 美元以下。这样比起来似乎毫无竞争力。但现实生活中的大型数据中心的维护成本极高,还要定期更新硬件;DNA 存储密度大、体积小、可以长时间不变质的优势就变成了降维打击。

所以量大、读取频率低的「冷数据」,被认为是 DNA 存储最近的应用场景。Twist Bioscience 最近在一份市场报告中强调,这种技术能够帮助科技企业在「大规模、低功耗」情况下更有效地部署。

另外一些乐观的科学家,更相信技术的进步。

自 2003 年人类基因组计划完成以来,测序成本降低了 200 万倍。2016 年时,面对每秒千字节的速度,Goldman 指出,「(读写的速度提升)6 个数量级对基因组学来说没什么大不了的。你只需要再等一会儿。」

那这「一会儿」是多久呢?这个领域似乎到了临门一脚,仍在等待突破。

来源:极客公园,钛媒体APP,广州日报

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:IT猿人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...