小小DNA却能装下一个宇宙的数据!DNA存储技术离商业化还有多远?

微观人 2022-10-11
4164 字丨阅读本文需 10 分钟

科幻大片《侏罗纪公园》里讲述了这样一个故事:科学家找到一块有史前蚊子的琥珀,从蚊子血中获得了恐龙的基因,从而让已灭绝了6000多万年的恐龙复活。

恐龙的生物信息存储在DNA中,若干年后被提取并还原出来。这听上去似乎有些道理,却也让人倒吸一口凉气。

最近,天津大学一项研究成果让人们离想象又近了一些。该校合成生物学团队将10幅精选敦煌壁画存入DNA中,并通过加速老化等实验,发现这些壁画信息在常温下可保存千年,在9.4℃下可保存两万年。

“如果在合适的温度等条件下,保存千万年也是可以的。”中国科学院院士、天津大学副校长元英进说。

小小的DNA却拥有惊人的存储容量

人类文明进化史,也是一部信息存储技术发展史。

从结绳记事、仓颉造字到磁带、硬盘等现代磁光电存储技术,数据存储帮助人类延续了思想,记录下灿烂文明。造纸与印刷术的发明,让人类能够存储的数据量在几百年内获得了大约5个数量级的提升。到了计算机时代,人类产生的数据呈爆发式增长。

“全世界都在建数据中心,而数据中心的能耗是惊人的。”元英进说。人们一直在不断寻找更海量、更稳定、更安全的存储方式。

大自然鬼斧神工的绝妙之处就在于此——最好的存储器或许就藏身于生命体之中。

自地球上出现生命以来,大自然一直用DNA来存储信息,至今已有30多亿年。人类的五官在脸上如何摆放,体内的蛋白怎样合成,眼睛是什么颜色……诸如此类纷繁复杂的人类基因组信息,都记录在比细胞还小得多的DNA上,一代代沿用至今。

不同于各种人造存储设备,DNA极其精巧却又如此经久耐用,它存储了亿万年来无数生物的遗传信息,造就生命繁衍、进化演化及生物多样性。

那么,假如把海量的信息,像存入U盘、硬盘一样,“写”到小小的DNA上,岂不是一举多得?事实上,当人类发现DNA的双螺旋结构后,美俄科学家就先后提出了用DNA存储数字信息的概念。

元英进解释说,DNA存储相较于磁、光、电等常规的信息存储介质有3个最显著的优势。其中最大的优势在于存储密度高。目前,天津大学研究团队将部分经典视频片段存储在DNA中,已实现了体积存储密度比普通硬盘高出6个数量级。

与此同时,存储的信息可用时间非常长。此次研究者将10幅敦煌壁画信息存储在DNA中,结合创新的算法,可以实现DNA分子在室温下保存超过千年,在9.4℃条件下保存两万年。

这样的长期保存需要的能耗却很低。元英进认为,DNA存储被视为一种极具潜力的存储技术,已经成为应对数据存储增长挑战的新机遇。

像计算机磁盘一样工作的 DNA

许多 DNA 存储研究人员认为,他们已经找到了适用于广泛和难以置信的长期存储的完美存储介质。我们通常将 DNA 视为存储基因组信息的一种方式,但许多研究人员现在对存储大量数字数据的可能性感到兴奋,目前这些数字数据使世界各地的数据中心窒息。

Bathe 说,在这里 DNA 是一种自然的选择。“几千年来,大自然一直使用 DNA 以基因组的形式存储信息,”他说。“它已经存在了[数十亿年],你可以依靠它。只要它是一个物种的基本信息存储介质,比如人类,那么它就会成为我们知道如何处理的东西。”

Zielinski 说,将 DNA在过去 37 亿年左右的时间里得到优化的事实与真正始于 1950 年代的信息时代进行比较。“我们在人造技术方面已经取得了相当大的进步,但在效率方面它并没有比 DNA 好多少——当我们从一个细胞开始时,所有的指令都在那里指导每一个细胞,直到你达到几乎构成人类的 30 万亿个细胞。”

此外,Zielinski 说,我们可以从长毛猛犸象等百万年前的动物身上恢复 DNA 片段,并提供有关其基因组的有意义数据,这一事实表明 DNA 非常耐用。在保存完好的化石中,DNA的半衰期(降解一半所需的时间)约为 500 年,这意味着 DNA 将在大约 150 万年后完全不再可读。

然而,DNA 极其脆弱,导致石化的条件极为罕见。“有很多方法可以摧毁它,”伊利诺伊大学厄巴纳-香槟分校电气和计算机工程教授 Olgica Milenkovic 说。湿度、酸和辐射都会破坏 DNA。“但如果它保持寒冷干燥,数百年都是好的。”

更好的是,可以通过将 DNA 封装在玻璃珠等其他材料中来保护 DNA——模仿古代化石中遗传物质的保护方式。瑞士苏黎世联邦理工学院的研究员罗伯特·格拉斯和他的团队已经证明这些珠子可以保护 DNA 免受化学物质和热的影响。

将其放置在物理安全的地方可以提供进一步的保护。Milenkovic 说,将对人类至关重要的数据存储在冰库中封装的 DNA 中可能意味着“它可以永远持续下去,几乎可以”。

DNA 的另一个巨大优势是它存储的信息非常密集,在某种程度上是任何其他人造设备都无法比拟的。根据 Ionkov 的说法,到 2025 年人类将产生的估计 33 ZB 数据(即 3.3 后跟 22 个零)可以压缩成一个带有 DNA 存储的乒乓球大小。他认为在 DNA 中存储这么多信息可能仅仅需要几十年的时间。

与其他人造存储介质不同,DNA 存储也不太可能过时——“我们当中谁还在使用软盘?” 米伦科维奇问道。有了 DNA,我们应该总是能够阅读它。“对于每一种人造技术,你都需要一个新设备来阅读它,”Zielinski 说。“如果 DNA 已经过时,那么我们还有其他问题要担心。”

DNA存储还有其他好处。Milenkovic 指出,它已经搭载了医学科学研究,例如基因治疗和合成生物学,并且随着研究的进展,这将继续下去。它也将使用几乎没有能量来存储。

当然,也有巨大的挑战。正如2018 年的一篇论文所说,虽然 DNA “作为未来数据存储设备具有巨大潜力,但需要解决多个瓶颈,例如高昂的成本、极其缓慢的写入和读取机制以及易受突变或错误影响”。

将数字数据转换为 DNA 的过程基本上包括将其转换为 DNA 字母表。DNA 由四种称为核苷酸或碱基的分子组成:腺嘌呤 (A)、胞嘧啶 (C)、鸟嘌呤 (G) 和胸腺嘧啶 (T),它们以不同的序列以长串连接在一起。将数字信息转换为 DNA 代码的最常见方法只需将数字代码的 0 和 1 转换为这四个字母,然后合成 DNA 以进行匹配。

“例如,您可以使用 A 表示 00;T 表示 01;G 表示 10 和 C,11,”Milenkovic 说。“然后,您可以将任何经典存在于磁盘、磁带或闪存中的数字内容转换为四个字母的字母表。”

DNA 合成是2012 年和2013 年发表的两篇突破性论文使用的方法,每篇论文在 DNA 中存储了大约 700kB 的数据(之前的记录不到 1kB)。在2017 年的一篇论文中,Zielinksi(当时是纽约基因组中心的研究员)和她的同事使用这种方法在 DNA 上存储了一篇科学论文、一分钟的电影、计算机操作系统、计算机病毒和亚马逊礼品卡(总计约 2MB) .

当然,在 DNA 上存储大量数据的巨大障碍是成本,这远远高于将数据存储在服务器或硬盘上。存储这五个数字项目的成本为 Zielinksi 7,500 美元(6,729 英镑)。

Zielinski 补充说,DNA 存储的成本“有点像移动目标”,因为它取决于合成方法、编码方案以及解码方式。她说,通过排序进行编码和解码的合理估计约为每兆字节 (MB) 几千美元。

例如,要将这篇文章及其图片转换为 DNA,意味着最初将数据从大约 20MB 压缩到大约 500kB,应用编码方案,然后将其发送到实验室进行合成,成本约为 1,000 美元(897 英镑) )。实验室将使用一种在每条 DNA 链上一次添加一个核苷酸的技术,完成为我制作它的繁重过程。“最大的瓶颈实际上是合成 DNA,”Zielinski 说。“这是最大的焦点,降低合成成本。”

然而,产生的股线不需要是完美的。如果您将它用于数据存储而不是医疗程序——这是 DNA 合成最初开发的目的——可能对错误有更高的容忍度。因此,为更快、更不精确的合成方法打开了大门。“您可以处理数据中的错误并恢复您的文件。因此我们可以处理更加混乱的合成,”Zielinski 说。

Bathe 说,为了与普通数字媒体竞争,DNA 存储的成本必须降低大约一百万倍。这还有很长的路要走,但科学家们已经在努力增加可以同时写入的 DNA 分子数量。“如果你看看电子行业,他们已经看到了成本的降低,”Bathe 补充道。他说,DNA合成的成本已经大幅下降。

一个装满DNA的咖啡杯存储世界上所有的数据!

许多科学家认为,另一种解决方案在于包含我们遗传信息的分子:DNA,它可以以非常高的密度存储大量信息。麻省理工学院生物工程教授马克·巴斯说,理论上一个装满DNA的咖啡杯可以存储世界上所有的数据!

虽然不同机构计算一克DNA的储存容量的值不同,但目前被广泛接受的是一克DNA可储存215PB(2.15亿GB)!那么,既然DNA能储存遗传信息,那能储存数字信息吗?通过人工合成DNA编码进行数据写入,再用DNA测序进行数据读取可行吗?

答案是可行的。哈佛大学的遗传学家George Church、Sri Kosuri和同事用数千个DNA片段编码了一本52000字的书,他们制定了一种算法,将二进制代码(0和1)与遗传代码(A、T、G和C)相对应,使用DNA的四个字母A、G、T和C来编码数字化文件的0和1。然而,由于编码方案问题,导致效率低,每克DNA只能存储大约1.52 PB(152万GB)。

目前,写入1PB的数据(100万GB)需要花费1万亿美元!昂贵的成本成为DNA数据储存发展的一大障碍。但据专家估计,随着合成和测序DNA设备的发展,且为了与用于存储档案数据的磁带竞争,DNA合成的成本将在未来两年内降低大约六个数量级。这有点类似于过去几十年在闪存驱动器上存储信息的成本急剧下降的情况。

除了成本之外,使用DNA存储数据的另一个主要瓶颈是难以从所有文件中挑选出想要的文件。现通常使用PCR(聚合酶链式反应)检索DNA文件。每个DNA数据文件都包含一个与特定PCR引物结合的序列。

要提取特定文件,将该引物添加到样本中以查找和扩增所需序列。然而,这种方法的一个缺点是引物和脱靶 DNA 序列之间可能存在串扰,从而导致不需要的文件被拉出。这就好比你将苹果、梨子、香蕉依次用一根绳系住,然后将其放入麻袋中。当你想要香蕉时,在拉取绳子的过程中你得依次拉出苹果、梨子最后才到你想要的香蕉。

针对此情况,麻省理工学院的团队开发了一种新的检索技术,该技术涉及将每个DNA文件封装到一个小的二氧化硅胶囊中。每个胶囊都标有与文件内容相对应的单链 DNA“条形码”。为了以具有成本效益的方式证明这种方法,研究人员将20个不同的图像编码成大约3000个核苷酸长的DNA片段,大约相当于100个字节。(他们表明,这些胶囊可以容纳高达1 GB 大小的DNA文件。)

每个文件都标有与“猫”或“飞机”等标签相对应的条形码。当研究人员想要提取特定图像时,他们会移除DNA样本并添加与他们正在寻找的标签相对应的引物,引物标有荧光或磁性颗粒,便于从样品中提取和识别任何匹配项,同时保留 DNA 的其余部分完整地放回存储中。

哈佛医学院遗传学教授乔治·丘奇将这项技术描述为“知识管理和搜索技术的巨大飞跃”。运用此技术,詹姆斯·巴纳尔正在开发一家名为Cache DNA的初创公司,该公司目前正在开发长期存储DNA的技术,既可用于长期的DNA数据存储,也可用于近期的临床和其他预先存在的DNA样本。

希捷DNA存储技术数据容量已达到ZB级别

希捷公司的DNA存储片上实验室技术,承诺在口香糖大小的DNA存储读取与写入器上,实现一倍、两倍甚至更高的DNA存储IO速率。

这项Catalog DNA存储技术的基础,是将二进制数据编码至四组分核碱基DNA双螺旋分子当中。Catalog使用约200个预先合成的DNA序列,即寡核甘酸,其长度约为30至40个碱基对,排列类似于字母表中的字母。这些碱基对连接起来,即可表达IT存储语言中的字节。各DNA序列经干燥处理后存储在颗粒内,信息密度可达到每克200 PB甚至更高,生命周期约为1000年。

要进行数据读取,需要对颗粒中的相应DNA粉末或薄片进行重新水化,而后进行测序以检测核碱基含量,最终恢复为二进制数据。整个过程涉及大量流体传输与处理,目前的研发主要基于现有微流体研究数据。该技术将液滴控制在飞升大小,即10−15升,也可计为普通公升的千万亿分之一。

希捷已经向媒体简要介绍了其片上实验室研究,以及与Catalog合作开发DNA存储技术的情况。希捷公司研究副总裁Ed Gage还专门介绍了其为何对DNA存储这一迥异于磁盘驱动器、且处于科学研究最前沿的技术抱有兴趣。

希捷公司研究副总裁Ed Gage表示,该公司一直努力打造能够存放全球数字数据的解决方案。目前的数据总规模已经增长至ZB级别,而DNA存储有望在极少量液体内存储TB级数据,并在扩展之后逐步实现EB乃至ZB级别的存储容量。

文章来源: 柯普君,至顶头条,编程老妖,光明网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:微观人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...