AI芯天下丨分析丨基因组数据太多了,存储怎么办?

Ai芯天下 2022-08-15

基因组dnatext-indent

1613 字丨阅读本文需 5 分钟

前言:

DNA存储了恐龙的生物信息,科技让它重新表达。DNA存储或许也可以像我们如今用的移动硬盘一样进行现场即时存储。

DNA存储技术将有望成为下一代信息存储技术。

作者 | 方文

图片来源 |   网 络

DNA数据保存面临“大”问题

在大自然里,DNA负责存储遗传信息。

单个人体细胞的平均直径是5到200微米,这其中的DNA可以包含一个人全部的遗传信息:30亿对碱基。

大规模的基因组测序正在进行,随之产生的数据规模快速增长。

存储、压缩这些数据是个麻烦事,现有的技术方案看起来不太行。

据估计:人类基因组需要高达2-40EB的存储容量。

这可能超过一个世界级科技公司的云存储量,全世界苹果用户存储在谷歌云上的数据总量大约是8EB。

这8EB数据,每月存储费需要2.18亿美元。

DNA存储原理其实很难理解

DNA由腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)4个碱基构成双螺旋结构,可以保存生物体的遗传信息。

DNA存储遗传信息的原理并不复杂,它由四种核苷酸A、T、G、C组成,彼此两两对应,组成双螺旋结构。

在数字世界,所有的信息本质上是0和1组成的数据串。

想要DNA存储数字信息,简单理解,原就是将0和1的编码序列转换成核苷酸的序列。

DNA存储的优势在于密度大,大约在你眼前逗号这么大小,1立方毫米的DNA,就可以容纳9TB(1TB=1024GB)的信息。

在自然界存在的DNA中,A和T,C与G两两配对,在一条DNA中,CG与AT的存在比例基本均匀,为50%左右。

也就是说,虽然DNA的存储能力很强,但它们不得不以很多条短链的方式存在。

难以突破的结构性障碍

虽然DNA存储具有较为明显突出的优势,政策、资本等也在全方位的支持,应用的前景广阔,但商业化的进展仍然十分缓慢。

其最大屏障来自于其存储技术本身。

DNA存储数据的过程主要分为五个步骤:

①编码——将数字信息编码为DNA序列;

②合成——将序列融入实际的DNA分子;

③存储——将合成的DNA片段保存在载体或细胞中;

④访问——检索和选择性读取序列信息;

⑤解码——将测定的序列信息转换回数字信息。

在整个存储的过程中,编码与合成是DNA存储中较为关键和困难的环节。

总的来说,DNA存储的各个环节都有较多的难关需要克服,DNA存储真正意义上的走入商业市场。

DNA存储试图走向商业化道路

2020年微软、西部数据和基因测序巨头Illumina、DNA合成初创公司TwistBioscience等联合成立了DNA数据存储联盟。

这是世界上第一个该领域的学术和产业链联盟,这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。

微软研究院在2015年就成立了DNA存储的项目,2021年微软开发出首个纳米级DNA存储器,能够在每个平方厘米的区域上,同时合成25X106(2650)条碱基序列。

这个新的技术把原来同时合成碱基序列的数字从个位提升到了千位。这个吞吐量,让DNA合成速度变成了每秒兆字节(MB)。

进一步发展成为主流的存储设备,还需要长时间的沉淀,才能让DNA存储技术有实质的进阶。

DNA存储在AI技术的加持下,其编码的环节效率也获得了极大地提升。

未来随着纳米技术与AI技术的加持,DNA存储的技术也会一步步解除智识的限制禁锢,逐步升级,为存储领域带来质的飞跃。

DNA存储的四大优势

相比于目前我们常用的存储介质,如U盘、光盘、硬盘等,DNA存储具有一系列优势。

①存储密度高。每立方厘米的DNA分子可以存储大约1EB的信息,这一密度是当前存储密度最高的介质(闪存)的1000倍,是硬盘数据存储密度的百万倍。

②保存寿命长。从理论上来说,DNA数据在没有特别人工干预的情况下至少能保存千年之久。

③维护成本低。存储在DNA的数据,理论上来说通过低温冷冻或者固态封存的手段,可以长时间存储且几乎不需要维护。

④DNA存储所需要的占地也远小于传统存储介质,并且还具备数据易复制、易携带、能在生物体内存储等特点。

现阶段至少需要解决的三大问题

①读写速度太慢:以目前的技术在合成DNA时,每添加一个碱基大约需要0.1秒钟时间。保存一首高音质的MP3歌曲都需要差不多1个月时间。

②成本太高:目前合成2MB的DNA数据需要7000美元,读取数据需要2000美元,如果以DNA形式存储1GB大小的电影,编码大约需要花费358万美元。

③合成DNA的稳定性:合成DNA过程中产生的错误率对于要求确保100%真实性和完整性的数据存储指标而言是致命的问题。

结尾:

但这项技术目前远未成熟,或许离真正商用还需要20年,甚至更长。

或许有可能过程中碰到一个难以突破的技术瓶颈导致中途夭折;或许过程中出现另外一项更具革命性的存储技术,比如量子存储,形成降维打击。

部分资料参考:极客公园:《你身体里的DNA,能存下整个宇宙的数据》,脑极体:《存储新图谱:DNA存储的边界与天地》

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:Ai芯天下
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...