燕麦饮料如何改变地球这家公司要重新定义“牛奶”
06-21
恐龙灭绝一万多年后,科学家获得了一块含有史前蚊子的琥珀,并从蚊子的血液中获得了恐龙基因,从而复活了遥远的生物。
。
讲述这个故事的《侏罗纪公园》至今仍位居全球票房电影前十名。
这一系列故事的原理很简单:DNA存储了恐龙的生物信息,而技术让它得以重新表达。
现在,用DNA想象另一个故事:在宇宙的长河中,“人类世纪”也消失了。
另一种智慧生物出现,他们前往探索古老的“人类文明”。
什么将承载人类文明的记忆?气温发生了巨大的变化,地球上只剩下了巨大的数据中心的痕迹。
冻土中有一份DNA拷贝。
它很轻,只有1公斤。
它看起来像一些封装在胶囊中的白色粉末。
读完之后,里面包含了地球上曾经存在过的海量信息。
视频、文字、代码展现了人类历史进程中无数的发明和文学艺术作品。
于是那个遥远文明的痕迹再次在宇宙中扩散开来。
这又是一个科幻设定。
其背后的技术是目前备受关注的一个前沿方向:DNA存储信息。
在自然界中,DNA 负责存储遗传信息。
人类单个细胞的平均直径为5至10微米,其中的DNA可以包含一个人的全部遗传信息:30亿个碱基对。
那么为什么碱基不能用来存储其他信息呢?这种类似科幻小说的想法已经走出实验室,并被视为未来信息存储的解决方案。
01 基因组数据太多,怎么办?最初,生物学家想要解决生物学发展中的问题。
十一年前,一群生物信息学家在德国的一家酒店讨论“数据存储问题”。
其中包括尼克·戈德曼(Nick Goldman),他是欧洲生物信息学研究所(EBI)高级科学家的第二年。
大规模基因组测序正在进行中,生成的数据规模正在迅速增长。
存储和压缩这些数据很麻烦,而且现有的技术解决方案似乎不起作用。
据估计,人类基因组需要高达 2-40 EB 的存储容量。
这可能比一家世界级科技公司的云存储还要多——全球 Apple 用户在 Google Cloud 上存储的数据总量约为 8 艾字节。
这 8EB 的数据每月需要 2.18 亿美元的存储费。
(1EB= ^3GB) 生物学家很沮丧。
有人突然灵机一动:是什么阻止我们用DNA来存储数据呢?这看起来像一个笑话,但生物学家意识到这不仅仅是一个笑话。
他们拿起手边的餐巾纸,用圆珠笔仔细计算着可行性。
DNA存储遗传信息的原理并不复杂。
它由A、T、G、C四种核苷酸组成,相互成对对应,形成双螺旋结构。
核苷酸序列记录遗传信息。
在数字世界中,所有信息本质上都是一串0和1。
如果想让DNA存储数字信息,简单的理解就是将0和1的编码序列转换成核苷酸序列。
DNA存储的优点是密度高,大约只有眼前逗号的大小。
1立方毫米的DNA可以容纳9TB(1TB=GB)的信息。
使用 DNA 存储数据并不是一个全新的想法。
科学家们之前已经尝试过。
但这是科学与艺术之间开创性的跨界实验。
2000 年,艺术家乔·戴维斯 (Joe Davis) 和哈佛大学的研究人员在短链 DNA 中存储了一种名为“微维纳斯”的模式。
该模式的编码很简单,白色区域标记为0,黑色线条标记为1。
文件大小只有35位,使用长度为28个核苷酸的DNA链来存储。
那次酒店讨论两年后,高盛团队发表了他们的研究结果。
这次,他们存储了 5 种不同格式的文件,总计 0.75MB。
为了保证读取信息不会出现错误,科学家将每条信息都以四倍的冗余度进行存储。
这五个文件是: ? 莎士比亚的 14 行诗(ASCII 编码格式) ? 一篇提出 DNA 双螺旋结构的论文(PDF 版本) ? 一张照片(JPEG 格式) ? 马丁·路德·金的《我有一个梦想》 26 秒的语音片段(MP3 格式) ? 霍夫曼代码字符串。
近年来,DNA存储容量不断被突破。
2016年,美国初创公司Catalog在DNA中存储了16GB的维基百科。
该公司表示,正在打造世界上第一个基于DNA的大规模数字数据存储和计算平台。
02 编码解码,要处理的事情很多。
在一些生物学家看来,用DNA来存储是一件非常“顺利”的事情。
“大自然的编码语言与我们在计算机领域使用的二进制语言非常相似。
在硬盘上,我们使用 0 和 1 来表示数据,在 DNA 中,我们有 4 种形式的核苷酸,A、C、T 和 G”。
瑞士联邦理工学院的生物学家罗伯特·格拉斯说。
DNA 存储的关键之一是使用四个核苷酸来映射数字 0 和 1。
计划可以很简单。
例如:A对应00,C对应01,G对应10,T对应11。
然后根据需要的核苷酸序列,将核苷酸串成串珠状。
(这就是DNA合成)当需要读取信息时,利用基因测序技术读出这串核苷酸序列,然后将其翻译成一串0和1。
这个过程是编码-DNA合成-测序-解码。
这听起来像是一个“把大象放进冰箱”的过程,但操作过程中需要考虑的问题有很多。
否则科学家们就不必继续研究新的编码方案。
在自然界存在的DNA中,A和T、C和G是成对配对的。
一段DNA中,CG和AT的比例基本均匀,约为50%。
如果C和G含量过高,可能会导致DNA链中出现一些复杂的物理结构。
这使得 DNA 测序(解码)变得复杂。
而在“串珠”(即合成DNA链)的过程中,出错率是不可避免的。
目前,合成的每个碱基大约会发生一个错误。
这是目前化学合成技术造成的瓶颈。
每次合成一个碱基,准确率都在99.9%以上。
但当碱基串变长并且0.01%的概率成倍增加时,错误就不可避免了。
目前,合成DNA的单链长度一般不超过3个碱基,极限在1个碱基左右。
在自然界中,DNA 通常有数千个碱基对。
也就是说,尽管DNA具有很大的存储容量,但它必须以许多短链的形式存在。
如果存储的信息量比较大,这些短链DNA就像一本松散的书。
它可以存储大量信息,但它以标有页码的纸张形式存在。
当然,短链DNA可以拼接??成长链。
这意味着添加了一个额外的过程。
在测序过程中,长链需要被打断成短链。
这是因为当前的技术无法一次读取长链。
测序过程中也存在错误率。
虽然目前的错误率低至10^-3,但与商用硬盘的读写错误率仍至少相差9个数量级。
准确率受合成和测序两种技术的影响。
科学家们想到了设计一种编码方案来避免这种情况:在编码中添加纠错机制。
这样,即使碱基合成和测序过程中出现错误,仍然可以保证DNA中存储的内容能够被正确读取。
03 走出实验室,还要考虑速度和成本。
DNA存储也在尝试走出实验室。
今年10月,微软、西部数据、基因测序巨头Illumina、DNA合成初创公司Twist Bioscience等共同成立了DNA数据存储联盟。
这是全球首个该领域的学术和产业链联盟。
该联盟希望制定技术和格式标准,并最终建立一个可以普遍使用的商业系统。
微软研究院于2016年建立了DNA存储项目,并聘请华盛顿大学计算机科学与工程学院副教授Karin Strauss担任高级首席研究经理。
2008年,她和同事参观了英国的EBI,了解了Goldman及其同事在DNA存储方面的研究,激发了她对此方向的极大兴趣。
“我们对 DNA 的密度、稳定性和成熟度感到兴奋,”施特劳斯说。
在他们的研究中,他们想要开发另一个功能:随机阅读。
在常见的DNA测序技术中,必须一次性读取所有碱基串才能获取信息。
要么不读,要么全部读完。
如果你只想要一小段数据,那就很麻烦了。
2011年,他们发表了一项研究,可以在DNA中已存储的信息中搜索指定的图像。
找到后,他们用酶复制所需的DNA片段,然后只需要读取这个小片段即可。
为了使 DNA 存储更接近商业用途,还需要解决合成速度和成本问题。
目前的综合速度是每秒存储数千字节(KB),成熟的云存储解决方案已经达到每秒超??过千兆字节(GB)。
这意味着DNA写入速度需要再提高6个数量级。
如何提高数据处理能力?正如并行计算可以提高数据处理速度一样,科学家希望能够并行合成多条DNA链并同时进行处理。
2016年,微软开发出首款纳米级DNA存储器,每平方厘米面积可同时合成25X()个碱基序列。
这项新技术将同时合成的碱基序列数量从个位数增加到了数千个。
此吞吐量使 DNA 合成速度达到每秒兆字节 (MB)。
更大的吞吐量意味着更低的成本。
DNA 存储目前每 TB 的成本为 8 亿美元。
磁带存储成本已降至每 TB 不到 16 美元。

相比之下,这似乎没有竞争力。
但现实生活中大型数据中心的维护成本极高,硬件必须定期更新; DNA存储密度大、体积小、长期不变质等优点成为对降维的打击。
因此,量大、读取频率低的“冷数据”被认为是DNA存储的最新应用场景。
Twist Bioscience最近在一份市场报告中强调,这项技术可以帮助科技公司在“大规模、低功耗”下更有效地部署。
其他乐观的科学家相信技术进步。
自2006年人类基因组计划完成以来,测序成本下降了1万倍。
2000年,当面对每秒千字节的速度时,戈德曼表示,“六个数量级(读写速度的提高)对于基因组学来说并不是什么大问题。
你只需要再等一会儿。
”那么这个“一会儿”到底有多长呢?这个领域似乎已经走到了最后一步,仍在等待突破。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-18
06-17
06-18
06-21
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态