首页 > 科技未来 > 内容

你体内的DNA可以储存整个宇宙的数据

发布于:2024-06-18 编辑:匿名 来源:网络

恐龙灭绝一万多年后,科学家获得了一块含有史前蚊子的琥珀,并从蚊子的血液中获得了恐龙基因,从而复活了遥远的生物。

讲述这个故事的《侏罗纪公园》至今仍位居全球票房电影前十名。

这一系列故事的原理很简单:DNA存储了恐龙的生物信息,而技术让它得以重新表达。

现在,用DNA想象另一个故事:在宇宙的长河中,“人类世纪”也消失了。

另一种智慧生物出现,他们前往探索古老的“人类文明”。

什么将承载人类文明的记忆?气温发生了巨大的变化,地球上只剩下了巨大的数据中心的痕迹。

冻土中有一份DNA拷贝。

它很轻,只有1公斤。

它看起来像一些封装在胶囊中的白色粉末。

读完之后,里面包含了地球上曾经存在过的海量信息。

视频、文字、代码展现了人类历史进程中无数的发明和文学艺术作品。

于是那个遥远文明的痕迹再次在宇宙中扩散开来。

这又是一个科幻设定。

其背后的技术是目前备受关注的一个前沿方向:DNA存储信息。

在自然界中,DNA 负责存储遗传信息。

人类单个细胞的平均直径为5至10微米,其中的DNA可以包含一个人的全部遗传信息:30亿个碱基对。

那么为什么碱基不能用来存储其他信息呢?这种类似科幻小说的想法已经走出实验室,并被视为未来信息存储的解决方案。

01 基因组数据太多,怎么办?最初,生物学家想要解决生物学发展中的问题。

十一年前,一群生物信息学家在德国的一家酒店讨论“数据存储问题”。

其中包括尼克·戈德曼(Nick Goldman),他是欧洲生物信息学研究所(EBI)高级科学家的第二年。

大规模基因组测序正在进行中,生成的数据规模正在迅速增长。

存储和压缩这些数据很麻烦,而且现有的技术解决方案似乎不起作用。

据估计,人类基因组需要高达 2-40 EB 的存储容量。

这可能比一家世界级科技公司的云存储还要多——全球 Apple 用户在 Google Cloud 上存储的数据总量约为 8 艾字节。

这 8EB 的数据每月需要 2.18 亿美元的存储费。

(1EB= ^3GB) 生物学家很沮丧。

有人突然灵机一动:是什么阻止我们用DNA来存储数据呢?这看起来像一个笑话,但生物学家意识到这不仅仅是一个笑话。

他们拿起手边的餐巾纸,用圆珠笔仔细计算着可行性。

DNA存储遗传信息的原理并不复杂。

它由A、T、G、C四种核苷酸组成,相互成对对应,形成双螺旋结构。

核苷酸序列记录遗传信息。

在数字世界中,所有信息本质上都是一串0和1。

如果想让DNA存储数字信息,简单的理解就是将0和1的编码序列转换成核苷酸序列。

DNA存储的优点是密度高,大约只有眼前逗号的大小。

1立方毫米的DNA可以容纳9TB(1TB=GB)的信息。

使用 DNA 存储数据并不是一个全新的想法。

科学家们之前已经尝试过。

但这是科学与艺术之间开创性的跨界实验。

2000 年,艺术家乔·戴维斯 (Joe Davis) 和哈佛大学的研究人员在短链 DNA 中存储了一种名为“微维纳斯”的模式。

该模式的编码很简单,白色区域标记为0,黑色线条标记为1。

文件大小只有35位,使用长度为28个核苷酸的DNA链来存储。

那次酒店讨论两年后,高盛团队发表了他们的研究结果。

这次,他们存储了 5 种不同格式的文件,总计 0.75MB。

为了保证读取信息不会出现错误,科学家将每条信息都以四倍的冗余度进行存储。

这五个文件是: ? 莎士比亚的 14 行诗(ASCII 编码格式) ? 一篇提出 DNA 双螺旋结构的论文(PDF 版本) ? 一张照片(JPEG 格式) ? 马丁·路德·金的《我有一个梦想》 26 秒的语音片段(MP3 格式) ? 霍夫曼代码字符串。

近年来,DNA存储容量不断被突破。

2016年,美国初创公司Catalog在DNA中存储了16GB的维基百科。

该公司表示,正在打造世界上第一个基于DNA的大规模数字数据存储和计算平台。

02 编码解码,要处理的事情很多。

在一些生物学家看来,用DNA来存储是一件非常“顺利”的事情。

“大自然的编码语言与我们在计算机领域使用的二进制语言非常相似。

在硬盘上,我们使用 0 和 1 来表示数据,在 DNA 中,我们有 4 种形式的核苷酸,A、C、T 和 G”。

瑞士联邦理工学院的生物学家罗伯特·格拉斯说。

DNA 存储的关键之一是使用四个核苷酸来映射数字 0 和 1。

计划可以很简单。

例如:A对应00,C对应01,G对应10,T对应11。

然后根据需要的核苷酸序列,将核苷酸串成串珠状。

(这就是DNA合成)当需要读取信息时,利用基因测序技术读出这串核苷酸序列,然后将其翻译成一串0和1。

这个过程是编码-DNA合成-测序-解码。

这听起来像是一个“把大象放进冰箱”的过程,但操作过程中需要考虑的问题有很多。

否则科学家们就不必继续研究新的编码方案。

在自然界存在的DNA中,A和T、C和G是成对配对的。

一段DNA中,CG和AT的比例基本均匀,约为50%。

如果C和G含量过高,可能会导致DNA链中出现一些复杂的物理结构。

这使得 DNA 测序(解码)变得复杂。

而在“串珠”(即合成DNA链)的过程中,出错率是不可避免的。

目前,合成的每个碱基大约会发生一个错误。

这是目前化学合成技术造成的瓶颈。

每次合成一个碱基,准确率都在99.9%以上。

但当碱基串变长并且0.01%的概率成倍增加时,错误就不可避免了。

目前,合成DNA的单链长度一般不超过3个碱基,极限在1个碱基左右。

在自然界中,DNA 通常有数千个碱基对。

也就是说,尽管DNA具有很大的存储容量,但它必须以许多短链的形式存在。

如果存储的信息量比较大,这些短链DNA就像一本松散的书。

它可以存储大量信息,但它以标有页码的纸张形式存在。

当然,短链DNA可以拼接??成长链。

这意味着添加了一个额外的过程。

在测序过程中,长链需要被打断成短链。

这是因为当前的技术无法一次读取长链。

测序过程中也存在错误率。

虽然目前的错误率低至10^-3,但与商用硬盘的读写错误率仍至少相差9个数量级。

准确率受合成和测序两种技术的影响。

科学家们想到了设计一种编码方案来避免这种情况:在编码中添加纠错机制。

这样,即使碱基合成和测序过程中出现错误,仍然可以保证DNA中存储的内容能够被正确读取。

03 走出实验室,还要考虑速度和成本。

DNA存储也在尝试走出实验室。

今年10月,微软、西部数据、基因测序巨头Illumina、DNA合成初创公司Twist Bioscience等共同成立了DNA数据存储联盟。

这是全球首个该领域的学术和产业链联盟。

该联盟希望制定技术和格式标准,并最终建立一个可以普遍使用的商业系统。

微软研究院于2016年建立了DNA存储项目,并聘请华盛顿大学计算机科学与工程学院副教授Karin Strauss担任高级首席研究经理。

2008年,她和同事参观了英国的EBI,了解了Goldman及其同事在DNA存储方面的研究,激发了她对此方向的极大兴趣。

“我们对 DNA 的密度、稳定性和成熟度感到兴奋,”施特劳斯说。

在他们的研究中,他们想要开发另一个功能:随机阅读。

在常见的DNA测序技术中,必须一次性读取所有碱基串才能获取信息。

要么不读,要么全部读完。

如果你只想要一小段数据,那就很麻烦了。

2011年,他们发表了一项研究,可以在DNA中已存储的信息中搜索指定的图像。

找到后,他们用酶复制所需的DNA片段,然后只需要读取这个小片段即可。

为了使 DNA 存储更接近商业用途,还需要解决合成速度和成本问题。

目前的综合速度是每秒存储数千字节(KB),成熟的云存储解决方案已经达到每秒超??过千兆字节(GB)。

这意味着DNA写入速度需要再提高6个数量级。

如何提高数据处理能力?正如并行计算可以提高数据处理速度一样,科学家希望能够并行合成多条DNA链并同时进行处理。

2016年,微软开发出首款纳米级DNA存储器,每平方厘米面积可同时合成25X()个碱基序列。

这项新技术将同时合成的碱基序列数量从个位数增加到了数千个。

此吞吐量使 DNA 合成速度达到每秒兆字节 (MB)。

更大的吞吐量意味着更低的成本。

DNA 存储目前每 TB 的成本为 8 亿美元。

磁带存储成本已降至每 TB 不到 16 美元。

你体内的DNA可以储存整个宇宙的数据

相比之下,这似乎没有竞争力。

但现实生活中大型数据中心的维护成本极高,硬件必须定期更新; DNA存储密度大、体积小、长期不变质等优点成为对降维的打击。

因此,量大、读取频率低的“冷数据”被认为是DNA存储的最新应用场景。

Twist Bioscience最近在一份市场报告中强调,这项技术可以帮助科技公司在“大规模、低功耗”下更有效地部署。

其他乐观的科学家相信技术进步。

自2006年人类基因组计划完成以来,测序成本下降了1万倍。

2000年,当面对每秒千字节的速度时,戈德曼表示,“六个数量级(读写速度的提高)对于基因组学来说并不是什么大问题。

你只需要再等一会儿。

”那么这个“一会儿”到底有多长呢?这个领域似乎已经走到了最后一步,仍在等待突破。

你体内的DNA可以储存整个宇宙的数据

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 燕麦饮料如何改变地球这家公司要重新定义“牛奶”

    燕麦饮料如何改变地球这家公司要重新定义“牛奶”

    一家专门生产燕麦奶的公司已上市。 美国东部时间4月19日,瑞典品牌Oatly正式向美国证券交易委员会(SEC)提交招股说明书,申请在纳斯达克公开上市。 招股书显示,Oatly的承销商包括摩根士丹利、瑞士信贷、法国巴黎银行、巴克莱银行等多家机构,阵容非常豪华。 由于以燕麦奶起

    06-21

  • 字节跳动刚刚投资了虚拟女生

    字节跳动刚刚投资了虚拟女生

    ,今年首笔虚拟人融资已经出炉。 投资界获悉,杭州李未科技有限公司显示股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。 今日,该公司正式确认本轮为李未首轮融资,字节跳动独家投资。 李未,这个有些陌生的名字,正是虚拟的女生。 她是由负责人茹忆创建的,前阿里

    06-18

  • 达达集团被纳入MSCI ACWI全球指数

    达达集团被纳入MSCI ACWI全球指数

    达达集团被纳入MSCI ACWI全球指数 5月份,国际指数编制公司MSCI(摩根士丹利资本国际)公布了该指数5月份季度调整结果。 其中,达达集团(纳斯达克股票代码:DADA)已被纳入MSCI ACWI全球指数,该指数将于5月27日收盘后生效。 作为全球最具影响力的股票指数,MSCI ACWI全球指

    06-17

  • 三叶草生物制药完成2.3亿美元C轮融资,高瓴创投、淡马锡共同领投

    三叶草生物制药完成2.3亿美元C轮融资,高瓴创投、淡马锡共同领投

    投资界(ID:pedaily)2月23日消息,专注于为全球严重疾病开发创新生物疗法和疫苗全球临床阶段生物制药公司三叶草生物制药股份有限公司(以下简称“三叶草生物”)宣布完成2.3亿美元C轮融资并获得超募。 本轮融资由高瓴创投、淡马锡联合领投,海松资本、奥博资本跟投,原股东

    06-18

  • 地球上最疯狂的独角兽,SpaceX估值8000亿

    地球上最疯狂的独角兽,SpaceX估值8000亿

    又一超级独角兽诞生。 本周,据美国证券交易所委员文件显示,马斯克运营的SpaceX刚刚完成新一轮17.2亿美元融资,估值高达1亿美元(约合人民币1亿元)。 由此,SpaceX成为全球第三大独角兽公司,仅次于字节跳动和蚂蚁集团。 SpaceX无疑是狂人和马斯克创造的又一个传奇。 这家他

    06-18

  • 【全球财经24小时】2023年8月7日投融资事件汇总及明细

    【全球财经24小时】2023年8月7日投融资事件汇总及明细

    今日全球市场共发生21起投资披露事件,其中境内20起,境外1起。 其中,国内先进制造业11例,医疗健康行业3例,体育产业1例,企业服务业1例,地方生活行业2例,医疗健康行业2例。 电子商务。 ,国外体育行业1例。 国内事件 1、腿老大获万元天使轮融资 腿老大是国民潮流零食品牌

    06-17

  • 阿里云创新中心系列白皮书之一的《2022年中国机器人产业图谱及云上发展研究报告》

    阿里云创新中心系列白皮书之一的《2022年中国机器人产业图谱及云上发展研究报告》

    机器人被誉为“制造业皇冠上的明珠”。 其研发、制造和应用是一个国家技术创新和高端制造水平的重要标志。 2000年之前,机器人感知能力较弱,主要通过预设的重复机械动作实现特定场景下的人工替代; 21世纪,随着传感器的大规模应用和多传感器信息融合技术的发展,机器人逐渐

    06-17

  • 海康威视:2020年净利润同比增长7.82%,拟每10块海康威视披露年报支付8元

    海康威视:2020年净利润同比增长7.82%,拟每10块海康威视披露年报支付8元

    公司全年实现营业总收入3亿元,比上年同期增长10.14%;实现净利润8600万元,较上年同期增长7.82%。 公司全年整体毛利率为46.53%,较上年同期上升0.54个百分点。 该公司计划报价8元10件。 今年一季度,公司实现营业收入8800万元,同比增长48.36%;净利润21.69亿元,同比增长44

    06-18

  • 苹果iOS 14.5最强大的更新功能就是它!

    苹果iOS 14.5最强大的更新功能就是它!

    都说互联网没有记忆,因为当热点过去后,它们就变成了灰尘。 但互联网也有记忆。 它记录了你所有的痕迹。 只需一行,您就可以找到有关您的一切。 这些所谓的“痕迹”就是您的个人数据,可以包括您的浏览习惯、偏好、停留时长、个人移动轨迹、位置信息,甚至身份信息、图片等更

    06-21

  • 走过半导体巨头孤独的世纪

    走过半导体巨头孤独的世纪

    在半导体行业的发展过程中,不少企业经历了兼并、收购、重组等变革。 因此,一些历史悠久的公司可能不再独立存在,而是成为其他大公司的附属公司。 部分。 与此同时,新的半导体公司不断涌现,未来可能成为行业领导者。 01 从制表机到世界名厂:“人才”IBM IBM的历史可以追

    06-17

  • 一家俄罗斯集团已开始在加里宁格勒建设一座 1.3GW 垂直一体化太阳能发电厂

    一家俄罗斯集团已开始在加里宁格勒建设一座 1.3GW 垂直一体化太阳能发电厂

    Unigreen Energy 是俄罗斯 Ream Management 的子公司,该公司持有俄罗斯光伏组件制造商 Hevel Solar 的控股权。 Unigreen Energy 已开始在位于波兰和立陶宛之间的俄罗斯飞地加里宁格勒建设垂直一体化太阳能组件发电厂。 “该发电厂的 n 型硅片产能为 1.3GW,太阳能电池产能为

    06-08

  • 小医物联获2000万元战略投资,海尔机构领投

    小医物联获2000万元战略投资,海尔机构领投

    据投资界1月9日消息,新三板公司小医物联公告称,公司拟发行不超过1万股股票价格为16元/股。 ,筹集不超过1万元。 海尔集团旗下青岛海尔科技投资有限公司参与新股认购。   小蚁物联网表示,本次募集资金将用于:1、产能扩张; 2、产品研发; 3、团队建设; 4. 营销。   

    06-18