作为 MyHeritage.com 的首席科学家,Yaniv Erlich 在基因隐私与众包基因组数据领域的基础研究工作方面做出了巨大贡献,曾因发现公开基因数据中存在的隐私漏洞被 Nature 称为“基因黑客(GenomeHacker)”。此外,他还创建了包含 1300 万人口的家谱,是目前史上最大的谱系图。
在 2019 年 12 月 13 日第三届 EmTech China 全球新兴科技峰会的 “赛博未来” 版块,Yaniv Erlich 以 “The DNA of Things” 为题,为观众讲述了 DNA 存储技术的潜在应用,并且在演讲现场向观众展示这只 DNA 存储数据的兔子。
作为 MyHeritage.com 的首席科学家,Yaniv Erlich 在基因隐私与众包基因组数据领域的基础研究工作方面做出了巨大贡献,曾因发现公开基因数据中存在的隐私漏洞被 Nature 称为“基因黑客(GenomeHacker)”。此外,他还创建了包含 1300 万人口的家谱,是目前史上最大的谱系图。
我们到底可以通过基因数据了解到哪些信息?我们还可以拿这些信息做些什么?还有哪些潜在的应用?以下为 Erlich 在 EmTech China 现场的演讲内容(有删减)——
在过去的 70 年中,我们看到了技术不断快速的发展,比如说在 50 年代,你需要 6 个身强力壮的人去推一个大的设备,但是现在,智能手机的芯片可以搭载更多的信息,不会再需要这么多人来推动这么一个巨大的设备。
除此之外,我们还有很多挑战,尤其是针对数据存储方面。首先,我们不再像以前一样享受一个狂欢的时代了,比如说现在存储的量以及它成本之间的比例,是在不断变化的,我们看到现在有很多不同创新的方法,基本上每年这个成本都可以降低 30%。
但是,在 2010 年,我们发现创新的速度在变缓,主要原因是我们很难把这些设备的成本变得更优。
另外一个是数字技术的演进,有些时候每一个设备搭建的架构是不一样的,你可能需要完全做一个数据和技术的迁徙。
比如说我很喜欢的一个 70 年代的影片,可能是在一张光碟上,但是现在的设备已经放不出来了,所以它可能是格式不对,或者是硬件不支持,有很多内容已经无法再读取了。
接下来我想给大家解释,是不是 DNA 才是我们真正的存储技术?
首先可以看一下,在过去 35 亿年中 DNA 都是存在的,而且在未来也会继续存在着。
我相信未来我们还是需要去借助 DNA 的力量,它是任何生命物质的组成部分,我们可以通过了解自己的 DNA 来了解自己的组成。
90 年代的一个光盘,可以看到上面的擦痕非常明显,而且没有办法修复,任何的数字技术都存在这样的问题,你过了 10 年之后,基本上这种硬件损毁就让你没有办法去读取它的信息。但 DNA,你哪怕发掘出来了一个几千年前的残骸,都可以通过 DNA 来了解当时的情况。
所以,我们就在思考 DNA 是不是可以存储信息,但怎么去打造基于这种 DNA 的文件呢?每一个文件其实都是一个序列(二进制的组成),可能是 0 和 1,不管是文本,还是歌曲,都可以用这种形式存储。
DNA 其实也是一个序列,它是 ATCG 几种不同碱基的组合。我们可以给每一个字母去赋值,比如 A 是 00,C 是 01,这样就可以通过二进制来描述这个 DNA 的编码,我们也可以利用合成化学技术做到这一点。
其中一个方法是用喷墨式打印机,它其实是有不同喷墨针的,你可以把 ATCG 放到喷头上,它可以利用一些化学物质来打印,生成一个 DNA 的序列,最终的结果是我们可以拿到一个像试管一样的物品,它是以液体的形式存在。
如果你想读取的话就可以放到一个序列仪上,通过测序仪来读取出存储的数据。
现在我和我的团队也是希望能够实践这个理念,我们用了一个计算机操作系统,读取了一个早年的电影,我们把所有的数据都放在了小的试管当中,我其实就带在了身上,你如果看不清楚,觉得什么都没有,我其实就是这个意思,真的特别小,小到几乎看不见。
这个 DNA 是存在于小的试管当中,你可以通过测序仪去读取它,这里面不会有任何的损失。
当然这个技术有一个缺点,每一次你想去读取这个文件的话,你就需要提取出这个液体中的一部分,如果你要是想无数次地去测序的话,可能最终样本量会越来越少。
我的女儿非常喜欢一部电影中的主题歌,你们可以想象,如果把这个歌的信息存储在 DNA 上,而你一直在测序的话,可能最后这个片段就剩的越来越少了,那该怎么办呢?我们现在在想,人体内的细胞其实是可以不断地进行 DNA 的复制,我们其实可以通过 PCR 做一个类似的扩增,这是可以在实验室内完成的。
这个文件我们能不能正确读取呢?答案是可以的,我们经过多次拷贝之后,可以看到两个电影一模一样,没有任何的差别,是因为我们有非常好的纠错代码,虽然在复制过程中会出现错误,但是我们可以很好地把错误纠正过来。
另外我们做了一个实验,也希望看一下在 DNA 当中我们的信息密度可以达到多少,一个 DNA 最多可以储存多少比特的信息。
为了这个实验,我们拿了这个试管,每一次我们拿出一滴,我们都会把它的浓度稀释成过去的 1/10,然后我们再拿一滴,再去稀释它,再拿一滴,再去不停地稀释,一直在重复,直到我们没有办法再从一滴的液体当中读取到任何信息为止。
我们最后得到的结论,我们最大的密度,在每一个 DNA 上,上面可以有 125“艾”字节的信息,所以说我们可以想象,基本上这么一个房间里面,全都是笔记本电脑的话,所有这些信息都可以储存到一个 DNA 上。
大家可以想象一下,人类所创造的数据总量应当是 10 到 24 次方,我们只需要 10 吨的 DNA 就可以储存我们所有的电影、微信聊天记录,所有人类创造出的数字信息,所有数字信息都可以在 10 吨的 DNA 上存储,这 10 吨的 DNA 直接可以装到一个大卡车上。
另外还可以跟大家分享一个我们的想法,我们可以想象一下传统的存储设备,他们都是有一定形状的限制,CD 光盘我们之所以叫它光盘是因为它是圆的,你没有办法把它的形状改变,你也没有办法折它,它必须是一个光盘才可以。胶卷像一个卷一样,如果把它弄坏了信息就没了。硬盘,我们把它叫做硬盘是因为它就是硬的,你没有办法去掰它,你也没有办法改变它的形状,但是 DNA 是一种液态的信息储存方式,它的排列顺序是没有特定要求的。
为什么我们不能使用这样的技术,使用材料把它填充进来,然后把它做成我们的一般物品,这些常见的物品里面都有我们储存信息的 DNA。
这次我们不把它放到试管里面,我们把它放到很小的硅珠当中,然后我们用胶囊把它封住,再把这些小珠放到聚合物里面,比如说塑料,然后我们再把塑料做成我们想要的一些东西或者是形状。
我们生产了眼镜的镜片,当中就有我们的硅珠,硅珠里面就有 DNA,DNA 里面有很多电影,如果你想看电影,只需要从里面剥出一小点的硅珠,然后把它解析开来,你就可以看电影了。
如果我们把左边和右边的镜片进行比较,可以看到它是完全透明的,左边是没有硅珠的,右边的是有硅珠的。所以,我们可以把它做成非常常见的东西,比如你可以在这样的硅珠当中,去存储一些个人信息、敏感信息,如你的密码,你戴上这幅眼镜,但根本没有人会注意到它有什么不同寻常的地方。
我手上的这只小兔子是 3D 打印的,但不是一个一般的兔子,因为这个兔子里有 DNA,这个 DNA 里写了如何打印这个兔子的 3D 打印指令。我们可以想象一下,这样一只小兔子里有生产它的具体指令,兔子里有硅珠,硅珠里有 DNA 信息,这个 DNA 信息就是如何制造这只小兔子的生产信息,我们只需要把这只小兔子的耳朵折下一点,读取这个 DNA 信息,进行复制,就可以生产新的小兔子了。这是非常酷的,因为这些新生产的兔子也有 DNA,所以我们不断地复制这样的小兔子,就像兔子繁殖一样,我们不断地复制、不断地迭代。
我们测试了一下,生产了 6 代这样的兔子,在最后一代的时候,我们还是能从最后生产的兔子里,提取到我们最原始的信息,没有任何的错误,和一开始兔子上面的信息是一样的。
物联 DNA 有什么样的应用呢?我们可以把各种各样材料的生产方式放到材料本身,比如说我们可以在植入物当中放上病人的医疗信息,以后等到这个植入物植入了 20 年之后,可能患者的病例已经没了,我们只需从这名患者体内拿出这个植入物,从里面提取信息就可以了。
我们也可以用这样的方式来生产各种各样的汽车部件,如果说汽车有什么部件损坏了,我们只需要从这上面刮下来一点东西,就可以重新生产同样的部件。
第二个应用就是隐藏信息,我们可以把一些常见的东西或者是物件当做隐藏信息的载体,就像是我们的鞋带、镜片、衬衣或者是我们衣服上的扣子,所有这些都可以帮助我们来储存和隐藏信息。甚至是我们也可以通过喝饮料的方式,把硅小球喝到肚子里面,然后需要的时候我们再把它排泄出来。
第三个应用就是我们自复制的机器人。因为我们知道机器人是没有办法自复制的,但是对于自复制机器人,他们需要有能力把自己的生产方式自动传递给下一代的机器人,但是我们的技术是可以帮助满足这种标准和要求的,这就帮助我们更加接近了自复制机器人。
我们三天之前刚刚在 Nature Biotechnology 期刊上面发布了这项成果,最后我们来总结一下,DNA 很有可能是我们终极的储存设备,它的存储密度要比我们其它的存储技术都要高,而且它会更加持久,我们只要使用一个一般的 DNA 测序仪,就可以把信息解析出来。
因为我们没有任何材料或者形状上的限制,我们可以把 DNA 注入到我们常见的物件当中,然后成为我们常见物件当中的一部分。