替代传统储存介质的颠覆性技术——DNA存储技术

问题年度:2018 问题类型: 学科领域:生命科学 学科细分归类:生命科学、计算机科学

推荐机构:中国遗传学会

DNA存储 大数据 核苷酸序列编码

技术描述

DNA存储技术是一种新兴的大数据存储技术。其突破了传统的以固体介质(如硬盘、光盘、可移动磁盘等)为媒介的存储方式,将0-1编码转换为DNA(脱氧核糖核酸)的核苷酸序列(A、T、C、G组合)编码。由于DNA具有天然的信息存储能力,故可以通过独特的排列组合方式形成一套编码存储和读取数据的技术体系。

研究需求与重要性:

随着各个行业的迅猛发展和对无纸化信息存储技术的依赖,从国家层面的经济统筹、建设规划到国民生产、科技创新无不经历着爆炸式的数据增长,数据和信息的保存和传递是未来生活的重中之重。据统计数据显示,全球信息每2年产生的数据量就会翻一番,预计至2020年全球产生和复制的数据量将达到44万亿GB,是2013年的10倍。

然而,大数据时代的到来,给传统的以固体介质为媒介的数据存储方式带来前所未有的挑战。现有的常规存储模式其体积大、耗能高、转运较为困难,在未来可能无法有效应对海量数据的指数形式增长;而且由于硬件损耗、存储时间、便携度等方面的局限性,也无法满足政府部门核心文档的长期备份保存,以及国防领域信息文件的隐蔽传递等方面的需求。因此,急需发展新一代的大数据存储介质与技术,而DNA存储技术则可以克服以上难题。

DNA(脱氧核糖核酸)为依靠四种碱基(A、T、C、G)组合编码而成的大分子有机物质,其四种碱基的排列顺序具有存储信息的能力,可以通过独特的排列组合方式形成一套编码存储和读取数据的技术体系。相比于传统的信息存储方式,DNA存储技术具有数据密度高、保存时间长、配套设备能耗低、便于携带、运输隐蔽性高和便于多重加密等优点:

1) 数据密度高:1g重量的DNA可以存储2PB(1PB=1000TB)以上的数据,即仅1公斤DNA就能满足全球的信息存储需求,其数据存储密度大大超过常规存储方式,在所需保存的信息量巨大时具有明显优势;

2) 保存时间长:DNA分子在稳定的保存条件下不易降解,并且可以耐受一定程度的恶劣环境。据报道,携带特定信息的DNA分子在封存环境下可保存两千年以上。这就极大地克服了固体存储介质易折损的缺陷,使信息的安全性和准确性得到保障;

3) 配套设备能耗低:存储DNA不需要大量的供电设备或者环境控制设备,大大降低了数据存储所需的能耗;

4) 便于携带、运输隐蔽性高:需要时可将含有目的信息的DNA溶液滴在书页或者名片等便于携带的介质上,由于肉眼和普通仪器均无法识别DNA分子的存在,可有效传播需要保密的信息。

5) 便于多重加密:DNA存储技术在储存信息时需要将目的信息转换为DNA碱基序列(第一重加密);在此基础上,可结合密码学理论对碱基的排列组合方式进行进一步编码(多重加密),更易于对相应信息做复杂的加密处理。同时,体系内大量的无关DNA序列可以作为背景噪声,极大地增加了信息随机读取的难度,保证信息传递的安全性。

伴随着越来越多生物的基因组解码完成,DNA作为介质的数据存储能力被挖掘。同时,DNA测序与合成成本的降低和效率的提高,也为DNA存储技术的发展奠定的前提条件。该技术为克服传统技术的诸多弱点提供了有效的解决途径,并可能在未来全方位地改变数据存储技术,对国民生产方式、科学技术发展、战时信息传递等领域带来重大变革,具有重大的研究意义和价值。

研究进展:

虽然DNA保存数据和信息的想法提出较早,但是该技术的实现基于DNA合成技术和测序技术的高度发展,因此DNA存储技术近年来才开始有实质性的进步。

2007年,日本Nozomu Yachie等人首次成功实现了细菌DNA存储数据。2013年,欧洲生物信息研究所(EBI)的高德曼(Nick Goldman)博士及其团队在《自然》杂志发布了DNA存储数码信息的研究,成功地将739KB的图片信息存储在DNA中,并通过测序准确解读了被存储的信息。2016年,美国华盛顿大学的James Bornholt等开发了新的DNA编码方法,相对于Goldman的算法可以更有效的降低DNA合成与测序的通量。同年,Victor Zhirnov通过对不同修饰的DNA在水与空气中的保存时效性的计算,发现DNA可以有效的保存千万年以上,充分体现了DNA存储数据时间的优势。2017年,美国哥伦比亚大学、纽约基因组中心Yaniv Erlich研究员及其团队在《科学》杂志上发布了基于喷泉码技术的DNA存储技术,将平均1.6个二进制位包装到每种碱基中;与这之前发布方法相比,存储量至少多出60%,并第一次实现了黑白影像的存储与再现。由于看到了DNA存储技术的巨大潜力,美国微软公司在2016年在该领域进行了近亿美元的投资。

相比之下,我国国内目前在这一领域的研究尚处于空白阶段。而且DNA长片段合成的错误率、DNA序列的复杂性、信息转化算法的有效压缩性以及基于短序列的DNA信息承载能力的提高等方面,仍需要投入更多的研究以解决这些问题。鉴于该技术具有重要的国防安全战略重要意义和战时数据传输的重要通道意义,应尽早开展这一研究,以防止相关产业和技术处于被动境地。