發(fā)布日期:2017-03-06
DNA 具有提供大容量信息存儲的潛力。 然而,目前的方法僅能夠使用理論最大值的一小部分。紐約基因組中心和哥倫比亞大學(xué)的 Erlich 和 Zielinski 提出了一種策略:DNA 噴泉,它接近每個核苷酸存儲的信息的理論最大值。 他們將信息的高效編碼存儲進(jìn) DNA ,并在多輪聚合酶鏈反應(yīng)后仍可以完全恢復(fù)文件。相關(guān)論文發(fā)表在 3 月 3 日的《Science》上。
DNA 是一種有吸引力的存儲數(shù)字信息的媒介,因為它是緊湊的,并且如果保存在陰涼,干燥的地方可以持續(xù)幾十萬年,這從 2016 年的一篇《自然》論文就可以體現(xiàn)出來:西班牙學(xué)者成功測序了距今 43 萬年的 DNA 部分序列。( 最古老人類 DNA 測序揭示尼安德特人的秘密 )
哥倫比亞大學(xué)的計算機(jī)科學(xué)教授 Yaniv Erlich 說,“DNA 不會像磁帶和 CD 那樣隨時間而降解,并且不會過時。”
Erlich 和他的同事 Nina Zielinski,選擇了六個文件編碼寫入 DNA:一個完整的計算機(jī)操作系統(tǒng),一部 1895 的法國電影,一個 50 美元的亞馬遜禮物卡,計算機(jī)病毒,具有圖畫信息的先鋒板和一個 1948 年由信息理論家 Claude Shannon 領(lǐng)導(dǎo)的老研究。這些文件總共 2.14×10 6 字節(jié)。
他們將這些文件壓縮成一個主文件,然后將數(shù)據(jù)拆分為由 1 和 0 組成的二進(jìn)制代碼的短字符串。使用稱為噴泉碼的容錯算法,它們將符串隨機(jī)地封裝成液滴,并將每個液滴中的 1 和 0 映射到DNA 中的四個核苷酸堿基:A,G,C 和 T。算法刪除已知錯誤的字母組合,并添加一個條形碼到每個液滴,以幫助以后重新組裝文件。
總而言之,他們生成了 72,000 條 DNA 鏈的數(shù)字列表,每條鏈長 200 個堿基,并將其文本文件發(fā)送到舊金山的 DNA 合成公司,Twist Bioscience,其專門將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為生物數(shù)據(jù)。 兩個星期后,他們得到一個含有一串 DNA 分子的小瓶。
為了檢索他們的文件,他們使用現(xiàn)代測序技術(shù)來讀取 DNA 鏈,然后用軟件將遺傳代碼翻譯成二進(jìn)制。 他們恢復(fù)了他們的文件,而且沒有錯誤。 在這個簡短的演示中,Erlich 在虛擬機(jī)上打開他的歸檔操作系統(tǒng),并玩起 Minesweeper 的游戲來慶祝。
他們還證明,通過 PCR 技術(shù)擴(kuò)增存儲 DNA 樣本后,,可以產(chǎn)生幾乎無限數(shù)量的文件拷貝,并且經(jīng)過多次拷貝后,該技術(shù)仍然可以恢復(fù)這些文件數(shù)據(jù)。
研究人員表明,他們的編碼策略在一克 DNA 上包裝了 215 帕比特數(shù)據(jù),是哈佛大學(xué)的開創(chuàng)性研究人員喬治·教會和歐洲生物信息學(xué)研究所的 Nick Goldman 和 Ewan Birney 在《自然》發(fā)表的方法的 100 倍。
“我們相信這是迄今為止最高密度的數(shù)據(jù)存儲設(shè)備,”Erlich 說。
DNA 數(shù)據(jù)存儲的容量理論上限于每個核苷酸的兩個二進(jìn)制數(shù)字,但是 DNA 本身的生物學(xué)約束和包括冗余信息以重新裝配和讀取片段的需要將其容量降低到每個核苷酸堿基 1.8 個二進(jìn)制數(shù)。
研究的亮點是使用噴泉碼。在編碼理論中,噴泉碼是一類抹除碼,其有能力從一組給定的源符號中產(chǎn)生一串無限的編碼符號序列,而在理想情況下,只需獲得大小和源符號相同或稍大的任意編碼符號子集,便可恢復(fù)源符號。使用他們的 DNA 噴泉技術(shù),Erlich 和 Zielinski 平均每個堿基核苷酸包裝 1.6 位。 這至少比以前發(fā)布的方法多 60% 的數(shù)據(jù),并且接近 1.8 位的限制。
該技術(shù)是一項著眼于未來的具有劃時代意義存儲技術(shù),它具有高效、存儲量大、存儲時間長、易獲取且免維護(hù)的優(yōu)點。不過,鑒于合成 DNA 分子和讀取 DNA 數(shù)據(jù)的成本,現(xiàn)階段用它來存儲信息仍然太過昂貴。
但是,如果生產(chǎn)低質(zhì)量的分子,DNA 合成的價格可以大大降低,而使用 DNA 噴泉等編碼策略可以修復(fù)分子錯誤。隨著技術(shù)發(fā)展,DNA 存儲技術(shù)有望進(jìn)入尋常百姓家。
參考資料:
1.DNA Fountain enables a robust and efficient storage architecture
2.As reliable as your hard drive? Maximizing DNA storage
3.Towards practical, high-capacity, low-maintenance information storage in synthesized DNA
4.Nuclear DNA sequences from the Middle Pleistocene Sima de los Huesos hominins
來源:生物 360