近年來,DNA因其高密度、低能耗、長壽命等特性,成為極具潛力的下一代數(shù)據(jù)存儲介質(zhì)。然而,DNA在測序過程中易產(chǎn)生替換、插入、缺失等錯誤,嚴(yán)重影響數(shù)據(jù)解碼的準(zhǔn)確性與完整性。
近日,南方科技大學(xué)蔣興宇團(tuán)隊在 《ACS Nano》 上發(fā)表題為《Integrated Error Correction to Enhance Efficiency of Digital Data Storage Based on DNA Nanostructures》的研究,提出了一種集成糾錯算法IEC,顯著提升了DNA數(shù)據(jù)存儲的效率和可靠性。

IEC算法三大核心機(jī)制
1、 “頭-尾”區(qū)域Levenshtein距離聚類
傳統(tǒng)Levenshtein距離計算復(fù)雜度高,不適用于海量DNA序列。IEC僅提取序列的頭部和尾部區(qū)域進(jìn)行相似度計算,將復(fù)雜度從 O(m2)(m 為全序列長度)降至 O(n2)(n 為頭尾區(qū)間長度),聚類速度提升10倍,且對頭尾錯誤具備強(qiáng)容錯能力。

2、基于Sliding Window-Optimized的Hamming距離糾錯
傳統(tǒng)Hamming距離要求序列等長,IEC引入滑動窗口機(jī)制,實現(xiàn)對變長序列的插入、缺失、替換錯誤檢測與校正。

3、Score-weighted Majority Voting剔除“噪音序列”
在聚類與糾錯后,IEC采用分?jǐn)?shù)加權(quán)的majority voting機(jī)制,進(jìn)一步提升序列選擇的準(zhǔn)確性。相比傳統(tǒng)majority voting,缺失序列率降低約2%,覆蓋率和準(zhǔn)確率也更高。

實驗驗證:
團(tuán)隊以醫(yī)療影像數(shù)據(jù)(MRI 圖像,122KB) 為存儲對象,通過 Twist Bioscience 合成 DNA oligo pool,經(jīng)多輪PCR 擴(kuò)增(模擬長期使用中的序列退化),全面驗證IEC的實用性。
1、研究中使用的DNA oligo pool通過杭州沃森生物訂購,包含4468條DNA序列,每條長度200 nt,結(jié)構(gòu)如下:
2、合成后的DNA經(jīng)過多輪連續(xù)PCR擴(kuò)增,模擬多次讀取中錯誤的累積效應(yīng)。
擴(kuò)增產(chǎn)物經(jīng)瓊脂糖凝膠電泳驗證后,在Illumina平臺上進(jìn)行150 bp雙端測序。發(fā)現(xiàn)IEC處理后前4輪均能成功解碼,5輪后仍能保持80%以上,序列效率也顯著提高,待解碼序列數(shù)畢傳統(tǒng)DNA Fountain方法減少0.5%-29.89%,數(shù)據(jù)量縮小3個數(shù)量級。

IEC算法通過三重糾錯機(jī)制協(xié)同工作,在不依賴高冗余編碼的前提下,實現(xiàn)了對DNA存儲中常見錯誤的高效校正。其低冗余、高密度、強(qiáng)糾錯的特性,適用于醫(yī)療數(shù)據(jù)、個性化醫(yī)療、大數(shù)據(jù)存儲等場景。
代碼已開源:
https://github.com/lasso-sustech/IEC_Codes/tree/reponse
參考文獻(xiàn):
Mao, C. et al. ACS Nano 2025. DOI: 10.1021/acsnano.5c08183