Stocare de date bazată pe ADN cu capacitate mare de informații cu caractere de codificare augmentată folosind

Subiecte

Abstract

Stocarea de date bazată pe ADN a apărut ca o metodă promițătoare pentru a satisface cererea în creștere exponențială de stocare a informațiilor. Cu toate acestea, implementarea practică a stocării datelor pe bază de ADN rămâne o provocare din cauza costului ridicat al scrierii datelor prin sinteza ADN-ului. Aici, propunem utilizarea bazelor degenerate ca caractere de codificare în plus față de A, C, G și T, care mărește cantitatea de date care poate fi stocată pe lungimea secvenței de ADN proiectate (capacitatea informațională) și scăderea cantității de ADN sinteză pe stocarea datelor unitare. Folosind metoda propusă, am obținut experimental o capacitate de informație de 3,37 biți/caracter. Capacitatea de informare demonstrată este de peste două ori în comparație cu cea mai mare capacitate de informare atinsă anterior. Metoda propusă poate fi integrată cu tehnologiile sintetice în viitor pentru a reduce costul stocării datelor pe bază de ADN cu 50%.

Introducere

Aici, propunem și demonstrăm utilizarea bazelor degenerate (combinație a celor patru baze ADN care pot fi inserate la orice site-uri de bază dintr-o secvență) 11 ca caractere de codificare suplimentare pentru a depăși limita de capacitate de informații teoretice de 2,0 biți/caracter. Bazele degenerate sunt localizate în secvența ADN atunci când nucleotidele sunt amestecate la o poziție specifică în secvența ADN. De exemplu, în secvența „AWC”, „W” indică o combinație de A și T; astfel, există două tipuri de variante de nucleotide în grupul de molecule: „AAC” și „ATC”. În acest articol, utilizând unsprezece baze degenerate în plus față de cele patru caractere ADN, realizăm experimental o capacitate de informație de 3,37 biți/caracter în biblioteca oligonucleotidelor care cuprinde sute de copii ale fiecărei secvențe. Cu alte cuvinte, stocăm mai multe date folosind mai puține copii ale fiecărei secvențe, comparativ cu numărul de molecule utilizate în studiile anterioare. Ca rezultat, demonstrăm că lungimea ADN necesară pentru a stoca aceeași cantitate de date a fost redusă cu mai mult de jumătate comparativ cu rapoartele anterioare 3,4,5,6,9,10. Tehnologia propusă poate fi integrată cu tehnologiile sintetice în viitor pentru a reduce costul stocării datelor pe bază de ADN cu 50%.

Rezultate

Adăugarea de baze degenerate la stocarea datelor pe bază de ADN

mare

Stocarea de date bazată pe ADN, cu adăugarea de baze degenerate, permite o creștere a capacității informaționale. (A) Datele binare sunt codificate în secvențe de ADN care cuprind nu numai cele 4 caractere tradiționale de codificare A, C, G și T, ci și 11 baze degenerate suplimentare. Lungimea ADN-ului codificat este mai mică decât cea a metodei de codificare cu patru caractere. () Limita de capacitate a informațiilor teoretice este, prin urmare, mărită de la 2 biți/caracter la 3,9 biți/caracter. Punctele din grafic descriu valorile capacității informaționale din cercetările anterioare, iar numerele indică referința corespunzătoare. (C) O bază degenerată reprezentată de un caracter de codificare descrie un bazin mixt de mai mult de două tipuri de nucleotide. (D) Bazele degenerate pot fi generate prin amestecarea fosforamiditelor ADN în timpul sintezei.

Structura și rezultatul decodării platformei de stocare a datelor pe bază de ADN

Structura și rezultatul decodării platformei de stocare a datelor pe bază de ADN. Am obținut cea mai mare capacitate informațională și densitatea fizică a stocării datelor bazate pe ADN. (A) Structura de proiectare a fragmentelor de ADN. () Fragmentele de ADN pot fi analizate folosind NGS. După clasificare după adresă, bazele degenerate pot fi decodificate examinând distribuția caracterelor în aceeași poziție (bara galbenă). (C) Bazele degenerate pot fi determinate din graficul de dispersie al raportului bazelor în aceeași poziție. (D) Rata de eroare a bazelor de ADN determinate în acoperirea medie specifică a fragmentelor totale. Abaterile standard (s.d.) au fost obținute prin repetarea eșantionării aleatorii de 10 ori. Barele de eroare reprezintă s.d. (E) Rezumatul rezultatelor experimentale. Capacitatea informațională este calculată din informațiile de intrare în biți împărțite la numărul de caractere de codificare (exclusiv cea a site-urilor adaptorului). Am comparat rezultatele muncii noastre cu cele ale lui Erlich și Zielinski 10, care au raportat anterior cea mai mare capacitate informațională și densitate fizică folosind sinteza oligo cumulată și date de secvențializare de mare viteză. Densitatea fizică este raportul dintre numărul de octeți codificați și greutatea bibliotecii ADN utilizate pentru a decoda informațiile.

Verificarea și proiecția costurilor platformei propuse prin simulare

0,05 $/100 nt, Notă suplimentară) 22 utilizând sintetizator bazin oligonucleotidic pe bază de jet de cerneală. Mai mult, din moment ce costul secvențierii ADN-ului scade mai repede decât legea lui Moore și mai rapid decât cel al sintezei ADN-ului, diferența de preț dintre secvențierea și sinteza va crește în ordine, dacă tendința actuală continuă cu 1,23. Când se aplică acest cost, chiar dacă platforma propusă are 2000x acoperire NGS ca caz extrem, costul citirii datelor va fi mai mic de 5% din costul de scriere și mai mic de 0,5%, ceea ce va fi neglijabil, în cinci ani (Fig. 3B). Presupunând că sintetizatorul oligonucleotidic pe bază de jet de cerneală este setat pentru sinteza degenerată a bazei, sa estimat că platforma propusă reduce costul stocării datelor pe bază de ADN la 2052 USD/1 MB când se utilizează 15 caractere de codificare și 1795 USD/1 MB când se utilizează 21 de caractere de codificare, care reprezintă aproximativ 50% din minimul anterior de 3555 USD/1 MB 10 (Fig. 3B, Notă suplimentară).

Discuţie

În această demonstrație, utilizând baze degenerate, capacitatea informațională și densitatea fizică au fost mai mult decât dublate comparativ cu cele ale platformelor de stocare a datelor raportate anterior pe bază de ADN. În special, pe măsură ce crește capacitatea informațională, platforma scurtează lungimea ADN-ului necesar pentru a stoca o cantitate echivalentă de date și reduce costul total al stocării datelor la jumătate. Densitatea fizică va fi crescută empiric în cercetările viitoare și vor fi urmate studii care împing limita superioară a densității fizice. De asemenea, metoda introdusă reduce timpul de sinteză, dacă este disponibil un sistem de sinteză adecvat. De exemplu, tehnica de sintetizare a oligonucleotidelor pe coloană care folosește etapele de spălare, deprotejare, care crește proporțional cu lungimea oligonucleotidelor care urmează a fi sintetizate. Deoarece putem scurta lungimea sintezei pentru stocarea aceleiași cantități de date, timpul de sinteză va fi redus.