Kan man skrive sonetter i DNA?

Du står med Shakespeares samlede sonetter, en videnskabelig artikel i PDF-format, et JPEG-farvebillede i mellemhøj opløsning og en 26 sekunders MP3-file af Martin Luther Kings “I have a dream” tale fra 1963 og du skal sende dem til en kollega på den anden side af jorden.
Udfordring: det skal sendes med posten, men det må ikke veje mere end ét gram!
Hvad gør du? Kender du et eksempel på enorme mængder data opbevaret på uendelig lille plads? Nej? Hint: hver eneste celle i din krop!
Svaret er DNA!
På elegant vis har bioinformatikere fra European Bioinformatics Institute gjort præcis ovenstående. Først konverterede de tekst og binærfiler til en ternær (tretalssystem) kode bestående af trits (lige som en binær kode, der består af bits). Hver trit blev efterfølgende oversat til DNA vha af en kode, der naturligvis tog højde for trit’ens værdi, men også det forrige bogstav i koden. Således kunne man undgå sekvenser af ens bogstaver i DNA-koden, da disse kan være svære at sekventere. Herunder har jeg lige forsøgt at oversætte teksten “Medicinsk Museion” til DNA:

Original tekst: Medicinsk Museion
Ternær kode: 20121 01121 12202 01222 11101 10020 01201 22211 22210 01111 21111 10120 00021 01112 11120 12212 00121
DNA kode: TAGCTAGATCT… (er naturligvis meget længere men jeg orkede ikke lige oversætte mere)

Fra denne kode blev så lavet 100-bogstav-lange sekvenser for hvert 25. bogstav. Det vil sige at to på hinanden følgende sekvenser overlapper med 75 bogstaver. I enden af hver sekvens tilføjede man en kode, der angav hvor i den samlede kode sekvensen hørte til. Det resulterede i over 150.000 DNA-sekvenser, der var var 117 bogstaver lange. Disse blev syntetiseret i stor stil, således at man tilsidst havde ca. tolv millioner kopier af hver sekvens. I alt omkring to billioner DNA molekyler! Men heldigvis fylder sådanne molekyler ikke særligt meget. Så som pulver kunne DNA’et sendes med posten fra ét laboratorium til et andet, hvor DNA-sekvensen blev bestemt og dekodet tilbage til ternær kode og endelig de originale data!
Meningen med disse forsøg er naturligvis ikke at spare porte ved at sende sonetter og billeder i form at DNA-pulver. Det handler derimod om at finde ny og billig måde at opbevare og arkivere store mængder data på. Man estimerer at der i dag findes ca. 3 zettabyte data i hele verden. Harddisken i min computer er på 500 gigabyte. Jeg skulle altså bruge omkring 6,5 milliarder harddisk af den størrelse!
Data i form af tekst, billeder, lyd, video, osv. bliver produceret hele tiden og vi har svært ved at følge med pladsmæssigt. Når data ikke længere er decideret relevant, har vi ofte stadig brug for at arkivere det til senere brug. Nutidens medier i form af harddiske, dvd’er, osv. holder ikke evigt. Mange medier kræver også strøm for at ikke miste data.
Her kommer DNA ind i billedet som en mulig arkiveringsmedie. Det er for det første småt og vejer (stort set) ingenting. Det kræver ingen strøm. Og sålænge man er i stand til at opbevare det nogenlunde tørt, mørkt og køligt, kan det forblive stabilt og dermed bevare data i hundrede- og endda tusindvis af år. Tænk for eksempel på DNA-sekvenser som man har trukket ud af 4000 år gamle hårbolde fundet i den Grønlandske indlandsis.
Prisen er dog stadig en temmelig stor forhindring. At syntetisere og sekventere DNA er stadig forholdsvist dyrt. Men hvis udviklingen i DNA-teknologi følger de nuværende trends, kan man forestille sig at denne metode allerede kan vise sig praktisk anvendelig inden for et årti.