Supercomputer sætter turbo på genforskning
Supercomputeren Computerome regnede på et stort datasæt i ti dage, hvorefter den afleverede resultatet. Forsker Bent Petersen tænkte, at der måtte være sket en fejl. Han var vant til, at det tog tre-fire uger for den computer, han normalt anvendte, at foretage tilsvarende beregninger.
”Men dataene var gode nok. Computerome er bare så meget hurtigere. Tidligere kunne jeg kun køre to beregningsopgaver ad gangen, fordi hver opgave kræver store mængder RAM, og de tog tre-fire uger hver. Computerome kan håndtere 27 af disse RAM-krævende opgaver sideløbende, og de er færdige efter ti dage,” fortæller Bent Petersen.
Han er lektor ved Institut for Systembiologi på DTU, hvor han forsker i bioinformatik. Her var han en af de første testbrugere af Computerome, Det nationale LifeScience HPC og Datacenter ved DTU på Risø.
Gennem to måneder tyggede Computerome sig gennem data om generne for 150 danskere. Det skete som led i projektet Danskernes Arvemasse under GenomeDenmark. Projektet kortlægger danskernes genomer. Viden fra projektet kan i fremtiden bruges til at udvikle individuelle behandlingsmetoder til patienter.
”Uden Computerome ville opgaven have taget flere år på vores tidligere systemer. Nu går beregningerne så hurtigt, at vi har tid til at køre alle dataene igennem processen en gang til for at få endnu mere præcise resultater,” siger Bent Petersen.
Gigantisk puslespil
Han anvender Computerome til at samle et kolossalt puslespil. Et DNA-molekyle er en meget lang sekvens af såkaldte nukleotider. Der kan være flere milliarder nukleotider i et genom. Men laboratorieudstyret kan ikke bearbejde så lange strenge, så de bliver delt op i kortere dele.
Bent Petersen modtager data om indholdet af disse mange delstrenge, der kaldes reads. Så er det hans opgave at finde ud af, hvordan de skal sættes sammen igen. Til det formål bruger han programmet ALLPATHS-LG, der kører under Linux på supercomputeren.
”Dataene for en enkelt person i forsøget fylder knap 300 GB. Programmet har brug for en terabyte RAM til at behandle dem. Det passer Computerome fint til, da en del af supercomputeren har en terabyte RAM per processorenhed. Ydermere var det ikke noget problem pladsmæssigt, at vi i testperioden genererede mere end 600 terabyte data på disk,” fortæller han.
Selvom Computerome fysisk befinder sig i et par containere hos DTU i Risø, flytter Bent Petersen sig ikke fra sin stol på campus i Lyngby. Herfra har han via forskningsnettet direkte adgang til supercomputeren i Risø. Det tager kun et par timer at overføre de 300 GB data til den. Derefter starter han programmet, der går i gang med at sætte DNA-strengene sammen.
Fra Danmark til Brasilien
Bent Petersen har erfaret, at adgangen til Computerome er med til at gøre danske forskere interessante som samarbejdspartnere for udenlandske universiteter.
”Jeg fortalte om Computerome på en forskerkonference i Brasilien. Det vakte deres interesse, fordi de ikke selv har en så stærk computer. Nu er vi gået i gang med et fælles forskningsprojekt, hvor dataene skal behandles på Computerome,” fortæller han.
Projektet udføres i samarbejde med forskningsstiftelsen Fiocruz ved Belo Horizonte. Det handler om bakterier og andre former for liv, der findes i saltsøer i Brasilien. Søerne fyldes med havvand, der fordamper. Når en vis mængde er fordampet, ledes vandet til en ny sø, hvor mere vand fordamper. Til sidst ligger det i en sø med en saltkoncentration på 37 procent.
”Det er spændende at finde ud af, hvilke bakterier og svampe der lever der. Dem skal vi identificere ved hjælp af DNA-analyser, som kører på Computerome,” siger Bent Petersen.
Han har selv været ude ved saltsøerne og indsamle vandprøver sammen med sine lokale samarbejdspartnere. Når prøverne har været gennem laboratoriet, skal Computerome bearbejde dataene og finde ud af, hvilke mikroorganismer der er tale om.
Senere regner han med at udføre beregninger for andre projekter fra Brasilien på supercomputeren.
Han mener, at det var afgørende for hans deltagelse, at han kunne tilbyde en så stærk computerressource til projektet.
Optimeret til life-science
Bent Petersen fremhæver en række fordele ved Computerome:
”Systemet er optimeret til life-science. Det bygger på al den viden, vi har opbygget gennem årene. Det er et balanceret system uden flaskehalse, og det er hurtigt. Hastigheden medfører, at vi kan bruge bedre, men mere krævende algoritmer end vi før havde mulighed for. Og så har Computerome mange processorer og diskplads. Alt dette til sammen gør, at vi bliver interessante som samarbejdspartnere, både i Danmark og internationalt”, siger han.
Denne nyhed er en udvidet udgave af en artikel fra DeiC Årsrapport 2014.
Læs mere
DeiC Nationale LifeScience Supercomputer, DTU
Center for Biological Sequence Analysis, DTU
DeiC Årsrapport 2014 (PDF-format)
Computerome |
---|
|