Datamanagement diskussionsoplæg

Et af DeiCs strategiske mål er at skabe sammenhæng og synergi mellem danske forskningsinstitutioners aktiviteter på e-Infrastrukturområdet. I den forbindelse foreslår DeiC’s bestyrelse at der udarbejdes en National Strategi for Datamanagement – her defineret som aktiviteter, der sikrer at forskningsdata bekvemt kan tilgås, deles, arkiveres, genfindes og forstås længe efter de blev skabt.

DeiC har derfor indbudt universiteter og forskningsinstituttioner til et samarbejde om at udvikle en National Strategi for Datamanagement. Mødet afholdes den 28. juni 2013.

Nedenfor gengives et diskussionsoplæg som DeiC finder kan indramme problemstillingen og fungere som afsæt for arbejdet med at udarbejde startegien. I oplægget gennemgås det, der ses som en række nationale udfordringer på datamanagement området, og der peges på forskellige mulige samarbejdsformer og tilgange til at imødegå disse udfordringer.

DeiC vil gerne være facillitator for processen, og har budgetafsat DKK 10 millioner til opfølgning på strategien, i den udstrækning man nationalt kan opnår enighed om en fælles strategi og de øvrige interessenter også vil medfinansiere en opfølgning.

Udfordringen

Forskningsdata viser store vækstrater. Forskningsmæssigt og revisionsmæssigt er de økonomiske aktiver, institutionerne er forpligtede på at registrere og håndtere forsvarligt. Udfordringen katalyseres af EU’s Horizon2020, Open Access politikker og udenlandske bevillingsorganer, som kræver datamanagementplaner – og i visse tilfælde understøttelse af datacitering, der spås at drive den næste store udvikling indenfor forskningsbibliometri.

Værdien af forskningsdata øges signifikant, når de er ”forvaltede, forbundne, søgbare og genbrugbare” – og når de muliggør nye typer af forskning, hvor enorme datasæt genbruges (”det 4. forskningsparadigme”).

Undtagen for de store, internationale datadrevne forskningskonsortier med egne integrerede datamanage-mentløsninger, og de fagområder, der kan benytte sig af Dansk Data Arkiv, så ligger ansvaret for de danske forskeres data på institutniveau. Det betyder, at mange forskere deponerer data enten på lokale harddrives, IT-afdelingernes netværksdrev eller på kommercielle cloudtjenster for i projektperioden at dele dem med kolleger fra andre universiteter. Resultatet er, at data lever en isoleret og ikke fremtidssikret tilværelse: De er ikke linket til forskere, projekter og publikationer, svære at genfinde og eventuelt genbruge over tid (ingen langtidsbevaringsaktiviteter). Potentielle effekter af god dataforvaltning mistes, og institutionerne er udfordrede på datasikkerheden, når data ligger på lokale harddrives og i kommercielle skyløsninger udenfor deres kontrol.

Det er DeiC’s opfattelse at datamanagement er en national udfordring, som fordrer samarbejde og institutionel arbejdsdeling omkring løsninger.

Interessenterne

Interessentkriteriet vurderes at være aktører på området datalagring og forskningsinfrastruktur, hvor nøgleordene er forskning og infrastruktur. DeiC ser fire hovedinteressenter: Universiteterne (forskerne og de centrale IT-afdelinger); Forskningsbibliotekerne; Arkiverne; Bevilligende organer (fx forskningsrådene).

Interessenternes mulige behov

Interessentkriteriet afstedkommer en mængde mulige ”behov” hvor det vurderes at være et nationalstrategisk spørgsmål, hvilket behov der er de mest presserende, og mest egnet til at blive imødegået gennem samarbejde og arbejdsdeling. DeiC finder at behovene indledningsvis kort kan sammenfattes som nedenfor

A. Integration med eksisterende systemer og andre institutioner

Datamanagement er på universitetsledelsernes dagsorden af politiske, forskningsetiske, økonomiske og teknologiske grunde. Politisk er der behov for at understøtte forskningen i bredden ligesom indenfor Open Access, og bidrage til realiseringen af visionen om ”open government”. Forskningsetisk er en væsentlig drivkraft kravet om videnskabelig redelighed. Økonomisk er data offentligt genererede værdier som institutionerne skal dokumentere forvaltes så optimalt og ansvarligt som muligt ift. ophavs-, register- og persondatalovgivning. Samtidig rummer formidlingen af forskningsdata mulighed for international impact – for at vise den enkelte institutions formåen og attraktive forskningsmiljø.

Behovet set fra universitetsledelserne er tekniske løsninger og støttefunktioner, som

  • er kosteffektive og sikre
  • integrerer med forskningsregistrerings- og økonomisystemer oa. systemer
  • muliggør dokumentation og håndtering af aftaleforhold omkring data
  • understøtter tværinstitutionelle forskningssamarbejder

B. Fleksibel selvbetjent storage- og backup i skyen

For forskerne er datamanagement undervejs i forskningsprojektperioden henholdsvis efter publicering to distinkt forskellige størrelser. De er primært interesserede i storage og backup services, der understøtter deres dag-til-dag aktiviteter, dvs. fleksible og tilpasset det disciplin-/projektspecifikke workflow og evt. computingbehov i projektperioden. Langtidsbevaring ser de sjældent som deres ansvar eller som noget de ønsker at investere tid i. Incitamentsstrukturer (fx datacitation) mangler, og barrieren for selv at tilvejebringe en løsning er høj. Forskningsdata og -resultater er tilmed til tider ”forretningshemmeligheder” – enten helt konkret, pga. personhenførbare data eller fordi forskerne ikke ønsker at udsætte sig for ”kollegial konkurrence” (før publicering). Specielt i projektperioden har forskerne således et stort behov for at have kontrol over, hvad der sker med deres data og hvem der har adgang til dem. Udbredt brug af kommercielle infrastruktur services som Dropbox og andre storageservices i skyen indikerer dog, at forskerne ofte afvejer behovet for sikkerhed og kontrol ift. behovet for services der er tilgængelige, ubureaukratiske, brugervenlige, tilbyder meget funktionalitet og integrerer godt med allehånde devices.

I projektperioden er kodeordene: Bearbejde, sikre og dele. Infrastrukturbehovene er væsentligst:

  • selfservice via web interface med mulighed for provisionering af lagerplads, administration og adgangsstyring på filer og directories
  • datalager med backup, valgfri replikering, versionering, arkivering, tagging på fil og directory niveau (metadata) og adgang fra applikationer og virtuelle maskiner
  • overførsel af store filer (non-web) med upload/download resume, no-expiration, synkronisering
  • device- og lokalitetsuafhængig adgang

C. Sikre, tilgængelige og brugervenlige tjenester

Forskerne har stadig større behov for at arbejde på flere typer udstyr – PC, tablets, smartphones etc. – og for at tilgå og dele data med kolleger på andre institutioner i ind- og udland – noget der er vanskeligt, hvis det overhovedet lader sig gøre med IT-afdelingernes standard netværksdrev. Der synes således at være et gab mellem forskernes forventninger og de services IT-afdelingerne tilbyder. Når forskerne som følge heraf vælger de kommercielle cloudløsninger, er IT-afdelingerne derfor udfordret både på eksistensberettigelsen og den datasikkerhed, de har medansvar for at løfte på vegne af universitetet.

IT-afdelingerne har således brug for at modernisere og udvide servicekataloget med skyløsninger, der

  • tillader samarbejde på tværs af institutioner og på mange forskellige typer udstyr
  • fokuserer på aktive data
  • er sikre, tilgængelige og brugervenlige

D. Berigelse, organisering og formidling

Universiteterne synes i stigende grad at efterspørge bibliotekariske specialkompetencer indenfor bibliometri, videnskabelig dokumentation, digital publicering, opbevaring og formidling af forsknings-resultater gennem registrering (PURE) og berigelse vha. metadata mhp. genfinding (ressource discovery). Samtidig er samlingerne efterhånden helt digitaliserede – og formidles online direkte til brugerne.

Bibliotekerne synes derfor at have behov for at redefinere forskningsbiblioteksfunktionerne, og opruster på forskerservice-fronten, med konkret udvikling af services indenfor dataopbevaring (Dataverse), datahånd-tering (DataCite) og datapublicering (OpenJournalSystem). Tilsvarende overvejes tiltag indenfor metadata-integration (integration af datasæt mhp. genbrug af data), datamining, rådgiving ift. datamanagement planning og ophavsret (Aarhus University Library-rapporten). Det Kongelige Bibliotek og Statsbiblioteket qua deres nationalbiblioteksfunktioner ekspertise i langtidsbevaring og lagring af store datamængder.

Bibliotekerne vurderes således til både at have interesse og kompetence til at være med til at designe systemer til at berige, organisere og formidle forskningsdata, samt til at betjene systemerne og vejlede brugere i at anvende dem og undervise i udarbejdelse af datamangementplaner.

E. Langtidsbevaring og sømløs integration mellem lager og arkiv

Dansk Data Arkiv (DDA) under Statens Arkiver er eneste nationale serviceorgan, som bevarer og formidler forskningsdata til brug for sekundær analyse, og kun for de samfundsbeskrivende videnskaber (sundheds- og socialvidenskaberne, historie etc). Kun en lille delmængde af de data, disciplinerne genererer, ender i DDA – datasættene tælles i få tusinde, der ofte inddrives med betydelig indsats fra arkivets side.

Behovet syntes her at være en infrastruktur, som gør det nemmere for forskerne at deponere og dokumentere deres resultater, bl.a. med

  • sømløs integration mellem lagerløsningen og arkivet
  • overholdelse af nødvendige compliancestandarder
  • garanteret opbevaring over en årrække (DOI kræver minimum 10 år)
  • effektiv adgangsstyring (internationale autentifikations- og autorisationsinfrastrukturer)
  • værktøjer til dataintegration

F. Bevaring og dokumentation af software

For forskningsrådene er bevaringen og sikringen af de rå forskningsdata primært væsentlig af hensyn til at sikre sporbarhed og reproducerbarhed af forskningsresultaterne. Det kræver infrastruktur, der understøtter

  • bevaring og dokumentation af evt. software, der er brugt til behandling af forskningsdata.
  • nyttiggørelse af forskningsdata og resultater, dog med mulighed for en karantæneperiode af hensyn til forskernes muligheder for selv at arbejde videre med materialet, inden det tilgængeliggøres for en bredere kreds.

Klarhed om ejerskabsforhold vurderes at være vigtigt for rådene, hvilket forudsætteret koordineret tiltag indenfor datamanagement. Det Frie Forskningsråd udtaler, at ”dataarkiver bør være nationale eller internationale, ikke institutionsspecifikke. De nylige fusioner, opsplitninger og nedlæggelser af universitets-institutter m.v. viser, at infrastrukturen på de enkelte universiteter er relativt kortlivet og uegnet til langsigtet bevaring af forskningsdata.” (DEFF-rapporten ”Forvaltning af forskningsdata i Danmark”).

Mulige samarbejdsformer

DeiC ser forskellige mulige tilgange til at imødekomme de identificerede behov, og spørgsmålet er således hvorledes interessenterne løfter datamanagementudfordringen.

A. Outsourcing – kommercielle cloud storage tjenester

Her er innovationspres og drift løftet over på leverandørerne. Væsentlige udfordringer ved tjenesterne:

  • De kan kun bruges som endestation ift. datas livscyklus, idet de – bortset fra Google og Amazon – ikke tillader behandling af data.
  • Båndbredden pt. er begrænset, dvs. de er ikke relevante for forskningsdata over nogle få gigabytes
  • Uklar geografiske placering af data. Dette har juridiske implikationer jf. EU databeskyttelses-direktivets forbud mod oversøisk dataeksport undtagen for leverandører, som frivilligt underordner sig direktivets Safe Harbour principper. USA-registrede selskaber er imidlertid underlagt den såkaldte ”Patriot Act”, som gør at amerikanske myndigheder kan forlange data udleveret uden dataejers samtykke og vidende. Safe Harbour kravet kan derfor ikke overholdes af amerikanske tjenester.
  • Brugsregler kan i mange tilfælde ændres ensidigt af leverandøren, hvilket ikke er i overens-stemmelse med EU-reglerne.
  • I de tilfælde, hvor tjenesteudbyderen benytter sig af underleverandører øges risikoen for uklare ansvars- og ejeskabsforhold.
  • ”Vendor lock-in” som følge af leverandører, der benytter sig af proprietærer standarder og dataformater er en potentiel risiko med høje exit-omkostninger til følge. Migrerings-muligheder skal være tilstrækkeligt sikret i tilfælde af, at tjenesten ophører.
  • Mulighed for integration med autentifikations- og autorisationsinfrastrukturer er ikke givent.

Antages outsourcing/anvendelsen af public clouds udenom universitetet til lagring af forskningsdata at være uacceptabelt af flere af ovenstående grunde, efterlader det følgende muligheder:

B. DIY (Do It Yourself) – private cloud

Hvert universitet – alternativt et eller flere konsortier – udvikler egne løsninger evt. i form af en privat cloud. Uanset om der satses på enterprise storage eller open-source software-alternativer, er det et dyrt valg på alle parametre: Udvikling, drift og vedligehold. Enterprisemodellen er dyr i hard-ware, dvs. der er høje etablerings- og skaleringsomkostninger. Open-source-modellen kræver in-house kompetencer og dedikerede ressourcer (kompetente software udvikler årsværk) til drift og vedligehold. Det sidste gælder også enterprisemodellen, der dog levere kompetencen gennem konsulenttimer. Stadige krav om udvikling af nye/tidssvarende funktioner og overholdelse af compliancekrav er en udfordring. På plussiden tæller, at den enkelte institution har fuld kontrol over deres data, og at løsningerne tager udgangspunkt i lokale og eventuelt særlige forhold og behov.

C. Brokerage

Efter engelsk forbillede (Janet Brokerage) påtager DeiC sig at sikkerhedsvurdere og forhandle med kommercielle leverandører på vegne af hele sektoren mhp. at tilbyde et antal trusted storage services, hvor fælles behov, sikkerhed og skalerbarhed er i fokus.

D. Community cloud

De danske interessenter påtager sig at udvikle og drifte en storageløsning, evt. hos en eller flere enkeltinteressenter, på vegne af nationen. Det vil næppe være muligt at konkurrere på pris/storskalaøkonomi. Til gengæld vil der ingen afhængighed være af eksterne leverandører, og det faktum at interessenterne kontrollerer netværksinfrastrukturen kan udnyttes – data kan flyttes uden udgift (specielt interessant i de tilfælde, hvor der ligger computing applikationer ovenpå storage) og data behøver ikke bevæge sig udenfor den danske netværksinfrastruktur. Sikkerhedsinfrastrukturen

E. Partnere i et open-source udviklingsprojekt

Universiteterne går sammen i et nationalt konsortium eller slutter sig til et allerede eksisterende internationalt konsortium for at drage nytte af allerede genererede erfaringer. Her er ingen eller få initialomkostninger ift. indkøb, ligesom skaleringsomkostningerne må forventes at være lavest mulige. Til gengæld kræver det at det enkelte universitet stiller dedikerede udviklerressourcer til rådighed, eller finansiering hertil, i projektperioden, og ifm. efterfølgende drift også har fokus på fastholdelse af in-house kompetencer.

DeiCs forslag til videre proces

DeiC foreslår en strategiproces med følgende aktiviteter:

  1. fælles interessentmøde med DeiC som vært, hvor struktur og indholdspunkter på strategidokument fastlægges
  2. udarbejdelse af udkast til strategi (DeiC)
  3. evt. individuelle opklarende møder mellem interessenter og DeiC
  4. høring af strategiudkast
  5. fælles beslutningsmøde blandt interessenterne, mhp. godkendelse af endeligt strategiudkast
  6. strategi sendes til godkendelse blandt interessenter og evt. Ministeriet for Forskning, Innovation og Videregående Uddannelse.

Kontakt

Kontakt Chef for Internationale Relationer Rene Belsø (belso@deic.dk) eller projektleder Diba Markus (diba.markus@deic.dk) for at høre mere om aktiviteterne omkring en nationalt strategi for datamanagement. 

Revideret 11/06/13

Relaterede nyheder

Relateret indhold