Tutkimusdatan hallinnan tuskaa

16.2.2014 klo 18.27, kirjoittaja
Kategoriat: Taivas takapihalla , Yleinen avaruushäröily

Pöyhin työkseni suuria määriä arkistoitua dataa. Siis sellaisia määriä, että keskivertokansalaisen musiikki- ja videokokoelmat kalpenevat prosessointia vaativien tietovirtojen rinnalla.

Suurten massojen hallinta ei ole helppoa. Tämä näkyy erityisesti avaruusmissioissa, joiden lopputuloksena syntyy satoja givatavuja dataa. Sen tallentamiseen tarvitaan jo valtava kasa tavalliselle tallaajalle myynnissäolevia kovalevyjä.

Tiedonhallinnan kokonaisvaikeus näkyy myös tieteellisissä julkaisuissa. Nykypäivänä tähtitieteen julkaisu saattaa sisältää itse tekstin lisäksi linkkejä tutkimuksessa käytettyihin tietomassoihin tai ohjelmistoihin. Liitteet voivat olla koodinpätkiä, asennuspaketteja, raakadataa tai laskentojen välituloksia.

Astrofyysikko August Muench kertoo tähtitieteellisen tutkimusmateriaalin kärsivän kadonneen datan ongelmasta. Monille nettisivuille tyypilliseen tapaan myös tieteellisten artikkelien linkit ovat usein rikki. Muenchin mukaan muutaman vuoden jälkeen noin 40% julkaisujen linkeistä ei enää toimi koska sisältö on ehtinyt kadota alkuperäisestä tallennuspaikastaan. Tästä syystä tutkijoiden tulisi kiinnittää enemmän huomiota siihen miten ja minne julkaisuissa viitattuja tietoja tallennetaan.

Tyypillisessä katoamistilanteessa tiedostot on saatettu siirtää tai tutkijan käyttäjätunnus on vanhentunut. Kaikkein pahimpia ovat Muenchin mukaan kokonaisten organisaatioiden verkkosivujen huolimattomat uudistukset: niissä suuri määrä sisältöä siirtyy kerralla toiseen paikkaan jättäen taakseen rikkinäisten linkkien kokoelman.

Miksei tutkimusdatan hallinta sitten ole järjestetty keskitetymmin? Miksi tiedot ovat niin hajallaan eri tavoin tallennettuna? Muenchin mukaan on ollut puhetta yhtenäisen tietovaraston tarpeesta, mutta toistaiseksi hanke on aina kaatunut rahoituksen puutteeseen. Toinen kehitystä jarruttava syy on se, että tutkimusorganisaatioissa ollaan keskimäärin aika tyytyväisiä organisaatioiden omiin, hajallaan oleviin tallennusjärjestelmiin. Muutoksen tekeminen on vaikeaa.

Silti ongelma säilyy: jos haluaisit käydä pöyhimässä kollegan tutkimustuloksia, et välttämättä enää löydä niitä. Yksi avoimen tieteen (open science) kulma-ajatuksista on tarjota dataa kaikille kiinnostuneille. Iso osa tähtitieteen tutkimuksesta tehdään julkisella rahoituksella. Monen mielestä verorahoilla maksetun tutkimustyön tulokset ja pohjadata pitäisi olla rahoittavan yhteisön saatavilla.  Elleivät tutkimustiedon tallennus- ja jakomenetelmät ole kunnossa, avoimuusperiaate jää pakostakin osittain puheen asteelle.

Julkaisu tulossa? Kiehtooko tutkimusdatan pöyhintä? Haluatko jakaa tiedostoja kollegan kanssa? Vilkaise Zenodoa ja Figsharea. Moderni tutkijakin luottaa pilveen!

Yksi kommentti “Tutkimusdatan hallinnan tuskaa”

  1. Lasse Reunanen sanoo:

    Tutkimusdata tiivistetysti linkitettynä hyödyllistä, mutta usea verkkotaho pyrkii samalla keksimään keinoja rahastaa kansalaisilta tiedostoillaan. Yhteinen Yleisradiomme uudisti viimeksi runsas viikko sitten verkkosivunsa, joista samalla poistui runsas määrä entisiä hyödyllisiä linkkejä ja yhteystiedostoja (joitakin harvoja sivustojaan Yle vintti-sivuilleen arkistoinut sekalinkkeinä). Jokaisen lienee siis yhä tarpeellista ottaa omiakin kopioita ja tiedostojaan kerätä (vaikka laki toisaalta yhä myös kieltää tiedostoja keräämästä).

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *