Valeuutisia avoimella tieteellä?

Avoimuus on saapunut ryminällä tieteen käytäntöihin. Ei puhuta vain avoimesta julkaisemisesta vaan myös esimerkiksi avoimista aineistoista, avoimista ohjelmistoista, avoimesta lähdekoodista, avoimista analyysikoodeista, avoimesta vertaisarvioinnista, avoimesta opetuksesta ja avoimesta yhteistyöstä. Avoimuudella on kiistattomia etuja ja niistä on kirjoitettu paljon. Kaikessa lyhykäisyydessään tutkimusprosessin tietyistä osista on saatu aidosti toistettavia siten, että periaatteessa kuka tahansa voi niitä tarkastella.

Pyrkimys avoimuuteen teettää toki pientä lisätyötä tutkijoille, mutta päivittämällä omia toimintatapoja ja -käytäntöjä avoimuutta tukeviksi tutkimusprosessin joka vaiheen osalta kyseessä on loppujen lopuksi pienestä asiasta – ainakin verrattuna siihen, että avoimuuteen herättäisiin vasta loppumetreillä. Avoimuus ja toistettavuus vaatii systemaattisuutta ja jatkuvaa omaa työskentelyä tukevaa dokumentointia eli vaikkapa aineistojen analysoinnin osalta on vaivan väärti kirjoittaa analyysikoodit sillä tavalla, että kaikki voidaan tehdä helposti uudestaan, vaikka aineisto syystä tai toisesta päivittyisi. Aineistojen virheitäkään ei kannata alkaa korjailemaan manuaalisella editoinnilla vaan niin, että korjauksesta jää toistettavuuden mahdollistama muistijälki.

Käytännössä jokaisessa tutkimuksessa aineistosta syntyy tutkimusprosessin aikana lukuisia versioita ja versionhallinta onkin oma taiteenlajinsa varsinkin, jos kyse on useamman henkilön tutkimusryhmästä, jossa aineistosta syntyy useita kopioita, jotka kaikki jalostuvat omalla tavallaan eteenpäin, kun aineiston analyysit keskittyvät ehkä hiukan eri osiin aineistoa tutkimuskysymysten mukaisesti. Hyväksi käytännöksi on osoittautunut muun muassa edellytys opinnäytetyöntekijöille antaa analyysikoodinsa pelkkien alustavien tulosten lisäksi ohjauspalaverien taustamateriaaliksi, jolloin toistettavuus säilyy ainakin tutkimusryhmän sisällä.

Yleensä tutkimusten aineistot avataan alkuperäisen tutkimusryhmän ulkopuoliselle käytölle vasta sen jälkeen, kun tutkimuksen primaarivaihe on päättynyt. Tällöin julkaistavaksi dataksi päätyy viimeisin siivottu versio aineistosta. Hyvä sinänsä niin, mutta toisaalta samalla siinä menetetään aimo annos tutkimuksen osalta kriittistä ymmärryksen kehittymistä, kun iso osa dataan liittyneistä tunnistetuista ongelmista on jo jotenkin ratkaistu, mutta ratkaisun avaimet samalla lakaistu maton alle.

Tässä piilee yksi avoimen datan suurista haasteista. Datasta tulee toisiokäytettävää ja käyttäjällä ei oikein ole muuta mahdollisuutta kuin luottaa datan tuottajan tarjoamaan dokumentaatioon ja metadataan. Tietosuojan takaamiseksi aineistoa on ehkä lisäksi karkeistettu tai muuten sotkettu siten, että vaikka sillä saadaan periaatteessa analyysikoodit toistettua samansuuntaisin tuloksin kuin alkuperäisjulkaisuissa, niin data ei oikein kelpaa mihinkään muuhun. Miten voidaan taata, että datan tarjoajalla on varmasti puhtaat jauhot pussissa eikä dataa ole hiukan hiottu pahimpien rosojen tasoittamiseksi tai jopa suuremmassa määrin fabrikoitu tarjoajan tarkoitusperiä vastaavaksi?

Toki epäily tehtailluista aineistoista on aika kyynistä ja datan saattaminen avoimeksi on kyllä paljon parempi vaihtoehto kuin sen piilottaminen, jolloin voisi epäillä, että koko aineistoa ei edes ole lähtökohtaisesti ollut tai että sen analyysissa on otettu omia päämääriä tukevia vapausasteita. Eli aineiston ja analyysikoodien avoin julkaiseminen on iso askel hyvään suuntaan.

Nykyisten valeuutisten aikakautena on kuitenkin mahdollista nähdä avoimuudessa myös uhkia. Avoin aineisto ja analyysikoodi mahdollistaa periaatteellisen analyysiprosessin toiston kenen tahansa toimesta, jolla on edes hiukan teknistä osaamista käyttää tarvittavia työkaluja. Toisin sanoen analyysin toistajalta voi puuttua tutkijan ammattitaito tehdä kriittisiä tulkintoja asioista. Omaa etuaan ajava valeuutisten tehtailija voi avoimien datojen ja analyysikoodien avulla ehkä hiukan käytettäviä muuttujia ja aineiston rajauksia vaihtamalla tuottaa ”vaihtoehtoisia” tuloksia, joita kuka tahansa tutkijan koulutuksen saanut itse vastaavat tulokset saatuaan epäilisi ja suhtautuisi niihin erittäin kriittisesti.

Asiat menevät kuitenkin ongelmalliseksi, kun päättömät tulokset sinänsä voivat näyttää oikein ja huolellisesti saavutetuilta, kun niiden pohjana on ihan oikean ja kunnolla tehdyn tutkimuksen aineisto ja analyysikoodit. Voi nimittäin olla todella vaikeaa enää erottaa, että mikä on päätöntä ja mikä ei, jos koko prosessi näyttää oikealta tutkimukselta.

Pitäisikö tutkimusyhteisön olla huolissaan siitä, että tieteellisen tiedon erikoislaatuisuuden arvostus voi tämän takia kärsiä rajusti ja heikentää ylipäätään ymmärrystä tieteellisen tutkimuksen tarpeesta?

Reijo Sund

Rekisteritutkimuksen professori

Terveystieteiden tiedekunta

Itä-Suomen yliopisto