Valeuutisia avoimella tieteellä?

Avoimuus on saapunut ryminällä tieteen käytäntöihin. Ei puhuta vain avoimesta julkaisemisesta vaan myös esimerkiksi avoimista aineistoista, avoimista ohjelmistoista, avoimesta lähdekoodista, avoimista analyysikoodeista, avoimesta vertaisarvioinnista, avoimesta opetuksesta ja avoimesta yhteistyöstä. Avoimuudella on kiistattomia etuja ja niistä on kirjoitettu paljon. Kaikessa lyhykäisyydessään tutkimusprosessin tietyistä osista on saatu aidosti toistettavia siten, että periaatteessa kuka tahansa voi niitä tarkastella.

Pyrkimys avoimuuteen teettää toki pientä lisätyötä tutkijoille, mutta päivittämällä omia toimintatapoja ja -käytäntöjä avoimuutta tukeviksi tutkimusprosessin joka vaiheen osalta kyseessä on loppujen lopuksi pienestä asiasta – ainakin verrattuna siihen, että avoimuuteen herättäisiin vasta loppumetreillä. Avoimuus ja toistettavuus vaatii systemaattisuutta ja jatkuvaa omaa työskentelyä tukevaa dokumentointia eli vaikkapa aineistojen analysoinnin osalta on vaivan väärti kirjoittaa analyysikoodit sillä tavalla, että kaikki voidaan tehdä helposti uudestaan, vaikka aineisto syystä tai toisesta päivittyisi. Aineistojen virheitäkään ei kannata alkaa korjailemaan manuaalisella editoinnilla vaan niin, että korjauksesta jää toistettavuuden mahdollistama muistijälki.

Käytännössä jokaisessa tutkimuksessa aineistosta syntyy tutkimusprosessin aikana lukuisia versioita ja versionhallinta onkin oma taiteenlajinsa varsinkin, jos kyse on useamman henkilön tutkimusryhmästä, jossa aineistosta syntyy useita kopioita, jotka kaikki jalostuvat omalla tavallaan eteenpäin, kun aineiston analyysit keskittyvät ehkä hiukan eri osiin aineistoa tutkimuskysymysten mukaisesti. Hyväksi käytännöksi on osoittautunut muun muassa edellytys opinnäytetyöntekijöille antaa analyysikoodinsa pelkkien alustavien tulosten lisäksi ohjauspalaverien taustamateriaaliksi, jolloin toistettavuus säilyy ainakin tutkimusryhmän sisällä.

Yleensä tutkimusten aineistot avataan alkuperäisen tutkimusryhmän ulkopuoliselle käytölle vasta sen jälkeen, kun tutkimuksen primaarivaihe on päättynyt. Tällöin julkaistavaksi dataksi päätyy viimeisin siivottu versio aineistosta. Hyvä sinänsä niin, mutta toisaalta samalla siinä menetetään aimo annos tutkimuksen osalta kriittistä ymmärryksen kehittymistä, kun iso osa dataan liittyneistä tunnistetuista ongelmista on jo jotenkin ratkaistu, mutta ratkaisun avaimet samalla lakaistu maton alle.

Tässä piilee yksi avoimen datan suurista haasteista. Datasta tulee toisiokäytettävää ja käyttäjällä ei oikein ole muuta mahdollisuutta kuin luottaa datan tuottajan tarjoamaan dokumentaatioon ja metadataan. Tietosuojan takaamiseksi aineistoa on ehkä lisäksi karkeistettu tai muuten sotkettu siten, että vaikka sillä saadaan periaatteessa analyysikoodit toistettua samansuuntaisin tuloksin kuin alkuperäisjulkaisuissa, niin data ei oikein kelpaa mihinkään muuhun. Miten voidaan taata, että datan tarjoajalla on varmasti puhtaat jauhot pussissa eikä dataa ole hiukan hiottu pahimpien rosojen tasoittamiseksi tai jopa suuremmassa määrin fabrikoitu tarjoajan tarkoitusperiä vastaavaksi?

Toki epäily tehtailluista aineistoista on aika kyynistä ja datan saattaminen avoimeksi on kyllä paljon parempi vaihtoehto kuin sen piilottaminen, jolloin voisi epäillä, että koko aineistoa ei edes ole lähtökohtaisesti ollut tai että sen analyysissa on otettu omia päämääriä tukevia vapausasteita. Eli aineiston ja analyysikoodien avoin julkaiseminen on iso askel hyvään suuntaan.

Nykyisten valeuutisten aikakautena on kuitenkin mahdollista nähdä avoimuudessa myös uhkia. Avoin aineisto ja analyysikoodi mahdollistaa periaatteellisen analyysiprosessin toiston kenen tahansa toimesta, jolla on edes hiukan teknistä osaamista käyttää tarvittavia työkaluja. Toisin sanoen analyysin toistajalta voi puuttua tutkijan ammattitaito tehdä kriittisiä tulkintoja asioista. Omaa etuaan ajava valeuutisten tehtailija voi avoimien datojen ja analyysikoodien avulla ehkä hiukan käytettäviä muuttujia ja aineiston rajauksia vaihtamalla tuottaa ”vaihtoehtoisia” tuloksia, joita kuka tahansa tutkijan koulutuksen saanut itse vastaavat tulokset saatuaan epäilisi ja suhtautuisi niihin erittäin kriittisesti.

Asiat menevät kuitenkin ongelmalliseksi, kun päättömät tulokset sinänsä voivat näyttää oikein ja huolellisesti saavutetuilta, kun niiden pohjana on ihan oikean ja kunnolla tehdyn tutkimuksen aineisto ja analyysikoodit. Voi nimittäin olla todella vaikeaa enää erottaa, että mikä on päätöntä ja mikä ei, jos koko prosessi näyttää oikealta tutkimukselta.

Pitäisikö tutkimusyhteisön olla huolissaan siitä, että tieteellisen tiedon erikoislaatuisuuden arvostus voi tämän takia kärsiä rajusti ja heikentää ylipäätään ymmärrystä tieteellisen tutkimuksen tarpeesta?

Reijo Sund

Rekisteritutkimuksen professori

Terveystieteiden tiedekunta

Itä-Suomen yliopisto

Onko data todellisuutta?

Kuulee joskus luonnehdittavan, että data olisi raaka-ainetta analyyseille, jotka tekoälymäisin algoritmein tuottaisivat jotain hyödyllistä informaatiota. Tämä varmasti on sinänsä ihan osuvakin kuvailu, mutta ei ehkä riittävällä tavalla vastaa kysymykseen, että onko data todellisuutta.

Vihjaus raaka-aineeseen antaa kuvan, että data olisi jotain konkreettista, valmista ja ennalta annettua. Näin asian voi tosiaan ajatella olevan ja sinänsä datan voi hahmottaa olevan jotain todellista ja olemassa olevaa. On kuitenkin täysin eri asia, että heijasteleeko data edes jollain tavalla todellisuutta ja toisaalta, että kenelle data on edes olemassa olevaa.

Nykyään data tavallisesti ajatellaan elektronisessa muodossa tallennetuksi. Se siis koostuu pohjimmiltaan nollista ja ykkösistä, joskin varsinainen tallennustapa riippuu laitteesta ja tekniikasta. Keskeistä on se, että moista dataa ei oikeastaan ole olemassa muille kuin sellaisille, joilla on sopivat laitteet ja riittävä taustatietämys päästä dataan käsiksi. Nollat ja ykkösetkään eivät sinänsä kerro yhtään mitään, jos ei ole lisää taustatietämystä, jolla data alkaa muuntua ymmärrettäväksi. Eli jos tiedossa on sopivien laitteiden ja ohjelmistojen lisäksi tallennusformaatti ja sen esimerkiksi matriisimainen muoto, jossa sarakkeet kuvastavat muuttujia ja rivit havaintoja, niin data saa jo jotain muotoa. Kun lisäksi on tietämystä, että mitä muuttujat mahdollisesti heijastelevat ja mistä asioista havaintoja on, niin vaikkapa Excel-tyyppisestä näkymästä voi jo kuvitella käsittävänsä mistä datassa onkaan oikein kyse.

Ja epäilemättä näin asia voisikin periaatteessa olla, sillä silloinhan on ainakin jotenkin Börje Langeforsin infologisen yhtälön hengessä tiedostettu se, ettei datassa ole informaatiota vaan informaatio on jotain mitä tuotetaan datasta ja taustatietämyksestä. Käytännössä asia vielä monimutkaisempi, sillä ihmisillä ei tietenkään ole samanlaista taustatietämystä kaikista tarvittavista asioista. Informaation tuottamisen ongelmaksi nousee siis riittävän taustatietämyksen kommunikointi, joka on välttämätöntä datan ymmärtämiseksi. Osmo A. Wiiohan on asian haastavuuden hyvin kiteyttänyt: viestintä epäonnistuu aina, paitsi sattumalta.

Tarkkaan ottaen edellä ei ole vielä otettu kantaa siihen, että heijasteleeko data todellisuutta jollain tavalla, vaan lyhyesti pohdittu miten dataa voi olla mahdollista ymmärtää. Taustatietämys on tietysti avain myös kysymykseen siitä, että heijasteleeko data jotenkin todellisuutta ja jos kyllä, niin millä tavalla se sen tekee. Käytännöllisestä näkökulmasta on ehkä suoraviivaisinta ajatella, että todellisuus on jollain tavalla pysyvää tai säännönmukaisesti muuttuvaa ja että todellisuutta voidaan havainnoida jollain systemaattisella tavalla. Ihmisen aistit ovat hyviä välineitä todellisuuden havainnoimiseen ja toki ihminen on kyennyt rakentamaan myös erilaisia laitteita havainnoimisensa tueksi. Joitain asioita voidaan havaita ”suoraan”, mutta valtaosassa tapauksista todellisuuden osaksi oletettu kiinnostava ilmiö on havaittavissa vain epäsuorasti ja epätarkasti jotenkin mittaamalla sitä tai siihen liittyvää havaittavampaa asiaa. Mittaaminen on siis systemaattista sovitulla tavalla tehtyä havainnoimista. Mutta mitä se data sitten on?

Lyhyesti ilmaistuna data koostuu symbolisesti esitetyistä systemaattisesti tehtyjen havaintojen mittaustuloksista. Tai siis ainakin teoriassa näin voisi toivoa olevan. Datassa voi kuitenkin olla mittausvirhettä tai muita harhan lähteitä ja varmasti ainakin jonkinmoista epävarmuutta, jota liittyy havaintojen tekemisen käsitteellistämiseen. On myös itsestään selvää, että mikä tahansa data on parhaassakin tapauksessa vain äärimmäisen pieni häivähdys todellisuuden jostain havaittavissa olevasta osasta katsottuna hyvin suppeasta näkökulmasta – muutenhan dataa olisi enemmän kuin todellisuutta.

Mitä suorempia havaintoja ja selkeämpiä mittauksia pystytään tekemään ja mitä vähemmän tarvitaan taustatietämystä kommunikoimaan datan merkitystä, sitä helpompi on ymmärtää, miten kyseinen data ja todellisuus ovat mahdollisesti linkittyneet toisiinsa. Silloin voi olla mahdollista tuottaa data-analyysein datasta informaatiota, joka saattaa olla hyödyllistä myös todellisuuden kannalta. Yleisesti ottaen on kuitenkin yltiöpositiivista kuvitella kaiken datan heijastelevan todellisuutta saatikka että se tekisi moista hyödyllisellä tavalla, vaikka dataa analysoitaisiin minkälaisilla algoritmeilla tai mallinnettaisiin mielivaltaisen monimutkaisilla malleilla tahansa.

Data on siis todellista niille, jotka sitä pystyvät käsittämään tai käsittelemään. Parhaassa tapauksessa data myös heijastelee minimaalisen pientä osaa todellisuudesta. Jos asian hahmottaminen on hankalaa ihmisille, niin mitä tapahtuukaan, jos ihmisen luomaa tekoälyä hyödynnetään todellisuuden kannalta jotenkin merkityksellisten päätösten tekemisen tukena ja se käyttää raaka-aineenaan vain dataa?

Reijo Sund

Rekisteritutkimuksen professori

Terveystieteiden tiedekunta

Itä-Suomen yliopisto

Toisiolaki – erinomaisista tavoitteista syrjiviin tiedepoliittisiin linjauksiin?

Sosiaali- ja terveystietojen toissijaista käyttöä koskeva laki (552/2019, niin sanottu toisiolaki) tuli voimaan toukokuussa 2019. Sen toimeenpano on edennyt vaiheittain ja huhtikuun 2020 alusta lähtien kansallinen tietolupaviranomainen Findata on ainoa toimivaltainen luvanmyöntäjä, kun yhdistetään toisiolain alaisuuteen kuuluvia aineistoja usealta rekisterinpitäjältä. Näitä luvanvaraisia aineistoja ei enää varsinaisesti luovuteta tutkijoille vaan niihin annetaan määräaikainen käyttöoikeus Findatan tietoturvallisessa etäkäyttöympäristössä.

Lailla erinomaiset tavoitteet

Lain tavoitteet ovat sinänsä erinomaiset tutkijoiden kannalta. Sillä helpotetaan lupaprosessia ja nopeutetaan datojen käyttöön saamista keskittämällä toiminnot yhdelle luukulle. Samalla varmistetaan aineistojen tietoturvallinen käyttö puoliautomaattisesti niin, ettei tutkijoiden tarvitse erikseen käyttää aikaa ja energiaa asiasta huolehtimiseen. Kuulostaa melkein liian hyvältä ollakseen totta, vai mitä?

Viimeistään toisiolain toimeenpanovaiheessa onkin tullut ilmi paljon tärkeitä erikoistapauksia, joissa laki ja sen tulkinnat selvästi vaikeuttavat tai vähintäänkin monimutkaistavat tutkimuksen tekemistä verrattuna aikaisemmin hyviin toimiviin käytäntöihin. Annetaan niiden tässä yhteydessä kuitenkin olla, otetaan positiivinen asenne ja uskotaan asioiden jollain tavalla vielä järjestyvän parhain päin. Kyllähän Strömsössäkin nettiyhteyksien kanssa voi olla ongelmia, kunnes saadaan tukiasemaverkosto kuntoon puhumattakaan siitä, että varsinaisten valokuituyhteyksien vetäminen saaristoon voi olla haastavaa ja ottaa hiukan aikaa.

Milloin toisiolaki toimii tavoitteidensa mukaisesti?

Keskitytään ongelmien sijaan lakia valmistellessa ydintoiminnaksi katsottuun osaseen, jossa tehdään puhdasta rekisteritutkimusta vain toisiolain alaisuuteen kuuluvilla aineistoilla. Rajoitutaan lisäksi käyttämään vain valtakunnallisia rekisteriaineistoja, joiden osalta lupiin ja aineistopoimintoihin tarvittavat prosessit ovat jo olemassa.

Tässä vaiheessa ei vielä ole käytettävissä tietoja siitä, miten sujuvasti ja näppärästi kaikki käytännön asiat todellisuudessa hoituvat, mutta jos ei ole tehty pahoja mokia, niin periaatteessa kaiken pitäisi sujua toisiolain tavoitteiden mukaisesti. Vaikuttaa niin upealta, että alkaa epäilyttämään. Onko tässä kuitenkin joku ketunhäntä kainalossa?

Ja onhan siinä. Ei ketunhäntä, mutta oravanhanka. Siis raha.

Pakolliset tutkijoille kohdistuvat maksut kohtuuttomia

Lienee kiistatta selvää, että toisiokäytön lain toimeenpano ja siihen liittyvien palveluiden pyörittäminen maksaa. On kuitenkin toinen kysymys, että minkä tahon nämä kulut pitäisi maksaa.

Tarkastellaan tilannetta tutkijan kannalta. Findatan sivuilta löytyvästä hinnastosta käy ilmi, että uuden lupahakemuksen käsittely – riippumatta siitä, kuinka monen rekisterinpitäjän datoja tarvitaan – maksaa 1 000 euroa. Tämän päälle tulee tietoturvallisen käyttöympäristön maksu, joka on minimissään 2 250 euroa vuodessa. Näiden lisäksi sitten vielä aineistojen poimintakulut ja Findatan tekemä psedonymisointityö, jotka ovat pääsääntöisesti tuntityönä laskutettavaa. Vaikuttaa siis siltä, että pienimuotoisenkin rekisteritutkimuksen aineistoon liittyvät pakolliset kulut tulevat olemaan ainakin 5 000 euroa.

Summa ei kuulosta ison ja hyvin rahoitusta saaneen tutkimushankkeen kannalta kovin isolta, mutta on aivan kohtuuttoman iso, kun ajatellaan pieniä selvitystyyppisiä tarkasteluja. Esimerkiksi graduntekijöitä ei voi laittaa tekemään rekisteritutkimusta, ellei heille keksitä tekemistä jonkun isomman datan kustannuksista jo huolehtineen projektin sisällä. Sama pätee myös muihin tutkijoihin. Jos syntynyttä alustavaa tutkimusideaa ei voi kokeilla jollain muun projektin puitteissa valmiiksi kootulla datalla, sellainen jää helposti tekemättä isojen kustannusten takia. Hinnoittelu siis suosii isoja projekteja, joissa on monia osallistuvia tahoja. Tällöin kustannukset yhtä tutkijaa kohden jäävät verrattain pieniksi, kun pakolliset maksut voidaan jakaa kaikkien kesken. Yksittäinen tutkija oman alustavan ideansa kanssa maksaa samat pakolliset maksut itse.

Otetaan esimerkiksi koronaepidemian ympärille vauhdilla noussut ”pop-up” tutkimustoiminta. Varmasti ainakin kymmenillä tai jopa sadoilla tutkimusryhmillä on herännyt idea katsoa koronaan ja sen vaikutuksiin liittyviä asioita rekisteriaineistojen perusteella. Jos vaikka sata tutkimusryhmää hakee erikseen lupia ja luultavasti aika samankaltaisia aineistoja, niin pakolliset kustannukset ovat yhteensä puoli miljoonaa. Jos tutkimusryhmät olisivat kuitenkin muodostaneet ison yhteenliittymän ja laatineet yhteisen lupahakemuksen ja aineistopohjan, niin pakolliset kustannukset olisivat jääneet parhaimmillaan alle kymppitonniin. Aika huima ero.

Toisiokäytön nykyinen toimeenpano luo syrjivän maksumuurin

Toisiokäytön laki on velvoittava eli tutkijoille ei jää valinnanvaraa sen suhteen, pitääkö heidän käyttää Findatan palveluita silloin, kun yhdistetään usean rekisterinpitäjän toisiokäytön lain alaisia aineistoja. Näin siis luodaan pakollinen maksumuuri näiden aineistojen tutkimuskäytölle ja laitetaan tutkijat maksamaan siitä, että heidän on pakko käyttää (monopoli)palvelua. Lisäkontrastia asiaan tuo se, että tietoturvallinen etäkäyttöympäristö on toteutettu CSC:n ePouta -ympäristön yhteyteen eli samaan ympäristöön, jossa muita kuin toisiokäytön lain alaisia datoja käsittelevät tutkijat voivat käyttää teholaskentaresursseja ilmaiseksi opetus- ja kulttuuriministeriön subventointia hyödyntäen.

On siis erikoista, että valtavan potentiaalin omaavia sosiaali- ja terveysaineistoja käyttäviä tutkijoita, etenkin jos heillä on paljon pienimuotoisia – mutta silti tärkeitä – tutkimusideoita, suorastaan syrjitään vaikeasti ylitettävän maksumuurin muodossa. Ilmeisesti kansanterveyttä tai vaikkapa palvelujärjestelmän toiminnan vaikuttavuutta edistävän tutkimuksen tekemistä halutaan siis tehdyllä tutkimuspoliittisella linjauksella ajaa alas, vaikka yksittäinen pienikin tutkimus voi esimerkiksi pelastaa ihmishenkiä, ennaltaehkäistä kroonisten sairauksien puhkeamista tai tehostaa palvelujärjestelmän toimintaa erittäin merkittävällä tavalla niin meillä kuin muuallakin maailmassa.

Uusi tutkimuspoliittinen linjaus?

Kannattaako todella ottaa riski, että yksikin tutkimus jää tekemättä toisiolain toimeenpanon mukaisen tutkimuspoliittisen linjauksen seurauksena sen takia, että kansallisessa mittakaavassa hyötyyn nähden täysin olemattomat kustannukset vyörytetään tutkijoiden maksettavaksi, vaikka heille se realisoituu ylittämättömänä maksumuurina?

Kysymys ei siis ole siitä, etteikö toisiolaista ja siihen liittyvistä palveluista syntyisi kustannuksia. Olisiko kuitenkin parempi tehdä tutkimus- ja välillisesti myös terveyspoliittinen linjaus, jolla oikeasti tuettaisiin eikä rankaistaisi toisiolain alaisten aineistojen tutkimuskäyttöä?

Reijo Sund
Rekisteritutkimuksen professori
Terveystieteiden tiedekunta,
Itä-Suomen yliopisto