Onko data todellisuutta?

Kuulee joskus luonnehdittavan, että data olisi raaka-ainetta analyyseille, jotka tekoälymäisin algoritmein tuottaisivat jotain hyödyllistä informaatiota. Tämä varmasti on sinänsä ihan osuvakin kuvailu, mutta ei ehkä riittävällä tavalla vastaa kysymykseen, että onko data todellisuutta.

Vihjaus raaka-aineeseen antaa kuvan, että data olisi jotain konkreettista, valmista ja ennalta annettua. Näin asian voi tosiaan ajatella olevan ja sinänsä datan voi hahmottaa olevan jotain todellista ja olemassa olevaa. On kuitenkin täysin eri asia, että heijasteleeko data edes jollain tavalla todellisuutta ja toisaalta, että kenelle data on edes olemassa olevaa.

Nykyään data tavallisesti ajatellaan elektronisessa muodossa tallennetuksi. Se siis koostuu pohjimmiltaan nollista ja ykkösistä, joskin varsinainen tallennustapa riippuu laitteesta ja tekniikasta. Keskeistä on se, että moista dataa ei oikeastaan ole olemassa muille kuin sellaisille, joilla on sopivat laitteet ja riittävä taustatietämys päästä dataan käsiksi. Nollat ja ykkösetkään eivät sinänsä kerro yhtään mitään, jos ei ole lisää taustatietämystä, jolla data alkaa muuntua ymmärrettäväksi. Eli jos tiedossa on sopivien laitteiden ja ohjelmistojen lisäksi tallennusformaatti ja sen esimerkiksi matriisimainen muoto, jossa sarakkeet kuvastavat muuttujia ja rivit havaintoja, niin data saa jo jotain muotoa. Kun lisäksi on tietämystä, että mitä muuttujat mahdollisesti heijastelevat ja mistä asioista havaintoja on, niin vaikkapa Excel-tyyppisestä näkymästä voi jo kuvitella käsittävänsä mistä datassa onkaan oikein kyse.

Ja epäilemättä näin asia voisikin periaatteessa olla, sillä silloinhan on ainakin jotenkin Börje Langeforsin infologisen yhtälön hengessä tiedostettu se, ettei datassa ole informaatiota vaan informaatio on jotain mitä tuotetaan datasta ja taustatietämyksestä. Käytännössä asia vielä monimutkaisempi, sillä ihmisillä ei tietenkään ole samanlaista taustatietämystä kaikista tarvittavista asioista. Informaation tuottamisen ongelmaksi nousee siis riittävän taustatietämyksen kommunikointi, joka on välttämätöntä datan ymmärtämiseksi. Osmo A. Wiiohan on asian haastavuuden hyvin kiteyttänyt: viestintä epäonnistuu aina, paitsi sattumalta.

Tarkkaan ottaen edellä ei ole vielä otettu kantaa siihen, että heijasteleeko data todellisuutta jollain tavalla, vaan lyhyesti pohdittu miten dataa voi olla mahdollista ymmärtää. Taustatietämys on tietysti avain myös kysymykseen siitä, että heijasteleeko data jotenkin todellisuutta ja jos kyllä, niin millä tavalla se sen tekee. Käytännöllisestä näkökulmasta on ehkä suoraviivaisinta ajatella, että todellisuus on jollain tavalla pysyvää tai säännönmukaisesti muuttuvaa ja että todellisuutta voidaan havainnoida jollain systemaattisella tavalla. Ihmisen aistit ovat hyviä välineitä todellisuuden havainnoimiseen ja toki ihminen on kyennyt rakentamaan myös erilaisia laitteita havainnoimisensa tueksi. Joitain asioita voidaan havaita ”suoraan”, mutta valtaosassa tapauksista todellisuuden osaksi oletettu kiinnostava ilmiö on havaittavissa vain epäsuorasti ja epätarkasti jotenkin mittaamalla sitä tai siihen liittyvää havaittavampaa asiaa. Mittaaminen on siis systemaattista sovitulla tavalla tehtyä havainnoimista. Mutta mitä se data sitten on?

Lyhyesti ilmaistuna data koostuu symbolisesti esitetyistä systemaattisesti tehtyjen havaintojen mittaustuloksista. Tai siis ainakin teoriassa näin voisi toivoa olevan. Datassa voi kuitenkin olla mittausvirhettä tai muita harhan lähteitä ja varmasti ainakin jonkinmoista epävarmuutta, jota liittyy havaintojen tekemisen käsitteellistämiseen. On myös itsestään selvää, että mikä tahansa data on parhaassakin tapauksessa vain äärimmäisen pieni häivähdys todellisuuden jostain havaittavissa olevasta osasta katsottuna hyvin suppeasta näkökulmasta – muutenhan dataa olisi enemmän kuin todellisuutta.

Mitä suorempia havaintoja ja selkeämpiä mittauksia pystytään tekemään ja mitä vähemmän tarvitaan taustatietämystä kommunikoimaan datan merkitystä, sitä helpompi on ymmärtää, miten kyseinen data ja todellisuus ovat mahdollisesti linkittyneet toisiinsa. Silloin voi olla mahdollista tuottaa data-analyysein datasta informaatiota, joka saattaa olla hyödyllistä myös todellisuuden kannalta. Yleisesti ottaen on kuitenkin yltiöpositiivista kuvitella kaiken datan heijastelevan todellisuutta saatikka että se tekisi moista hyödyllisellä tavalla, vaikka dataa analysoitaisiin minkälaisilla algoritmeilla tai mallinnettaisiin mielivaltaisen monimutkaisilla malleilla tahansa.

Data on siis todellista niille, jotka sitä pystyvät käsittämään tai käsittelemään. Parhaassa tapauksessa data myös heijastelee minimaalisen pientä osaa todellisuudesta. Jos asian hahmottaminen on hankalaa ihmisille, niin mitä tapahtuukaan, jos ihmisen luomaa tekoälyä hyödynnetään todellisuuden kannalta jotenkin merkityksellisten päätösten tekemisen tukena ja se käyttää raaka-aineenaan vain dataa?

Reijo Sund

Rekisteritutkimuksen professori

Terveystieteiden tiedekunta

Itä-Suomen yliopisto

Linkittyvä data on datatieteen siunaus ja kirous

Modernin datatieteen menestyksen edellytys on pääsy suurin datajoukkoihin. Eräs hyödyllisimmistä datajoukkojen ominaisuuksista on mahdollisuus linkittää niitä muihin datajoukkoihin, jolloin käytössä olevan data määrä kasvaa huomattavasti.

Esimerkiksi Googlen algoritmit voivat yhdistää hakuhistoriasi, sähköpostisi, kalenterisi ja kännykkäsi sijainnin huomatakseen, että sinun pitäisi lähteä lentokentälle keretäksesi Prahan-koneeseen, johon ostit liput viime viikolla, ja vaikka katsoit eri hotelleja, et ole vielä varannut huonetta. Vastaavasti tutkija saattaa haluta yhdistää potilaiden terveysdatan heidän asuinalueidensa ilmanlaatudataan tutkiakseen ilmanlaadun vaikutuksia kansanterveyteen.

Kuten ensimmäisestä esimerkistä käy ilmi, linkittyminen on myös eräs nykyisten datajoukkojen suurimmista ongelmista. Yksityisyyteen linkittäminen voi vaikuttaa vakavalla tavalla. Usein aggregaatteja pidetään turvallisina tietoina jakaa, eikä “kuinka monta HIV-positiivista aineistossa on” -kysymyksen katsota vaarantavan yksityisyyttä – olettaen että tapauksia on riittävästi. Mutta jos tiedän, että henkilön X tietoja ollaan juuri lisäämässä tietokantaan ja kysyn “kuinka monta” -kysymyksen juuri ennen ja jälkeen tietojen lisäämisen, olen saanut tietää, onko X:llä HIV. Tässä tapauksessa tietojen ajallinen linkittyminen rikkoo X:n yksityisyyden.

Tietyntyyppinen linkittyminen saattaa myös aiheuttaa vaikeasti havaittavaa syrjintää koneoppimisalgoritmeissa. Merkittävä osa tietojenkäsittelytieteen opiskelijoista ja valmistuneista on miehiä. Jos opettaisimme algoritmin valitsemaan uudet opiskelijat sen perusteella, kuinka todennäköisesti he valmistuvat, algoritmi voisi oppia, että tekstiilikäsityötä peruskoulussa opiskelleita ei kannata valita, sillä vain harva valmistunut on opiskellut sitä. Näin algoritmi päätyy tosiasiallisesti syrjimään naisia, vaikkei se edes tietäisi hakijoiden sukupuolta.

Ilman linkittämistä datatieteen menetelmien hyödyt jäisivät paljon pienemmiksi, emmekä voi estää julkisesti saatavissa olevien datojen linkittämistä. Kuinka paljon omia tietojaan antaa Googlelle ja muille yrityksille on itse kunkin päätettävissä, mutta linkittyminen aiheuttaa ongelmia myös vaikeammin hallittavissa tapauksissa. Ongelma tiedostetaan entistä paremmin, ja poliittisten päätösten, esimerkiksi yleisen tietosuoja-aseuksen GDPR:n, lisäksi myös tutkimus kehittää uusia menetelmiä yksityisyyden säilyttäviksi data-analyysimenetelmiksi.

Pauli Miettinen

Datatieteen professori

Tietojenkäsittelytieteen laitos

Ihmiset ovat laiskoja – internetissäkin

Noin vuosi sitten aloimme muutaman kollegani kanssa tutkia ihmisten käyttäytymistä Stack Exchange (SE) -verkoston sivustoilla. SE on eräänlainen asiantuntijamarkkina, jossa käyttäjät voivat kysyä kysymyksiä, joihin toiset käyttäjät vastaavat. Parhaita vastauksia antaneet käyttäjät saavat mainetta ja laajempia käyttöoikeuksia. Kaikki SE-verkoston keskustelut ovat avointa dataa, joten käyttäjien välisiä vuorovaikutuksia on helppo tutkia.

Kaikilla sivustoilla on erotettavissa aktiivinen ydinkäyttäjien ryhmä. Nämä käyttäjät vastaavat suurimpaan osaan kysymyksistä ja kommentoivat myös ahkerasti toistensa vastauksia. Alkuperäinen tutkimusajatuksemme oli kehittää menetelmä, joka ennustaisi ydinkäyttäjien määrän muutoksia ajan funktiona. Pian kävi kuitenkin ilmi, ettei ydinkäyttäjien määrää varsinaisesti tarvitse ennustaa, sillä se pysyi vakiona, noin 10–15 prosentissa kaikista käyttäjistä, kaikilla tutkituilla sivustoilla. Tämä siis riippumatta sivuston suosiosta yleisesti tai käyttäjien määrän vaihtelusta sivuston sisällä. Ainoastaan vasta avatuilla sivustoilla nähdään suurempi osuus ydinkäyttäjiä, mutta sekin laskee nopeasti muutaman kuukauden kuluessa sivuston avaamisesta.

Näyttää siis vahvasti siltä, että “Pareton lakina” tunnettu havainto – pieni osa ihmisistä vastaa suurimmasta osasta tuloksia – pätee myös internetin asiantuntijamarkkinoilla. Vaikka tulos lopulta olikin aivan toinen kuin aluksi oletimme, oli yllättävää, kuinka muuttumattomana ydinkäyttäjien osuus pysyy. Analysoimamme datan suuri määrä vahvistaa havaintoa. SE:n lisäksi tutkimme muitakin vastaavia sivustoja, yhteensä noin 6 500 foorumia. Vielä vuosikymmen sitten näin suurten datojen kerääminen tai analysointi olisi ollut mahdotonta.

Tutkimusartikkeli Metzler, Günnemann & Miettinen: Stability and dynamics of communities on online question–answer sites. Soc. Networks 58 (2019) on luettavissa verkossa osoitteessa https://doi.org/10.1016/j.socnet.2018.12.004

Pauli Miettinen

Datatieteen professori

Tietojenkäsittelytieteen laitos