Linkittyvä data on datatieteen siunaus ja kirous

Modernin datatieteen menestyksen edellytys on pääsy suurin datajoukkoihin. Eräs hyödyllisimmistä datajoukkojen ominaisuuksista on mahdollisuus linkittää niitä muihin datajoukkoihin, jolloin käytössä olevan data määrä kasvaa huomattavasti.

Esimerkiksi Googlen algoritmit voivat yhdistää hakuhistoriasi, sähköpostisi, kalenterisi ja kännykkäsi sijainnin huomatakseen, että sinun pitäisi lähteä lentokentälle keretäksesi Prahan-koneeseen, johon ostit liput viime viikolla, ja vaikka katsoit eri hotelleja, et ole vielä varannut huonetta. Vastaavasti tutkija saattaa haluta yhdistää potilaiden terveysdatan heidän asuinalueidensa ilmanlaatudataan tutkiakseen ilmanlaadun vaikutuksia kansanterveyteen.

Kuten ensimmäisestä esimerkistä käy ilmi, linkittyminen on myös eräs nykyisten datajoukkojen suurimmista ongelmista. Yksityisyyteen linkittäminen voi vaikuttaa vakavalla tavalla. Usein aggregaatteja pidetään turvallisina tietoina jakaa, eikä “kuinka monta HIV-positiivista aineistossa on” -kysymyksen katsota vaarantavan yksityisyyttä – olettaen että tapauksia on riittävästi. Mutta jos tiedän, että henkilön X tietoja ollaan juuri lisäämässä tietokantaan ja kysyn “kuinka monta” -kysymyksen juuri ennen ja jälkeen tietojen lisäämisen, olen saanut tietää, onko X:llä HIV. Tässä tapauksessa tietojen ajallinen linkittyminen rikkoo X:n yksityisyyden.

Tietyntyyppinen linkittyminen saattaa myös aiheuttaa vaikeasti havaittavaa syrjintää koneoppimisalgoritmeissa. Merkittävä osa tietojenkäsittelytieteen opiskelijoista ja valmistuneista on miehiä. Jos opettaisimme algoritmin valitsemaan uudet opiskelijat sen perusteella, kuinka todennäköisesti he valmistuvat, algoritmi voisi oppia, että tekstiilikäsityötä peruskoulussa opiskelleita ei kannata valita, sillä vain harva valmistunut on opiskellut sitä. Näin algoritmi päätyy tosiasiallisesti syrjimään naisia, vaikkei se edes tietäisi hakijoiden sukupuolta.

Ilman linkittämistä datatieteen menetelmien hyödyt jäisivät paljon pienemmiksi, emmekä voi estää julkisesti saatavissa olevien datojen linkittämistä. Kuinka paljon omia tietojaan antaa Googlelle ja muille yrityksille on itse kunkin päätettävissä, mutta linkittyminen aiheuttaa ongelmia myös vaikeammin hallittavissa tapauksissa. Ongelma tiedostetaan entistä paremmin, ja poliittisten päätösten, esimerkiksi yleisen tietosuoja-aseuksen GDPR:n, lisäksi myös tutkimus kehittää uusia menetelmiä yksityisyyden säilyttäviksi data-analyysimenetelmiksi.

Pauli Miettinen

Datatieteen professori

Tietojenkäsittelytieteen laitos

Ihmiset ovat laiskoja – internetissäkin

Noin vuosi sitten aloimme muutaman kollegani kanssa tutkia ihmisten käyttäytymistä Stack Exchange (SE) -verkoston sivustoilla. SE on eräänlainen asiantuntijamarkkina, jossa käyttäjät voivat kysyä kysymyksiä, joihin toiset käyttäjät vastaavat. Parhaita vastauksia antaneet käyttäjät saavat mainetta ja laajempia käyttöoikeuksia. Kaikki SE-verkoston keskustelut ovat avointa dataa, joten käyttäjien välisiä vuorovaikutuksia on helppo tutkia.

Kaikilla sivustoilla on erotettavissa aktiivinen ydinkäyttäjien ryhmä. Nämä käyttäjät vastaavat suurimpaan osaan kysymyksistä ja kommentoivat myös ahkerasti toistensa vastauksia. Alkuperäinen tutkimusajatuksemme oli kehittää menetelmä, joka ennustaisi ydinkäyttäjien määrän muutoksia ajan funktiona. Pian kävi kuitenkin ilmi, ettei ydinkäyttäjien määrää varsinaisesti tarvitse ennustaa, sillä se pysyi vakiona, noin 10–15 prosentissa kaikista käyttäjistä, kaikilla tutkituilla sivustoilla. Tämä siis riippumatta sivuston suosiosta yleisesti tai käyttäjien määrän vaihtelusta sivuston sisällä. Ainoastaan vasta avatuilla sivustoilla nähdään suurempi osuus ydinkäyttäjiä, mutta sekin laskee nopeasti muutaman kuukauden kuluessa sivuston avaamisesta.

Näyttää siis vahvasti siltä, että “Pareton lakina” tunnettu havainto – pieni osa ihmisistä vastaa suurimmasta osasta tuloksia – pätee myös internetin asiantuntijamarkkinoilla. Vaikka tulos lopulta olikin aivan toinen kuin aluksi oletimme, oli yllättävää, kuinka muuttumattomana ydinkäyttäjien osuus pysyy. Analysoimamme datan suuri määrä vahvistaa havaintoa. SE:n lisäksi tutkimme muitakin vastaavia sivustoja, yhteensä noin 6 500 foorumia. Vielä vuosikymmen sitten näin suurten datojen kerääminen tai analysointi olisi ollut mahdotonta.

Tutkimusartikkeli Metzler, Günnemann & Miettinen: Stability and dynamics of communities on online question–answer sites. Soc. Networks 58 (2019) on luettavissa verkossa osoitteessa https://doi.org/10.1016/j.socnet.2018.12.004

Pauli Miettinen

Datatieteen professori

Tietojenkäsittelytieteen laitos