Linkittyvä data on datatieteen siunaus ja kirous

Modernin datatieteen menestyksen edellytys on pääsy suurin datajoukkoihin. Eräs hyödyllisimmistä datajoukkojen ominaisuuksista on mahdollisuus linkittää niitä muihin datajoukkoihin, jolloin käytössä olevan data määrä kasvaa huomattavasti.

Esimerkiksi Googlen algoritmit voivat yhdistää hakuhistoriasi, sähköpostisi, kalenterisi ja kännykkäsi sijainnin huomatakseen, että sinun pitäisi lähteä lentokentälle keretäksesi Prahan-koneeseen, johon ostit liput viime viikolla, ja vaikka katsoit eri hotelleja, et ole vielä varannut huonetta. Vastaavasti tutkija saattaa haluta yhdistää potilaiden terveysdatan heidän asuinalueidensa ilmanlaatudataan tutkiakseen ilmanlaadun vaikutuksia kansanterveyteen.

Kuten ensimmäisestä esimerkistä käy ilmi, linkittyminen on myös eräs nykyisten datajoukkojen suurimmista ongelmista. Yksityisyyteen linkittäminen voi vaikuttaa vakavalla tavalla. Usein aggregaatteja pidetään turvallisina tietoina jakaa, eikä ”kuinka monta HIV-positiivista aineistossa on” -kysymyksen katsota vaarantavan yksityisyyttä – olettaen että tapauksia on riittävästi. Mutta jos tiedän, että henkilön X tietoja ollaan juuri lisäämässä tietokantaan ja kysyn ”kuinka monta” -kysymyksen juuri ennen ja jälkeen tietojen lisäämisen, olen saanut tietää, onko X:llä HIV. Tässä tapauksessa tietojen ajallinen linkittyminen rikkoo X:n yksityisyyden.

Tietyntyyppinen linkittyminen saattaa myös aiheuttaa vaikeasti havaittavaa syrjintää koneoppimisalgoritmeissa. Merkittävä osa tietojenkäsittelytieteen opiskelijoista ja valmistuneista on miehiä. Jos opettaisimme algoritmin valitsemaan uudet opiskelijat sen perusteella, kuinka todennäköisesti he valmistuvat, algoritmi voisi oppia, että tekstiilikäsityötä peruskoulussa opiskelleita ei kannata valita, sillä vain harva valmistunut on opiskellut sitä. Näin algoritmi päätyy tosiasiallisesti syrjimään naisia, vaikkei se edes tietäisi hakijoiden sukupuolta.

Ilman linkittämistä datatieteen menetelmien hyödyt jäisivät paljon pienemmiksi, emmekä voi estää julkisesti saatavissa olevien datojen linkittämistä. Kuinka paljon omia tietojaan antaa Googlelle ja muille yrityksille on itse kunkin päätettävissä, mutta linkittyminen aiheuttaa ongelmia myös vaikeammin hallittavissa tapauksissa. Ongelma tiedostetaan entistä paremmin, ja poliittisten päätösten, esimerkiksi yleisen tietosuoja-aseuksen GDPR:n, lisäksi myös tutkimus kehittää uusia menetelmiä yksityisyyden säilyttäviksi data-analyysimenetelmiksi.

Pauli Miettinen

Datatieteen professori

Tietojenkäsittelytieteen laitos