Onko data todellisuutta?
Kuulee joskus luonnehdittavan, että data olisi raaka-ainetta analyyseille, jotka tekoälymäisin algoritmein tuottaisivat jotain hyödyllistä informaatiota. Tämä varmasti on sinänsä ihan osuvakin kuvailu, mutta ei ehkä riittävällä tavalla vastaa kysymykseen, että onko data todellisuutta. Vihjaus raaka-aineeseen antaa kuvan, että data olisi jotain konkreettista, valmista ja ennalta annettua. Näin asian voi tosiaan ajatella olevan ja sinänsä datan […]
Linkittyvä data on datatieteen siunaus ja kirous
Modernin datatieteen menestyksen edellytys on pääsy suurin datajoukkoihin. Eräs hyödyllisimmistä datajoukkojen ominaisuuksista on mahdollisuus linkittää niitä muihin datajoukkoihin, jolloin käytössä olevan data määrä kasvaa huomattavasti. Esimerkiksi Googlen algoritmit voivat yhdistää hakuhistoriasi, sähköpostisi, kalenterisi ja kännykkäsi sijainnin huomatakseen, että sinun pitäisi lähteä lentokentälle keretäksesi Prahan-koneeseen, johon ostit liput viime viikolla, ja vaikka katsoit eri hotelleja, et […]
Ihmiset ovat laiskoja – internetissäkin
Noin vuosi sitten aloimme muutaman kollegani kanssa tutkia ihmisten käyttäytymistä Stack Exchange (SE) -verkoston sivustoilla. SE on eräänlainen asiantuntijamarkkina, jossa käyttäjät voivat kysyä kysymyksiä, joihin toiset käyttäjät vastaavat. Parhaita vastauksia antaneet käyttäjät saavat mainetta ja laajempia käyttöoikeuksia. Kaikki SE-verkoston keskustelut ovat avointa dataa, joten käyttäjien välisiä vuorovaikutuksia on helppo tutkia. Kaikilla sivustoilla on erotettavissa aktiivinen […]