27.8.2020

Onko data todellisuutta?

Kuulee joskus luonnehdittavan, että data olisi raaka-ainetta analyyseille, jotka tekoälymäisin algoritmein tuottaisivat jotain hyödyllistä informaatiota. Tämä varmasti on sinänsä ihan osuvakin kuvailu, mutta ei ehkä riittävällä tavalla vastaa kysymykseen, että onko data todellisuutta.

Vihjaus raaka-aineeseen antaa kuvan, että data olisi jotain konkreettista, valmista ja ennalta annettua. Näin asian voi tosiaan ajatella olevan ja sinänsä datan voi hahmottaa olevan jotain todellista ja olemassa olevaa. On kuitenkin täysin eri asia, että heijasteleeko data edes jollain tavalla todellisuutta ja toisaalta, että kenelle data on edes olemassa olevaa.

Nykyään data tavallisesti ajatellaan elektronisessa muodossa tallennetuksi. Se siis koostuu pohjimmiltaan nollista ja ykkösistä, joskin varsinainen tallennustapa riippuu laitteesta ja tekniikasta. Keskeistä on se, että moista dataa ei oikeastaan ole olemassa muille kuin sellaisille, joilla on sopivat laitteet ja riittävä taustatietämys päästä dataan käsiksi. Nollat ja ykkösetkään eivät sinänsä kerro yhtään mitään, jos ei ole lisää taustatietämystä, jolla data alkaa muuntua ymmärrettäväksi. Eli jos tiedossa on sopivien laitteiden ja ohjelmistojen lisäksi tallennusformaatti ja sen esimerkiksi matriisimainen muoto, jossa sarakkeet kuvastavat muuttujia ja rivit havaintoja, niin data saa jo jotain muotoa. Kun lisäksi on tietämystä, että mitä muuttujat mahdollisesti heijastelevat ja mistä asioista havaintoja on, niin vaikkapa Excel-tyyppisestä näkymästä voi jo kuvitella käsittävänsä mistä datassa onkaan oikein kyse.

Ja epäilemättä näin asia voisikin periaatteessa olla, sillä silloinhan on ainakin jotenkin Börje Langeforsin infologisen yhtälön hengessä tiedostettu se, ettei datassa ole informaatiota vaan informaatio on jotain mitä tuotetaan datasta ja taustatietämyksestä. Käytännössä asia vielä monimutkaisempi, sillä ihmisillä ei tietenkään ole samanlaista taustatietämystä kaikista tarvittavista asioista. Informaation tuottamisen ongelmaksi nousee siis riittävän taustatietämyksen kommunikointi, joka on välttämätöntä datan ymmärtämiseksi. Osmo A. Wiiohan on asian haastavuuden hyvin kiteyttänyt: viestintä epäonnistuu aina, paitsi sattumalta.

Tarkkaan ottaen edellä ei ole vielä otettu kantaa siihen, että heijasteleeko data todellisuutta jollain tavalla, vaan lyhyesti pohdittu miten dataa voi olla mahdollista ymmärtää. Taustatietämys on tietysti avain myös kysymykseen siitä, että heijasteleeko data jotenkin todellisuutta ja jos kyllä, niin millä tavalla se sen tekee. Käytännöllisestä näkökulmasta on ehkä suoraviivaisinta ajatella, että todellisuus on jollain tavalla pysyvää tai säännönmukaisesti muuttuvaa ja että todellisuutta voidaan havainnoida jollain systemaattisella tavalla. Ihmisen aistit ovat hyviä välineitä todellisuuden havainnoimiseen ja toki ihminen on kyennyt rakentamaan myös erilaisia laitteita havainnoimisensa tueksi. Joitain asioita voidaan havaita ”suoraan”, mutta valtaosassa tapauksista todellisuuden osaksi oletettu kiinnostava ilmiö on havaittavissa vain epäsuorasti ja epätarkasti jotenkin mittaamalla sitä tai siihen liittyvää havaittavampaa asiaa. Mittaaminen on siis systemaattista sovitulla tavalla tehtyä havainnoimista. Mutta mitä se data sitten on?

Lyhyesti ilmaistuna data koostuu symbolisesti esitetyistä systemaattisesti tehtyjen havaintojen mittaustuloksista. Tai siis ainakin teoriassa näin voisi toivoa olevan. Datassa voi kuitenkin olla mittausvirhettä tai muita harhan lähteitä ja varmasti ainakin jonkinmoista epävarmuutta, jota liittyy havaintojen tekemisen käsitteellistämiseen. On myös itsestään selvää, että mikä tahansa data on parhaassakin tapauksessa vain äärimmäisen pieni häivähdys todellisuuden jostain havaittavissa olevasta osasta katsottuna hyvin suppeasta näkökulmasta – muutenhan dataa olisi enemmän kuin todellisuutta.

Mitä suorempia havaintoja ja selkeämpiä mittauksia pystytään tekemään ja mitä vähemmän tarvitaan taustatietämystä kommunikoimaan datan merkitystä, sitä helpompi on ymmärtää, miten kyseinen data ja todellisuus ovat mahdollisesti linkittyneet toisiinsa. Silloin voi olla mahdollista tuottaa data-analyysein datasta informaatiota, joka saattaa olla hyödyllistä myös todellisuuden kannalta. Yleisesti ottaen on kuitenkin yltiöpositiivista kuvitella kaiken datan heijastelevan todellisuutta saatikka että se tekisi moista hyödyllisellä tavalla, vaikka dataa analysoitaisiin minkälaisilla algoritmeilla tai mallinnettaisiin mielivaltaisen monimutkaisilla malleilla tahansa.

Data on siis todellista niille, jotka sitä pystyvät käsittämään tai käsittelemään. Parhaassa tapauksessa data myös heijastelee minimaalisen pientä osaa todellisuudesta. Jos asian hahmottaminen on hankalaa ihmisille, niin mitä tapahtuukaan, jos ihmisen luomaa tekoälyä hyödynnetään todellisuuden kannalta jotenkin merkityksellisten päätösten tekemisen tukena ja se käyttää raaka-aineenaan vain dataa?

Reijo Sund

Rekisteritutkimuksen professori

Terveystieteiden tiedekunta

Itä-Suomen yliopisto