Tutkimusaineisto ja aineistonhallinta

Tutkimusaineisto eli tutkimusdata on tutkimuksen aikana eri menetelmillä tuotettua tai hyödynnettyä aineistoa, johon tutkimustulokset pohjautuvat. Tutkimusaineistoja on monenlaisia, tieteenalasta ja tutkimuksesta riippuu, millaista aineistoa käytetään.

Tutkimusaineistoja ovat esimerkiksi:
• kysely- ja haastatteluaineistot, kuvat, videot, mittaukset, tutkijan tekemät muistiinpanot
• ohjelmistot ja lähdekoodit
• näytteet
• järjestetyt kokoelmat.

Aineisto voi olla digitaalisessa muodossa, jolloin puhutaan tutkimusdatasta, tai aineisto voi olla fyysistä, kuten paperiaineisto tai esimerkiksi ihmisistä tai kasveista kerättyjä näytteitä. Tutkija voi tuottaa itse aineistoa keräämällä sitä tarkoitukseen sopivalla menetelmällä tai hyödyntää valmista, jonkun muun tuottamaa aineistoa.

Valmista aineistoa ovat esimerkiksi valmiit dokumentit, kuten historialliset tekstit, kaunokirjallisuus, lehtiartikkelit tai jonkun aiemmin tuottama avattu tutkimusaineisto. Avointa tutkimusaineistoa voi etsiä datarepositorioista* tai -arkistoista. Nämä valmiit aineistot tarjoavat opiskelijoille mahdollisuuksia harjoitella analyysiä isommilla aineistoilla kuin opiskelija itse voisi kerätä. Valmiita aineistoja voi myös hyödyntää oman aineiston lisänä.

*Repositorio = tieteellisten julkaisujen tallentamiseen ja avoimeen verkkojulkaisemiseen soveltuva tekninen järjestelmä ja sen ympärille rakennetut palvelut. Tieteen termipankki 25.08.2023: Nimitys:repositorio.

Avoimet tutkimusaineistot ovat aineistoa, joka on avoimesti muidenkin käytettävissä. Täysin avoin aineisto on verkosta saatavilla vapaaseen käyttöön. Esimerkki: Beetle Diversity (Zenodo). Aineiston käyttöön voi myös liittyä rajoitteita, jolloin se on käytettävissä esimerkiksi vain tiettyyn tarkoitukseen, kuten tutkimukseen ja opinnäytetöihin. Aineiston käyttö voi edellyttää myös rekisteröitymistä palveluun. Esimerkki: Yliopisto-opiskelijoiden terveystutkimus 2004 (Tietoarkisto).

Aineistoa kerätessä on tärkeää huolehtia aineistonhallinnasta eli siitä, että aineistoa käsitellään ja säilytetään turvallisesti. Kun aineistoa aletaan kerätä, on tärkeää pitää se alusta lähtien järjestyksessä niin, että sekä aineiston kerääjä itse, että mahdolliset muut käyttäjät tietävät, miten ja milloin aineisto on kerätty, millaisia tietoja se sisältää ja miten se on löydettävissä. Tällöin tarvitaan aineiston dokumentointia ja metadataa eli kuvailutietoa. Metadata kuvaa aineiston kontekstia, sisältöä ja rakennetta sekä niiden hallintaa ja käsittelyä. Hyvällä ja laadukkaalla metadatan tallennuksella taataan aineiston ja tutkimuksen löydettävyys, säilyvyys sekä jatkokäytettävyys.

Dokumentointi ja metadata

Aineiston dokumentointi on tärkeää, jotta löydät tarvitsemasi tiedon ja aineisto pysyy käyttökelpoisena. Olennaista dokumentointia aineiston sisällöstä ovat esimerkiksi muuttujien selkeä nimeäminen, mittausyksiköiden ilmoittaminen tai kyselylomakkeen kysymysten liittäminen aineistoon. Selkeä ja yksityiskohtainen dokumentointi auttaa myös sinua tulkitsemaan dataasi muun muassa silloin, jos palaat siihen vaikkapa vuosien kuluttua. Kannattaa siis pohtia, mitä tietoja tarvitsisit tässä tapauksessa.

Aineistoa dokumentoiva ja kuvaileva tieto voidaan tallentaa aineiston yhteyteen tai erillisenä tiedostona, joka tallennetaan aineiston kanssa. Se voi olla esimerkiksi README-tekstitiedosto, jossa kerrotaan tutkimusaineistoon liittyvä tarpeellinen tieto, kuten aineiston kerääjä, kuvaus, käytetyt menetelmät ja tiedostoihin liittyvä tieto, kuten lyhenteiden selitykset.

Suunnittele millaista tietoa tarvitset aineiston järjestämiseksi ja käyttämiseksi. Mieti millaisen kansiorakenteen tarvitset tiedostoille ja miten nimeät tiedostot. Luo tiedon löytymistä edesauttava kansiorakenne ja merkityksellinen, johdonmukainen tapa nimetä tiedostot niin, että jo nimi kertoo olennaista tietoa tiedostosta. Jos teet useita versioita aineistosta, muista versionhallinta.

Kaksi esimerkkiä tiedostojen nimeämisestä, ensimmäinen ilman nimeämiskäytäntöä ja logiikkaa ja toinen jossa on käytetty nimeämiskäytäntöjä loogisesti.
Kumpi nimeämistapa auttaa löytämään oikean tiedoston? Vasemmanpuoleisessa ei ole käytetty nimeämiskäytäntöjä ja erityyppistä aineistoa on tallennettu sekaisin samaan kansioon. Oikeanpuoleisessa on loogisempi ja selkeämpi rakenne ja nimeämistapa, joka auttaa löytämään oikean tiedoston.

Vinkkejä tiedostojen nimeämiseen:

  • käytä lyhyitä ja selkeitä kuvaavia nimiä, suosi ymmärrettäviä lyhenteitä. Erota sanat alaviivalla (_). Älä käytä erikoismerkkejä nimessä
  • jos aineistossa aika on olennainen tekijä, niin sen voi merkitä tiedoston nimessä: vuosi, kuukausi, päivä (VVVVKKPP esim. 20200901) tai tarvittaessa vielä tarkemmin: tunnit, minuutit, sekunnit (TTMMSS)
  • jos aineistosta syntyy useita versioita kannattaa niitä hallita lisäämällä V kirjain tiedostonimeen hyödyntäen vähintään kahta numeroa (esim. V02)

Lähteet

Tietoarkisto, Aineistonhallinnan käsikirja.

Tieteen termipankki.

Siiri Fuchs, & Mari Elisa Kuusniemi. (2018, December 4). Making a research project understandable – Guide for data documentation (Version 1.2). Zenodo.

Purdue University, Data management for Undergraduate Researchers.