Aineistonhallinnan opetukseen kaivataan tukea Itä-Suomen yliopistossa | Support is needed for teaching data management at the University of Eastern Finland

(Please, scroll down to read in English.)

Aineistonhallinta on olennainen osa tutkimus- ja tietotyötä, ja sen laatuun on alettu kiinnittää entistä enemmän huomiota. Aineistonhallinnalla tarkoitetaan toimenpiteitä, joilla kerätään, säilytetään ja käytetään aineistoja — mittaustuloksia, haastatteluja, tekstejä, näytteitä ja niistä kertynyttä dataa — turvallisesti ja tehokkaasti. Tutkimustyössä aineistonhallinnalla huolehditaan, että aineisto pysyy käytettävänä koko tutkimuksen ajan ja myös sen jälkeen. Lisäksi aineistonhallintaan voi kohdistua lainsäädännöllisiä vaatimuksia, kuten esimerkiksi tietosuoja-asetuksen vaatimukset henkilötietojen käsittelyyn. Useimmiten tutkimusaineistojen hallinnan suunnitelmat rajautuvat datan hallintaan.

Tavoitteena systemaattisempi aineistonhallinnan opetus perusopinnoissa

Aineistonhallinta on avoimen tieteen edellytys, minkä edistämiseen suomalaiset korkeakoulut, mukaan lukien Itä-Suomen yliopisto, ovat sitoutuneet. Suomessa tutkimusyhteisö on aktiivisesti mukana linjaamassa avoimen ja vastuullisen tieteen tavoitteita ja toimenpiteitä. Tutkimusaineistojen ja -menetelmien linjaus (1) julkaistiin vuonna 2021, ja yksi sen tavoitteista koskee opinnäytetöiden datanhallintasuunnitelmien opetusta: “Viimeistään vuonna 2024 korkeakoulut huolehtivat, että opinnäytetöiden ohjaajat osaavat osana ohjaustyötään arvioida ja kommentoida datanhallintasuunnitelmia” (s. 14). Aikataulu on tiukka, eikä tavoiteajassa pysymistä helpota se, että aineistonhallinnan opetus perusopiskelijoille on vasta kehittymässä ja sille ollaan vasta luomassa osaamistasoja sekä yhtenäisiä kansallisia käytänteitä.

Aineistonhallintasuunnitelman tekeminen on ollut jo pidemmän aikaa ehtona monien tutkimushankkeiden rahoitukselle, ja tutkijat ovat saaneet ohjeistusta niiden tekemiseen kirjastosta. Lisäksi aineistonhallinnan kurssi on ollut osa UEFin tohtorikoulun vapaavalintaisia opintoja jo useamman vuoden ajan. Sen sijaan aineistonhallinnan opetus perusopiskelijoille on ollut lähinnä laitosten, osastojen ja yksittäisten ohjaajien vastuulla, eikä opetuksen määrä ja laatu koko Itä-Suomen yliopiston tasolla ole ollut tiedossa.

Aineistonhallinnan opetukseen on kuitenkin syytä kiinnittää huomiota, sillä aineistojen ja datan asianmukainen käsittely lisää opinnäytetöiden laatua ja riskinhallintaa monin tavoin. Aineiston keruun ja käsittelyn läpinäkyvyys parantuu, kun toimenpiteet dokumentoidaan ja aineisto kuvaillaan huolellisesti. Asianmukainen tallennus ja jakaminen koko opinnäytetyön elinkaaren ajan ennaltaehkäisee vahingossa tapahtuvan aineiston tuhoutumisen tai sen päätymisen vääriin käsiin Aineistonhallinnan osaamisesta on hyötyä opintojen ja tutkimuksen teon ohella myös työelämässä ylipäätään.

Kysely ja sen tulokset

Aineistonhallinnan opetuksen tilanteen kartoittamiseksi UEF kirjasto teki kyselyn oppiaineiden opettajille ja opinnäytetyön ohjaajille. Kyselyssä keskityttiin datanhallintaan, ei fyysisten aineistojen hallintaan, vaikka fyysisetkin aineistot edellyttävät suunnitelmallista käsittelyä ja hallintaa. Kyselyyn saatiin 130 vastausta, ja vastaajia oli kaikista tiedekunnista ja useimmilta laitoksilta/osastoilta.

Jakauma: FILO 22 %. LUMET 18 %. TT 43 %. YHKA 17 %.

Kuva 1. Vastaajien määrä tiedekunnittain (n = 130). FILO = Filosofinen tiedekunta. LUMET = Luonnontieteiden ja metsätieteiden tiedekunta. TT = Terveystieteiden tiedekunta. YHKA = Yhteiskunta- ja kauppatieteiden tiedekunta.

Kyselyyn sai vastata suomeksi ja englanniksi. Vastauksista ilmeni, että aineistonhallintaa ei opeteta yksittäisenä kokonaisuutena, vaan se nivoutuu osaksi metodikursseja ja/tai opinnäytetyön ohjausta. Kyselyyn saatiin 130 vastausta, ja vastaajia oli kaikista tiedekunnista ja useimmilta laitoksilta/osastoilta.

Kyselyn tulokset osoittivat, että FAIR-periaatteet ja metadata tunnetaan heikoimmin opettajien ja ohjaajien keskuudessa. FAIR tulee sanoista Findable (=löydettävä), Accessible (=saavutettava), Interoperable (=yhteentoimiva) ja Re-usable (=uudelleen käytettävä) ja tarkoittaa käytännössä sitä, että aineistoa käsitellään niin, että tutkimuksen tulokset voidaan tarvittaessa verifioida sekä aineistoa on mahdollista jatkokäyttää olemassa olevan tutkimuksen jälkeen.

FAIR-periaatteiden käytännön toteuttaminen edellyttää hyvää tieteenala- ja aineistokohtaista ymmärrystä ja alan tutkimuskäytänteiden tuntemusta, mikä hankaloittaa yksityiskohtaisten yleisohjeiden antamista. Yleisluonteisia ohjeita kuitenkin laaditaan, mutta niiden perusteella FAIR-periaatteiden noudattaminen saattaa olla varsin vaikeaa. Myös metadata eli aineiston kuvailu oli heikommin tunnettua. FAIR-periaatteet ja metadata voivat myös olla termeinä vieraita, mutta monet ohjaat ja opettajat voivat käyttää niiden kuvaamiseen vaikkapa eri termejä ja toteuttaa niitä käytännössä tietämättään. Toisaalta opettajat ja ohjaajat tunsivat hyvin avoimen datan ja sen saatavuuden, mutta sitä ei juuri opeteta opiskelijoille, vaikka se on keskeinen aineistonhallinnan osa-alue.

Graafi. Kuinka hyvin tunnet seuraavat datanhallinnan osa-alueet? FAIR 44 % ei tunne eikä opeta. 7 % opettaa. Datan omistajuus 20 % ei tunne eikä opeta, 20 % opettaa. Avoin data 16 % ei tunne eikä opeta, 13 % opettaa. Datan tallennus tutkimuksen aikana 13 % ei tunne eikä opeta, 28 % opettaa. Metadata 28 % ei tunne eikä opeta, 16 % opettaa. Datan sensitiivisyys ja tietosuoja 10 % ei tunne, 37 % opettaa. Datan säilytys/hävitys tutkimuksen jälkeen 14 & ei tunne, 36 % opettaa.

Kuva 2. Datahallinnan osa-alueiden tuntemus

Vaikka aineistonhallinnan osa-alueet tunnettiin kohtalaisesti, noin puolet opettajista ja ohjaajista koki, että he tarvitsevat tukea aineistonhallinnan opetukseen ja ohjaukseen. Neuvontaa kaivattiin lähes kaikkiin aineistonhallinnan osa-alueisiin. Kun vastauksia tarkasteltiin tiedekuntakohtaisesti, Terveystieteiden tiedekunta (TT) erottui muista tiedekunnista siinä, että TT:ssä tunnetaan melko hyvin henkilötietoja ja arkaluonteisia henkilötietoja sisältävän aineiston käsittely. Toisaalta Terveystieteiden tiedekunnassa kaivattiin neuvontaa henkilö- ja terveystietoa sisältävien aineistojen avaamiseen. Se saattaakin olla usein työlästä ja vaikeaa, sillä avaamisessa tulee kiinnittää erityistä huomiota aineiston avaamisen laajuuteen ja käyttöoikeuksien asianmukaiseen jakeluun.

Graafi. Kaipaan neuvontaa seuraaviin datanhallinnan osa-alueisiin. FAIR-periaatteet 60 % kyllä, 40 % ei. Datan omistajuus 50 % kyllä, 50 % ei. Avoin data ja sen saatavuus 53 % kyllä, 47 % ei. Datan tallennus tutkimuksen aikana 43 % kyllä, 57 % ei. Metadata 49 & kyllä, 51 % ei. Datan sensitiivisyys ja tietosuoja 38 % kyllä, 62 % ei. Datan säilytys/hävitys tutkimuksen jälkeen 39 % kyllä, 61 % ei.

Kuva 3. Tuen tarve aineistonhallinnan eri osa-alueilla.

Missä vaiheessa opintoja? Kuka opettaa?

Aineistonhallinnan opetus nivoutuu useimmiten osaksi pro gradu -tutkielmaa joko osana seminaaria tai varsinaista työnohjausta. Opettajat ja ohjaajat myös kokivat, että tämä olisi luonnollisin ajankohta aineistonhallinnan opetukselle. Kyselyn avovastauksista ilmeni, että aineistonhallinta ylipäätään koetaan tarpeelliseksi ja että sen laadukkaaseen opetukseen ja ohjaukseen on syytä kiinnittää huomiota. Lisäksi kirjastolta toivottiin ohjausta aineistonhallinnan opetukseen ja tiivistä materiaalipakettia aineistonhallinnasta sekä ohjaajille, opettajille että opiskelijoille.

Vastauksena aineistonhallinnan opetuksen tarpeisiin, kirjastossa on suunnitteilla ohjaajan paketti kirjaston verkkosivuille. Lisäksi päivitämme ja pyrimme lisäämään nykyisten perusopiskelijoille suunnattujen aineistonhallinnan verkkosivujen näkyvyyttä. Suunnitelmissa on myös aineistonhallinnan opetuksen kehittäminen ja pilotoiminen yhteistyössä oppiaineiden kanssa.

(1) Nykyri, S., Päällysaho, S., Rosti, T., Sunikka, A., Neuvonen, A., & Kuusniemi, M. E. (2021). Tutkimusaineistojen ja -menetelmien avoimuus : korkeakoulu- ja tutkimusyhteisön kansallinen linjaus ja toimenpideohjelma 2021-2025. Osalinjaus 1, Tutkimusdatan avoin saatavuus. Helsinki: Tieteellisten seurain valtuuskunta. DOI: https://doi.org/10.23847/isbn.9789525995466 

Support is needed for teaching data management at the University of Eastern Finland

Data management, an essential part of research- and information work, has received increasing attention in recent years. Data management means procedures, which are used to collect, store, and use data safely and efficiently. Data can include measurement results, interviews, texts, samples, or data based on the aforementioned. In scientific research, data management ensures that the data will be usable throughout the research process – from preliminary data to data reposition after research. There can be also legal requirements, such as data privacy issues regulated by the general data protection regulation (GDPR), that mandate the data management procedures. Although data can also include physical samples, data management plans typically only concern data in a digital format.

Goal: Systematic training for data management during master’s studies

Data management is an integral part of Open Science, and Finnish higher education institutions (incl. University of Eastern Finland, UEF) are committed on promoting it. In Finland, the research community is actively developing goals and actions to promote open and responsible science. The National Policy and Executive plan by the higher education and research community (1) was published in 2021 and one of its goals involves teaching of data management during thesis supervision: “No later than 2024, higher education institutions will ensure that thesis supervisors are able to evaluate and comment on data management plans as part of their supervisory work” (pp 13). Because the skill levels and national practices are at the moment still being developed, the schedule is quite ambitious.

Writing data management plans has been a pre-requisite for several research funding instruments for a while and UEF Library has a major role in training researchers to write them. In addition, Library has offered a course on research data management for doctoral students for some years now. However, the training of master’s students for research data management has not been systematic, and instead the training has been organized mainly by departments and individual teachers and thesis supervisors. Therefore, the extent and the quality of the training is not known at the university level.

Nevertheless, it is necessary to pay attention to data management training and appropriate treatment of data because it will increase the quality of theses and it is also part of risk management. Appropriate storing and sharing of data will decrease the risks, such as accidental loss of data or data misuse. Being knowledgeable about data management is also an important general skill that is needed in working life.

Survey and results

The UEF library conducted a survey during May-June 2022 about the teaching of data management by teachers and thesis supervisors. The survey focused on management of digital data, rather than physical samples, although physical samples also need systematic handling and treatment. We received 130 answers, which covered all faculties and most departments.

Distribution. FILO 22%, LUMET 18%, TT 43%, YHKA 17%

Figure 1. Percentage of responses in faculties (n = 130). FILO = Philosophical Faculty. LUMET = Faculty of Science and Forestry. TT = Faculty of Health Sciences. YHKA = Faculty of Social Sciences and Business Studies.

Answers were accepted both in Finnish and English. The results showed that data management is not taught as a separate entity/topic, but instead as part of methodological courses or thesis supervision.

The results also show that the FAIR-principles and metadata are the least known parts of data management. The acronym derives from the words Findable, Accessible, Interoperable and Re-usable. In practice FAIR means that data are treated in a manner that research results can be verified, and the data can be re-used after the current work is completed. Applying FAIR-principles, however, requires good knowledge of data types used in each scientific field. This makes giving detailed, one-size-fits-all instructions difficult. Other less familiar data management topic was metadata, i.e., the description of data. The unfamiliarity with FAIR-principles and metadata could also be unknown as terms; hence, it is possible that many teachers and supervisors practice or work with them without knowing it. On the other hand, teachers and supervisors were familiar with open data, yet it was rarely taught to students despite being a key component of research data management.

Graph. How familiar are you with...? FAIR principles: Do not know 44%, teach 7%.Data ownership Do not know 20%, teach 20%. Open data Do not know 16%, teach 13%.Data storage Do not know 13%, teach 28%.Metadata Do not know 28%, teach 16%.Data sensitivity and data protection Do not know 10%, teach 37%. Data storage/disposal after research Do not know 14%, teach 36%.

Figure 2. Knowledge about areas of data management

Although all the key aspects of data management were known to some extent, almost half of the teachers and supervisors felt that they need support for teaching data management. Guidance was needed in all aspects of data management. When answers were compared between faculties, the knowledge about personal and sensitive data was the best in the Faculty of Health Science. On the other hand, teachers and supervisors in the Faculty of Health Science felt that they need guidance on how to open the data the most. Indeed, opening sensitive data can be difficult because the degree of openness and used rights must be considered carefully.

Graph. I need guidance in: FAIR principles Yes 60%, No 40%. Data ownership Yes 50%, No 50%. Open data Yes 53%, No 47%. Data storage Yes 43%, No 57%. Metadata Yes 49%, No 51%. Data sensitivity and data protection Yes 38%, No 62%. Data storage/disposal after research Yes 39%, No 61%.

Figure 3. Support needed in different areas of research data management

In which part of studies? Who is teaching?

According to the survey results, research data management was mostly taught as a part of thesis work, either as a part of seminar or during the actual thesis supervision. The teachers and supervisors also felt that this is the most suitable timing for the teaching. The open answers of the survey showed that teaching data management is important, and attention should be paid to good quality in teaching it. Respondents wished guidance and compact material bank for students, teachers, and supervisors.

In a response for the need for support in the teaching of data management, the UEF library will prepare a supervisor’s guide in the library website. We will also update and increase the visibility of the existing material for the students. Obviously, the first step is to translate all material in English. We will also possibly pilot the teaching of data management together with the departments.

(1) Nykyri, S., Päällysaho, S., Rosti, T., Sunikka, A., Neuvonen, A., & Kuusniemi, M. E. (2021). Open research data and methods National policy and executive plan by the higher education and research community for 2021–2025: Policy component 1: Open access to research data. DOI: https://doi.org/10.23847/isbn.9789525995480

Helena Jäntti, tietoasiantuntija | Information specialist
Taisa Sallinen, tietoasiantuntija | Information specialist
Manna Satama, tietoasiantuntija | Information specialist
Niina Nurmi, tietoasiantuntija | Information specialist
Laura Parikka, tietoasiantuntija | Information specialist
Opetus- ja tietopalvelut | Training and Information Services