Avoimia tietoaineistoja: Mitä ja kenelle? / Open research data materials: what and for whom?

(To read in English, please, scroll down.)

Tutkimuksen avoimuuteen kuuluu keskeisenä osana aineistojen avoin saatavuus. Tutkimusaineistojen avoimella saatavuudella edistetään tutkimuksen saavutettavuutta sekä aineistojen ja tutkimustulosten jatkokäyttöä. Avoimet aineistot pitävät sisällään monenlaista tietoa: ne voivat koostua julkaisuista, metatiedoista, dataseteistä tai vaikkapa postereista tai PowerPoint-esityksistä. Olennaista on, että aineistot ovat maksuttomasti muiden löydettävissä ja hyödynnettävissä.

Olen aivot hiessä perehtynyt käytössä oleviin avoimiin tietoaineistopalveluihin ja niiden tarjoamiin mahdollisuuksiin. Tarjolla on sekä suomalaisia että kansainvälisiä palveluita, joista useimmat toimivat paitsi tutkimustiedon lähteinä, myös omien tutkimustulosten jakelu- ja tallennuspaikkana.

Suomalaisia avoimia tutkimusaineistojen hakupalveluita ovat mm. Etsin, AVAA, Aila, Doria ja Theseus. Etsimestä haetaan ja sinne tallennetaan metadataa eli tutkimusaineistoja kuvailevia tietoja eri tieteenaloilta. Tutkija tallentaa aineistonsa valitsemaansa tieteenalakohtaiseen tai yleiseen tietoarkistoon, josta metatiedot lisätään Etsimeen. Näin tutkimustulokset ovat laajemman yleisön haettavissa ja käytettävissä. AVAA on aineistojen avaajille ja avointen aineistojen jatkohyödyntäjille suunnattu tutkimusaineistojen julkaisualusta. AVAA sisältää tällä hetkellä pääasiassa luonnontieteiden ja kielitieteiden paikkatietoaineistoja. Palveluportaali Ailasta löytyy yhteiskuntatieteelliseen tietoarkistoon arkistoituja, yhteiskunnallisten alojen tutkimusaineistoja metatietoineen. Aineistojen selaaminen ja hakeminen on vapaata ja aineistot ovat hyödynnettävissä aineistojen luovuttajan käyttöehtojen mukaisesti. Ladatut aineistot saa avattua esim. SPSS-ohjelmalla. Itä-Suomen yliopiston sähköiset opinnäytteet ja sarjat löytyvät tällä hetkellä UEF Electronic Publications -palvelusta. Suuri osa julkaisuista on avoimesti saatavilla. Doria on Kansalliskirjaston ylläpitämä julkaisuarkisto, josta löytyy usean viranomaistahon tai muun julkisen organisaation (esim. ELY-keskus, Liikennevirasto ja Tilastokeskus) tuottamia julkaisuja. Theseuksesta voi hakea avoimesti saatavilla olevia ammattikorkeakoulujen opinnäytetöitä ja muita julkaisuja. Kielipankissa on laaja valikoima teksti- ja puheaineistoja hyödynnettäväksi. Avoindata.fi-palvelusta löytyy mm. kuntien avoimia aineistoja. Vilkaise myös kansalliskirjaston julkaisuarkistopalvelua!

Eurooppalainen Zenodo on tutkimustulosten jakamiseen ja tallentamiseen keskittyvä, OpenAIRE-hankkeen ja CERN:n kehittämä palvelu. Zenodoon voi tallentaa aineistoja kaikilta tieteenaloilta. Palvelussa on avoimesti saatavissa mm. postereita, datasettejä, esityksiä, konferenssijulkaisuja, kuvia ja artikkeleita. EU-komission tukema, tutkimuksen avoimuutta edistävä OpenAIRE -portaali haravoi eurooppalaisia ja kansainvälisiä julkaisuarkistoja, ja sisältää tällä hetkellä noin 10 miljoonaa avointa julkaisua tai data-aineistoa. Portaali myös opastaa tutkijoita löytämään omaan tarpeeseen sopivan julkaisu- tai data-arkiston. CESSDA on eurooppalaisten yhteiskuntatieteellisten tietoarkistojen muodostama palvelukokonaisuus, jonka suomalainen palveluntuottaja on yhteiskuntatieteellinen tietoarkisto Aila. CESSDA:n sivuille on koottu eurooppalaisia tietoarkistoja ja -palveluita valtioittain. European Data Portal haravoi metadataa julkisen sektorin informaatiosta. Euroopan tasolla portaali kokoaa kansallista avointa aineistoa yhteen paikkaan muiden hyödynnettäväksi. Myös European Union Open Data Portal tarjoaa keskitetyn pääsyn EU:n toimielinten ja laitosten tuottamiin aineistoihin. Piipahda EUDAT:n sivuilla katsastamassa heidän tietoaineistopalveluitansa.

DOAJ on hakemisto verkossa vapaasti saatavana olevista kansainvälisistä tieteellisistä aikakauslehdistä. Palvelun tavoitteena on kattaa kaikki tieteenalat. Europe PMC puolestaan kokoaa avoinna olevia PubMed:n ja PubMed Central:n kokotekstejä ja abstrakteja. Pangaea:sta voi etsiä geo- ja ympäristötieteiden datasettejä. ArXiv-arkisto on tuttu etenkin matemaatikoille ja fyysikoille, sillä näillä aloilla tieteellisten tutkimusten ennakkojulkaisut on jo vuosia rinnakkaistallennettu ArXiv:iin.

Palveluita avoimen datan etsimiseen ja julkaisemiseen on jo olemassa, hankalinta lienee valita itselleen ja omalle työlleen käyttökelpoisimmat vaihtoehdot. Yleensä omien töiden julkaisemiseen suositellaan oman tieteenalan tietoarkistoa, jotta tutkimusaineistot saavuttavat oikean lukija- ja käyttäjäkunnan. UEF:n tulevan rinnakkaistallennuspalvelun, UEF//eRepositoryn, avulla voimme lähitulevaisuudessa saada UEF-julkaisut tallennettua avoimeen julkaisuarkistoon. Tämän tieteen avoimuutta ja näkyvyyttä aimoharppauksin parantavan rinnakkaistallennuspalvelun käyttöönottoa vielä pari kuukautta odotellessa… Sillä välin rohkeasti tutustumaan ja kokeilemaan näitä muita!

oa_data

 

Lisätietoja:

Open UEF

Avoin tiede ja tutkimus

Kaisa Hartikainen, tietoasiantuntija, opetus- ja tietopalvelut, Kuopion kampuskirjasto

 

Open research data materials: what and for whom?

An essential part of open science is open access to research data.

Open access to data promotes the accessibility to research and the follow-up application of research data and results. Open access data features many sorts of information: publications, metadata, data sets or even posters or PowerPoint presentations. The main idea is that the data can be accessed and utilised by others – free of charge.

My brain has been set to get acquainted with open access data material services that would already be in use and the possibilities they could offer. There are both Finnish and international services available, and most of them work not only as sources for research information but also as places of storing and distributing your own research results.

Finnish open access data material search services include Etsin, AVAA, Aila, Doria and Theseus. In Etsin, you can search for and save metadata, i.e. descriptive information regarding research data from different fields of science. Researchers choose into which discipline-specific or general data archive they store their data. Metadata is retrieved from there and added to Etsin. This allows research results to be retrievable and usable for a larger audience.

AVAA is an open data publishing platform designed for researchers who use and further refine data material. At the moment AVAA contains mainly georeferenced data and information of natural sciences and linguistics. Service portal Aila has research data archived in the sociological data archive with their metadata. Browsing and searching the material is free of charge and the materials can be utilised according to terms and conditions defined by the data provider. The uploaded materials can be opened with software such as SPSS.

The electronic theses and series publications of the University of Eastern Finland can be found in the UEF Electronic Publications service at the moment. Many of the publications are openly accessible. Doria is a publication archive maintained by the National Library of Finland. In Doria you can find publications of several authorities or other public organisations (for example, Centre for Economic Development, Transport and the Environment, Finnish Transport Agency, Statistics Finland). You can use Theseus to search openly available theses and other publications of universities of applied sciences and polytechnics. The Language Bank of Finland has a wide variety of written and spoken material to be utilised, while Avoindata.fi contains, for instance, open material concerning municipalities, towns and cities in Finland. Take also a look at the National Library’s publication archive service!

The European Zenodo is a service developed by the OpenAIRE project and CERN, focusing on distribution and storage of research results. You can save materials from all fields of science into Zenodo. The service openly provides posters, data sets, presentations, conference publications, images and articles. The open access-promoting OpenAIRE portal supported by the European Commission gathers material from European and international publishing archives. At the moment it contains approximately ten million open publications and data material files. The portal also guides researchers to find a suitable publication or data archive for their needs.

CESSDA is a service consortium comprised by European sociological data archives. Its Finnish service provider is the aforementioned Aila, and its European data archives and services have been gathered from different nations, while European Data Portal gathers metadata from public sector information. On the European level, the portal collects national open data material into one place to be utilised by others. In addition, European Union Open Data Portal offers a concentrated access to material produced by the institutions and departments of the European Union. Visit also the EUDAT’s website to check out their data material services.

DOAJ is an index of all international scientific journals openly accessible online. The goal of the service is to cover all fields of science. On the other hand, Europe PMC gathers open full text and abstract material of the PubMed and PubMed Central databases. Pangaea can be used to search data sets of geological and environmental sciences. The ArXiv archive might be familiar to mathematicians and physicists, for practitioners of these fields of science have been self-archiving preprints of scientific research projects for years in ArXiv.

Services for open data searching and publishing do already exist, but the most difficult thing may be to choose the most suitable options for you and your work. Usually it is recommended to use a data archive of your own field of science, so that your research data materials reach the right readers and users. An upcoming self-archiving service brought to you by UEF, the UEF//eRepository, will help us to store UEF publications into an open publication archive in the near future. A service that will promote the openness and visibility of science in leaps and bounds is coming, so stay tuned. Meanwhile, go ahead and have a go at the ones mentioned above!

For more information:

Open UEF

Open Science and Research

Kaisa Hartikainen & Urho Heinonen, Kuopio Campus Library

Tutkimusdatapalveluista

Research data and services workshop during the EGI Community Forum 2014, 20.5.2014
Kansainvälisessä tunnelmassa käsiteltiin erilaisia tutkimusdata-hankkeita ja niiden tuottamia tuloksia. Useimmat esitykset käsittelivät sekä tekniikkaa että poliittista kenttää tutkimusaineistojen ja –datan halliinan osalta.

RDA:n (Research Data Alliance) Peter Wittenburgin esityksessä korostui tutkimusdatan jakaminen ilman rajoja ja esitys lähtikin mukavasti liikkeelle Euroopan komission varapuheenjohtajan Neelie Kroesin sanoin: “Knowledge is the engine of our economy. And data is its fuel.” Nykyään tietoa tuotetaan ja analysoidaan paljon, tarvitaan tieteiden välisiä harmonisoituja ratkaisuja datan hallintaan, koko elinkaaren ajalle. Käytössä voi olla tieteenalakohtaisia, kansallisia tai organisaatiokohtaisia ratkaisuja. RDA-verkoston tavoitteena on ylittää raja-aitoja helpottamalla yhteistyötä ja datan jakamista ja saatavuutta kansainvälisesti asiantuntijoiden, erilaisten tieteenalojen ja erilaisten yksiköiden välillä. Taustarahoittajina toimii euroopan komissio, Australian National Data Service ja US National Science Foundation. Jatkossa mukaan on tulossa muitakin toimijoita. Toimintaediana on että asiantuntijoista koostetaan työ ja kiinnostusryhmiä konkretisoimaan erilaisia ongemia, joita ryhdytään ratkomaan. Eräänä esimerkkinä nostettiin esille PID-tunnus (Persistent Identifiers), jossa ajatuksena on että dataobjekteilla olisi oma tunnistusnumero samalla tavoin kuin IP-numerot tietoverkoissa.

EUDAT:n Damien Lecarpentier esitteli eurooppalaista konsortiohanketta, jossa mm. CSC on mukana. Hankkeen tausta-ajatus on luoda tiede- ja tutkimusyhteisöille kestävä Euroopan kattava datainfrastruktuuri, jonka avulla tiedeyhteisöjen tuottama tieto on paremmin saatavissa. Työskentely on käyttäjälähtoistä ja haasteet kasvavat tieteenalojen lisääntyessä. EUDAT on tuotteistanut toimintoja ja tarjolla on tiedonhaku, replikointi, tallennus ja jakaminen sekä tieteelliset laskentapalvelut. Jatkosuunnitelmissa ovat erilaiset pilvipalvelut, semantiikan hyödyntäminen ja mahdollisesti dynaaminen data. Hankkeen tavoitteena on rakentaa integroitu ratkaisu palveluille – yhden luukun peritaatteella. Tämä varmaan helpottaisi tutkijoiden työtä tulevaisuudessa. Toiminnan taustalla on kansainvälinen jaettu data. Kansalliset tai tieteenalakohtaiset ratkaisut eivät välltämättä palvele tutkimusta tai datan tallennusratkaisut eivät ole riittäviä tai ne ovat kalliita. Tämän vuoksi on tärkeää olla mukana kansainvälisessä yhteistyössä ja hyödyntää kansainvälisiä ratkaisuja, koska tutkimustyön ja tutkimusryhmien kansainvälistyessä tallennusratkaisujen ja –palveluiden tulee olla samalla tasolla. Hankkeella on kumppanuuksia myös RDA:han ja ATT-palveluihin.

OKM:n Sami Niinimäki toi kansallisen kuvan tieteen ja tutkimuksen avoimuuden tavoitteista. Samassa yhteydessä esille tuli Euroopan komission tavoitteet, jotka ohjaavat kansallista päätöksentekoa ja ovat taustana suunnittelutyölle. Esimerkiksi Horizon 2020-ohjelman kaikki tieteelliset julkaisut pyritään saamaan vapaasti julkaistuksi.

OpenAIRE on Euroopan komission rahoittama hanke, jonka tarkoituksena on kehittää tiatoaineistoinfrastruktuureita Euroopan unionissa, kokoamalla Euroopan komission rahoittamien projektien tutkimustuloksia ja asettamalla ne saataville keskitetyn portaalin kautta. Kimmo Koskinen ja Antonis Lempesis esittelivät palvelua hiukan eri näkökannoista. Palvelut kattavat tekstilouhinnan, tilastoinnin, raportointityökalut sekä neuvonnan. Zenodo on julkaisuarkisto tutkimusdatalle ja –artikkeleille, joita ei voi tallentaa organisaatio- tai alakohtaisiin arkistoihin. Zenodoon on mahdollisuus tallentaa julkaisuja, postereita, esityksiä, datajoukkoja, kuvia, videoita ja ohjelmia. Hankkeessa on tuotettu ohjeita sekä data-arkistojen että CRIS-ylläpitäjille.

ATT (Avoin tiede ja tutkimus) palveluista kertoi Tuija Raaska. Kyseessä on OKM:n rahoittama hankekokonaisuus, jossa koordinoidusti tuotetaan palveluita avoimen tieteen käyttöön. Tietojen tallunnuspalvelut, suomalaisen tutkimusjulkaisemisen portaali, metadatapalvelut tutkimusdatalle, avoimen julkaisemisen alusta. Viesti oli että palveluiden käyttäjiä on vähän. Käytäväkeskusteluissa nousi esille se, että kuinka tutkijat tietävät tarjolla olevista palveluista. Pitäisikö markkinointiviestintää tehostaa vai onko tiedottamisen kohteena väärä kohderyhmä. Pitäisikö kirjaston ottaa roolia erilaisten tutkimuksen tukipalveluiden tiedottajana.

Ivo Grigorov piti elähdyttävän esityksen avoimen tieteen oikeutuksista ja siitä mitä näkökulmaa asioihin otetaan eli katsotaanko asiaa hallinnon vai tutkijan näkökulmasta. Esityksen kannanottona oli, että avoimuudesta tulisi tehdä osa meritoitumista.

Ari Asmi käsitteli tutkimusdataan viittaamisen periaatteita. Esimerkkitapauksen valossa hän toi esille samalla erään RDA working group:n toimintaa.

Paneelikeskusteluissa nousivat esille er toimijoiden roolit ja vastuut. Rahoittajat vaativat tiettyä raportointia, johon hallinto pyrkii vastaamaan. Vastaavasti julkaisuprosessit ja tutkimusaineistojen saatavuus kiinnostavat kirjastosektoria. Laitokset markkinoivat itseään tuottamillaan projekteilla ja niiden tutkimustuloksilla. Toimijoiden verkosto on laaja ja kokonaisuutta tulisi katsella laajemmasta näkökulmasta kuin omasta. Rajapintojen hyödyntäminen tietojärjestelmien välillä voi tuoda helpotusta. Kansainvälistyvässä maailmassa ei voida pysytellä kotimaan rajojen sisäpuolella, vaan on katsottava myös aidan toiselle puolelle. Tieteellisessä koulutuksessa tulisi nostaa keskiöön avoin tiede ja opastaa opiskelijoita avoimeen toimintaperiaatteeseen jo ensi metreiltä. Meritoitumisessa tulisi huomioida paremmin myös avoimesti julkaistut tutkimusaineistot ja avoimen tieteen edistämistä tulisi edesauttaa mieluummin porkkanalla kuin kepillä. Loppuun heitettiin haaste myös kirjastoille: Kirjastojen pitäisi ryhtyä tekemään datalle samaa kuin ne tekevät tällä hetkellä kirjoille.

Tomi Rosti, tietoasiantuntija