OpenAlex vs. Tiedejatutkimus.fi -sivusto eli kevyt kattavuusvertailu | OpenAlex vs. Research.fi website or light coverage comparison

(Please, scroll down to read in English.)

Taustaa

OpenAlex on käyttäjille maksuton ja avoin tietokanta julkaisuista, tutkijoista, lehdistä, instituutioista ja käsitteistä sekä niiden välisistä yhteyksistä. Se julkaistiin vuonna 2022 korvaamaan Microsoft Academic Graph (MAG). OpenAlexin taustalla on voittoa tavoittelematon OurResearch, jota rahoittavat hyväntekeväisyysrahastot Arcadia ja The Welcome Trust sekä voittoa tavoittelematon The Navigation Fund.

Tällä hetkellä OpenAlex sisältää yhteensä yli 271 miljoonaa työtä (kuten julkaisuja, kirjoja, data-aineistoja, opinnäytetöitä), joista noin 659 000 sisälsi vähintään yhden tekijän suomalaisella affiliaatiolla. OpenAlexin datalähteinä ovat mm. MAG (Microsoft Academic Graph), Crossref, ORCID (Open Researcher and Contributor ID), ROR (Research Organization Registry), DOAJ (Directory of Open Access Journals), Unpaywall, Pubmed, The ISSN (International Standard Serial Number) International Centre sekä lukuisat repositoriot arXiv’sta Zenodoon.

OpenAlexin aineisto mahdollistaa esimerkiksi verkostoanalyysit konseptien, tekijöiden ja viittausten välillä sekä viitatuimpien tutkijoiden ja julkaisujen analysoinnin esimerkiksi VOSViewer-työkalun avulla. OpenAlex ei sisällä suoraan tieteenalatietoja, mutta lähes kaikille julkaisuille on koneoppimisalgoritmin avulla luotu sitä kuvaava käsite tai käsitteitä (concept). Yhteensä OpenAlex sisältää noin 65 000 hierarkkista käsitettä. Lisäksi OpenAlex tallentaa tietoja esimerkiksi julkaisujen avoimesta saatavuudesta ja viittausten määrästä.

Tiedejatutkimus.fi on opetus- ja kulttuuriministeriön (OKM) tarjoama palvelu, joka kokoaa ja jakaa tietoa Suomessa tehtävästä tutkimuksesta. Palvelun toteuttaa CSC yhteistyössä korkeakoulujen, tutkimuslaitosten sekä tutkimusrahoittajien kanssa. Tällä hetkellä palvelu sisältää tietoa mm. suomalaisesta tutkimusjärjestelmästä, julkaisuista, julkisten ja yksityisten tutkimusrahoittajien rahoittamista hankkeista, tutkijoista ja tutkimusaktiviteeteista sekä tilastotietoa tutkimuksen henkilöstön, rahoituksen sekä julkaisujen tieteellisen vaikuttavuuden kehityksestä.

Olemme tehneet kevyen kattavuusvertailun vv. 2022–2024 tavoitteenamme katsoa, miten suomalaisen tiedejatutkimus.fi-palvelun tiedot löytyvät OpenAlex-tietokannasta. Tarkastelua ei ole tehty yksittäisten julkaisuiden tasolla, vaan ainoastaan katsomalla kummastakin tietokannasta saatavia tieteellisten julkaisuiden lukumääriä valikoiduista luokista.

Luokituksista

Selvitystä tehdessämme huomasimme, että näiden kahden tietokannan luokitukset vastaavat toisiaan varsin huonosti. Näin ollen otimme mukaan ainoastaan suhteellisen helposti tunnistettavat ja jollakin tavalla vertailukelpoiset luokat kummastakin lähteestä. OpenAlexin luokittelun 20 kategoriasta valitsimme tarkasteluun artikkelit (Article), katsausartikkelit (Review), kirjat (Book) ja kirjojen luvut (Book-chapter) sekä luokan muu (Other), joka näytti sisältävän pääsääntöisesti kokoomateosten osia. Kannattaa huomata, että konferenssiartikkelit lasketaan OpenAlexissa artikkeleiksi ilman omaa luokkaa. Tämän tarkastelun ulkopuolelle jätimme OpenAlexin luokituksesta mm. data-aineistot, koska niitä ei tiedejatutkimus.fi-palvelusta löydy, sekä sellaiset luokat, jotka eivät ole erityisen kiinnostavia tai keskeisiä tämän vertailun puitteissa.

Tiedejatutkimus.fi-palvelusta otimme mukaan luokan A (Vertaisarvioidut tieteelliset artikkelit) ja luokan C (Tieteelliset kirjat). Näistä luokkaan A kuuluu tieteelliset artikkelit (A1) ja katsausartikkelit (A2), kirjan osat (A3) sekä konferenssiartikkelit (A4). Luokkaan C puolestaan kuuluu tieteelliset erillisteokset (C1) sekä toimitetut kirjat, kokoomateokset, konferenssijulkaisut ynnä lehden erikoisnumerot (C2).

Löydetyistä lukumääristä

Alla olevasta taulukosta nähdään, että UEFin affiliaatiolla vv. 2022–2024 olevia julkaisuja löytyy tiedejatutkimus.fi:stä 8 557 ja OpenAlexista 7 624. Pelkästään näiden lukujen valossa voidaan todeta, että OpenAlexin kattavuus on noin 89 %.

Taulukko, jossa on sekä tiedejatutkimus.fi-palvelun että OpenAlex-tietokannan tieteellisten tekstien luokitukset. Taulukossa on lukumäärät luokittain vuosien 2022–2024 ajalta.
1. rivi:
Tieteelliset artikkelit: tiedejatutkimus.fi: 6515, OpenAlex: 6643
2. rivi:
Katsausartikkelit:
tiedejatutkimus.fi: 681, OpenAlex: 572
3. rivi:
Kirjan tai muun kokoomateoksen osa:
tiedejatutkimus.fi: 871, OpenAlex: 370
4. rivi:
Artikkelit konferenssijulkaisuissa:
tiedejatutkimus.fi: 300, OpenAlex: N.A.
5. rivi:
Tieteelliset kirjat:
tiedejatutkimus.fi: 53, OpenAlex: 39
6. rivi
Toimitettu kirja, kokoomateos, konferenssijulkaisu tai lehden erikoisnumero:
tiedejatutkimus.fi: 137, OpenAlex: N.A.
7. rivi:
Yhteensä:
tiedejatutkimus.fi: 8557, OpenAlex: 7624

Tiedejatutkimus.fi -sivuston sekä Open Alexin hakutulosten vertailua.

Tieteellisiä artikkeleita löytyy tiedejatutkimus.fi:stä 6 515 ja, kun tähän lukuun lisätään konferenssiartikkelit (300), saadaan OpenAlexin lukumäärän 6 643 suhteen vertailukelpoinen luku 6 815. Jollakin tavalla avoimena artikkeleista on tiedejatutkimus.fi:n mukaan 89 % (5 839) ja OpenAlexin mukaan 82 % (5 447).

Pylväsdiagrammi, jossa on vierekkäin tieteellisten artikkelien määrät tiedejatutkimus.fi-palvelussa ja OpenAlex-tietokannassa. Toisena pylväsparina on avoimena olevien artikkelien määrät palveluittain.
1. pylväspari:
Tieteelliset artikkelit kaikkiaan:
tiedejatutkimus.fi: 6515, OpenAlex: 6643
2. pylväspari:
Avoimet tieteelliset artikkelit:
tiedejatutkimus.fi: 5839, OpenAlex: 5447

Katsausartikkeleita löytyy tiedejatutkimus.fi:stä 681 ja OpenAlexista 572. Näistä avoimesti saatavilla on 90 % (610) ja 82 % (466).

Pylväsdiagrammi, jossa on vierekkäin katsausartikkelien määrät tiedejatutkimus.fi-palvelussa ja OpenAlex-tietokannassa. Toisena pylväsparina on avoimena olevien katsausartikkelien määrät palveluittain.
1. pylväspari:
Katsausartikkelit kaikkiaan:
tiedejatutkimus.fi: 681, OpenAlex: 572
2. pylväspari:
Avoimet katsausartikkelit:
tiedejatutkimus.fi: 610, OpenAlex: 466

Edelleen kirjojen tai muiden kokoomateosten osia löytyy tiedejatutkimus.fi:stä 871 ja OpenAlexista 370. Avoimuusasteet näiden kohdalla ovat 50 % (435) ja 10 % (36).

Pylväsdiagrammi, jossa on vierekkäin tieteellisten kirjojen lukujen tai osien määrät tiedejatutkimus.fi-palvelussa ja OpenAlex-tietokannassa. Toisena pylväsparina on avoimena olevien kirjojen lukujen tai osien määrät palveluittain.
1. pylväspari:
Tieteellisten kirjojen luvut tai osat kaikkiaan:
tiedejatutkimus.fi: 871, OpenAlex: 370
2. pylväspari:
Avoimet tieteellisten kirjojen luvut tai osat:
tiedejatutkimus.fi: 435, OpenAlex: 36

Vastaavasti tieteellisiä kirjoja löytyy tiedejatutkimus.fi:stä yhteensä 190, joista 53 on tieteellisiä erillisteoksia ja loput 137 toimitettuja kirjoja, kokoomateoksia, konferenssijulkaisuja tai lehden erikoisnumeroita. Näistä avoimina on 23 % (12) ja 62 % (85). OpenAlexista puolestaan löytyy kirjoja (Book) ainoastaan 39, joista avoimena on 26 % (10).

Pylväsdiagrammi, jossa on vierekkäin tieteellisten kirjojen määrät tiedejatutkimus.fi-palvelussa ja OpenAlex-tietokannassa. Toisena pylväsparina on avoimena olevien kirjojen määrät palveluittain.
1. pylväspari:
Tieteelliset kirjat kaikkiaan:
tiedejatutkimus.fi: 53, OpenAlex: 39
2. pylväspari:
Avoimet tieteelliset kirjat:
tiedejatutkimus.fi: 12, OpenAlex: 10

Mitä edellä olevista luvuista voikaan päätellä?

Mitään kovin pitkälle meneviä johtopäätöksiä ei näin kevyen vertailun perusteella voi tehdä. Selvää on se, että toistaiseksi OpenAlexin tietokannasta ei löydy kaikkia niitä UEFin julkaisuja, jotka tiedejatutkimus.fi-palvelu pitää sisällään. Tämä on ymmärrettävää, koska OpenAlexin tietokanta on varsin tuore eikä sieltä löytyvä data ole toistaiseksi kunnossa kaikilta osin –datassa on todettu virheellisyyksiä mm. affiliaatioissa. Tiedejatutkimus –sivustoille siirretyistä artikkelitiedoista on pelkän UEF-affiliaation lisäksi tarkastettu myös kirjoittajan todellinen (työ)suhde yliopistoon OKM:n raportointisääntöjen mukaisesti. Tämäkin osaltaan selittää OpenAlexin suuremmat luvut artikkeleissa.

OpenAlexista puuttuu paljon suomenkielisiä julkaisuja, kuten kirjojen lukuja. Varovaisen arvion mukaan kohennusta OpenAlexin kattavuuteen ja datan laatuun saamme odottaa vielä useampia vuosia.

Background information

OpenAlex is a free and open database of publications, researchers, journals, institutions and concepts, and the connections between them. It was released in 2022 to replace the Microsoft Academic Graph (MAG). OpenAlex is backed by OurResearch, a non-profit funded by the Arcadia and The Welcome Trust and the non-profit The Navigation Fund.

Currently OpenAlex contains a total of more than 271 million works (such as publications, books, datasets, theses), of which approximately 659,000 contained at least one author with a Finnish affiliation. OpenAlex’s data sources include MAG (Microsoft Academic Graph), Crossref, ORCID (Open Researcher and Contributor ID), ROR (Research Organization Registry), DOAJ (Directory of Open Access Journals), Unpaywall, Pubmed, The ISSN (International Standard Serial Number) and numerous others.

The OpenAlex data enables, for example, network analyses between concepts, authors and references, as well as analysis of the most cited researchers and publications, for example, using the VOSViewer tool. OpenAlex does not directly contain field data, but almost all publications have been created using a machine learning algorithm to describe a concept or concepts (concept). In total, OpenAlex contains approximately 65,000 hierarchical concepts. In addition, OpenAlex stores information such as open access to publications and the number of citations.

Research.fi is a service provided by the Ministry of Education and Culture (OKM), which collects and distributes information on research conducted in Finland. The service is implemented by CSC in cooperation with higher education institutions, research institutes, and research funders. Currently, the service contains information on the Finnish research system, publications, projects funded by public and private research funders, researchers and research activities, as well as statistical data on the development of research personnel, funding and the scientific impact of publications.

We have made a light coverage comparison in 2022–2024 with the aim to see how the data of the Finnish science and research.fi service can be found in the OpenAlex database. The review has not been conducted at the level of individual publications, but only by looking at the numbers of scientific publications from both databases from selected categories.

About the classification

We found that the classifications of the two databases correspond quite poorly. Thus, we included only relatively easily recognizable and, in some way, comparable classes from both sources. Of the 20 categories in OpenAlex’s classification, we selected articles (Article), review articles (Review), books (Book) and book chapters (Book-chapter) for review, as well as the class for the others (Other), which seemed to contain book chapters mainly. It is worth noting that conference articles are counted as articles without their own category in OpenAlex. We excluded from this review e.g. datasets from OpenAlex’s classification, because they are not found in the research.fi service, as well as classes that are not particularly interesting or central within the framework of this comparison.

From research.fi we included Class A (Peer-reviewed scientific articles) and Class C (Scientific books). Of these, category A includes journal articles (A1) and review articles (A2), book sections (A3), and conference articles (A4). Class C, on the other hand, includes scientific books (C1), as well as edited books, conference proceedings, and special issues of journals (C2).

About the numbers found

In the table below, the publications with the UEF affiliate vv. 2022–2024 can be found at research.fi 8,557 and OpenAlex 7,624. Considering these figures alone, the coverage of OpenAlex is about 89%.

A table with classifications of scientific texts from both research.fi and the OpenAlex database. The table shows the numbers by category for the years 2022-2024.
1st row:
Scientific articles: research.fi: 6515, OpenAlex: 6643
2nd row:
Review articles:
research.fi: 681, OpenAlex: 572
3rd row:
Section of a book or chapters in research books:
research.fi: 871, OpenAlex: 370
4th row:
Articles in conference proceedings:
research.fi: 300, OpenAlex: N.A.
5th row:
Scientific books:
research.fi: 53, OpenAlex: 39
6th row
Edited book, compilation, conference publication or special issue of a journal:
research.fi: 137, OpenAlex: N.A.
7th row:
Total:
research.fi: 8557, OpenAlex: 7624
Comparison of search results from Tiedejatutkimus.fi and Open Alex.

Similarly, a total of 6,515 scientific articles can be found at research.fi. Adding conference articles (300) to this number gives a sum of 6,815, which can be compared to the number of OpenAlex 6,643. According to research.fi, 89% of the articles are somehow open (5,839) and according to OpenAlex 82% (5,447).

Up to 681 review articles are found on research.fi and 572 on OpenAlex. Of these, 90% (610) and 82% (466) are openly available, respectively.

There is a total of 871 books in research.fi and 370 in OpenAlex. The OA % for these are 50% (435) and 10% (36), respectively.

Correspondingly, a total of 190 scientific books can be found at research.fi, of which 53 are separate scientific works and the remaining 137 are books, conference proceedings or special issues of journals. Of these, 23% (12) and 62% (85) are open. On the other hand, there are only 39 books on OpenAlex, of which 26% are open (10).

What can we conclude from the above figures?

Based on such a light comparison, only some conclusions can be drawn. What is clear is that so far, the OpenAlex database does not contain all the UEF publications that the research.fi service includes. This is understandable because the OpenAlex database is quite young and fresh, and the data it contains is incorrect in some respects – so far errors have been found in the data e.g. in affiliations. In addition to transferring article data to the Science and Research websites, the actual (employment) relationship of the author with the university has also been verified according to the Ministry of Education and Culture’s reporting rules, beyond just the UEF affiliation. This also partly explains the higher article counts in OpenAlex.

OpenAlex lacks many Finnish-language publications, such as book chapters. According to a conservative estimate, we can expect even more years of improvement in the coverage and data quality of OpenAlex.

Marja Kuittinen, Tietoasiantuntija | Information Specialist
Jukka Kananen, Palvelupäällikkö | Head of services
Verkko- ja julkaisupalvelut | Library IT and Publishing Services