Visuaalisia tiedonhaun välineitä | Visual tools to explore research papers

Toisiaan leikkaavia ympyröitä joissa tekstiä sekä viivojen yhdistämiä pallukoita. Results shown on Open Knowledge Maps and Connected Papers

Open Knowledge Maps ja Connected Papers -hakutuloksia | Results shown on Open Knowledge Maps and Connected Papers

(Please, scroll down to read in English.)

Joka päivä julkaistaan noin 4000 uutta tieteellistä artikkelia tai muuta julkaisua. Miten löytää olennainen ja tieteellisesti pätevä suuresta massasta? Ovatko suuret julkaisumäärät kenenkään hallittavissa?

Tekoälypohjaiset välineet ovat tulleet säästämään tiedonhakijan aikaa ja vaivaa. Usein niitä yhdistää hakutulosten esittäminen visuaalisesti “karttana” tai muuna graafisen kuviona.

Tarkoitus ei ole löytää kaikkea aiheeseen liittyvää vaan kone valitsee hakijan puolesta relevanteimmat ja mielenkiintoisimmat perustuen lähdeluetteloihin, viittausketjuihin ja tekstin samankaltaisuuksiin (semantic similarity). Avainsanoilla haku ei ole ainoa tapa löytää hyviä lähteitä, “siemenenä” voi käyttää jotakin mielenkiintoista artikkelia.

Uudet välineet ovat avoimia ja maksuttomasti käytettäviä. Avoimen tieteen myötä on syntynyt tietokantoja (esim. Semantic Scholar, BASE, CORE), joihin haravoidaan monialaisesti ympäri maailmaa tuhansien eri organisaatioiden julkaisuarkistoja (repositories). Uudet hakuvälineet käyttävät näitä pohjadatana. Lisäksi PubMed biolääketieteen ja terveystieteiden avoimena tietokantana on monessa vaihtoehtona. Kaikki tuloksiin tulevat julkaisut eivät kuitenkaan ole avoimia. Avoin julkaiseminen on yleistynyt vasta viime vuosina.

UEF-kirjastolla on ollut muutamia vuosia käytössä Iris.ai, joka oli ensimmäisiä tekoälypohjaisia välineitä avoimen tieteellisen tiedon hakuun Googlen ja Google Scholarin vaihtoehtona . Kokemuksia Iris.ai:sta voi lukea Signum-lehden artikkelistamme. Artikkelin kirjoittamisen seurauksena upposimme syvemmälle vastaaviin hakuvälineisiin. Tähän olemme valinneet muutaman. Parhaiten käsityksen saa kokeilemalla tai katsomalla linkit.
Iris.ai-tilaus on lopetettu Itä-Suomen yliopiston kirjastossa huhtikuussa 2022. (teksti muokattu 29.4.2022)

Connected Papers

  • Pohjadata: Semantic Scholar open research corpus
  • Miten haetaan?
    Jo tiedetyllä artikkelilla (jonka voi hakea hakusanoin tai DOI:lla).
  • Mitä tekee?
    Luo kaavion perustuen artikkelien samankaltaisuuteen, päällekkäisiin viittauksiin ja bibliografiseen kytkentään (“similarity graph”).
  • Muuta
    “Prior works” (ne julkaisut, joihin kartan ryhmittymä useimmiten on viitannut)  tai “derivative works” (kartan julkaisuihin viitanneet).
    Vahvemmat viivat ja solmujen (nodes) läheisyys ilmaisevat samankaltaisuutta.
  • Katso lisää:  Get Relevant Research Literature with “Connected Papers”, OpenEduResource (Youtube, 4:59 min.). Esimerkki.

Open Knowledge Maps

  • Pohjadata: BASE, PubMed
  • Miten haetaan?
    Hakusanoilla ja niiden yhdistelmillä (AND-OR Boolen hakulausekkeillakin).
  • Mitä tekee?
    Hakee 100 relevanteinta ja tekee niistä metadatan (tiivistelmä, otsikko, asiasanat) samankaltaisuuksiin perustuen ryhmiä (clusters ~ “bubbles”).
  • Muuta
    Haun rajaaminen esimerkiksi julkaisutyypillä (oletuksena journal article),.
    Tietokantamaisin, tässä mielessä parhaat hakuominaisuudet ja rajausmahdollisuudet.
  • Katso lisää:. Open knowledge maps The coffee lectures for scientists, University Library Bern (16:55 min.). Esimerkki.

ResearchRabbit

  • Pohjadata: Semantic Scholar, PubMed
  • Miten haetaan?
    Vaatii tunnusten/tilin luomista.
    Aloitetaan luomalla kokoelma (collection), ja sinne edes yksi julkaisu.
  • Mitä tekee?
    Luo suosituksia kokoelmasi perusteella perustuen otsikoihin, tiivistelmään ja muuhun metadataan. Visualisoi tulokset vaihtoehdoille “Similar Work”, “Earlier Work” and “Later Work”. Voit hyppiä kartalla eteenpäin, luoda uusia “julkaisuverkostoja” myös esimerkiksi tekijöillä ja lähteillä.
  • Muuta
    Hienot iskulauseet:  ”Spotify for papers”, “Reimagine Research. We’re rethinking everything: literature search, alerts, and more.”
  • Katso lisää:
    Sprint through of our capabilities (Vimeo; 1:28 min.), Research Rabbit is the Spotify of Research Papers (Danny Hatcher; Youtube, 12:34 min.),

Iris.ai (UEF:n tilaus lopetettu, 29.4.2022)

  • Pohjadata: CORE, PubMed
  • Miten haetaan?
    Vaatii tunnusten/tilin luomista.
    Kiinnostavan artikkelin URL:llä tai DOI:lla. Lisensoidussa versiossa haku myös luonnollisella kielellä kirjoitetulla 300-500 sanan mittaisella tiivistelmällä.
  • Mitä tekee?
    Luo käsitekartan perustuen julkaisuissa käytettyihin terminologiaan.
    Voit rajata haun esimerkiksi vain PubMediin.
  • Muuta
    Maksullisessa versiossa enemmän ominaisuuksia, mm. Focusing-työkalu.
    CORE pohjadatana tuo tuloksiin myös bacherlor thesis ja master thesis -opinnäytetöitä.
  • Katso lisää: Get started 

Vahvuudet

  • Visuaalisuus.
  • Helppo päästä alkuun (yhdellä hyvällä artikkelilla).
  • Auttaa hahmottamaan tulosta paremmin kuin listat.
  • Antaa yleiskuvan aiheesta ja käsitteiden yhteyksistä.
  • Hyödyllistä alkuvaiheessa, jos ei vielä osaa rajata aihetta hakusanoilla.
  • Auttaa löytämään uusia yhteyksiä ja kategorisointeja.
  • Tieteidenvälisyys, verkostot.
  • Hyviä uuden tiedon seurantaan.

Huomioitavaa

  • Pohjadata. Mikä on tuloksen luotettavuus ja kattavuus? Ovatko tulokset vertaisarvioituja?
  • Miten algoritmi toimii? Mitä hakuväline jättää tuloksista pois?
  • Karttoihin tulee myös satunnaisia asiakokonaisuuksia (“mitä sattuu”). Toisaalta, onko ne helpompi jättää huomiotta visuaalisesta näkymästä?
  • Miten asiakokonaisuudet yhdistyvät? Vai yhdistyvätkö? AND vai OR?
  • Tunnettava alaa ja aihetta, oltava “sisällä”. Millä muuten erottaa relevanttiuden? Se on vain koneen relevanssia.
  • Harha ja personointi. Hakujen toistettavuus ongelmallista.
  • Paljon viitatut julkaisut korostuvat näidenkin tuloksissa, kuten Googlen hakuvälineissäkin.

Uudet välineet vanhojen rinnalla

Uudet välineet ovat lähinnä Google Scholarin kilpailijoita. Systemaattisiin tiedonhakuihin ne eivät riitä. Lähtökohtana ei olekaan kaiken kattavuus, vaan yleiskuvan tai “otoksen” tarjoaminen. Uudet välineet voivat olla hyvä aloituspaikka kirjallisuushakuun, samoin täydentämään perinteisiä tietokantahakuja.

Artikkelitietokannoissa on paremmat rajausmahdollisuudet ja tieto seurattavista lähteistä on tiedonhakijan varmistettavissa. “Find similar” / “find related” -ominaisuuksia on ollut jo pitkään, samoin kuin uutuusvahdit.

Kaiken kaikkiaan kivalta näyttää, mutta melko hakuammunnaltakin. Toki paljon riippuu myös aiheesta ja tiedontarpeen tarkkuudesta. Yksin näihin välineisiin ei kannata luottaa, ja aikaa menee näissäkin pyörittelyyn ja eksymiseen.

Kuulemme mielellämme kommentteja!

Visual tools to explore research papers

Every day sees the publication of around 4,000 new scholarly articles or other publications. How can one find what is relevant and valid from among all this information? Can anyone manage such large numbers of publications?

Tools based on artificial intelligence are here to save you time and effort as you look for information. Many of these AI tools also display results as a visual map or graph.

The purpose is not to find everything related to the topic in question but get a visual overview of a research topic. The tools select the most relevant and interesting content on behalf of the person performing the search, based on lists of references and citations and semantic similarities in the text. Keyword search is not the only way to find good sources, an interesting article can also be used as “the seed.”

The new tools are open and free. Open science has generated databases (e.g. Semantic Scholar, BASE, Core) that harvest large numbers of multidisciplinary publication repositories around the world. The tools use them as data sources. Furthermore, the open PubMed database for biomedical and life sciences literature is often offered as an option. However, not all results are freely available. Open access publication has only become common in recent years.

For some years now, the UEF library have been using Iris.ai, one of the first AI-based search tools for scholarly open access information as an alternative for Google and Google Scholar. Writing an article to Signum journal (in Finnish) led us to dig deeper into similar search tools. We have selected some to present to you here. Trying them out or watching the links can give you a better idea of each tool.

Connected Papers

  • Data source: Semantic Scholar open research corpus.
  • How does the search work?
    Search with a known article (that can be found with keywords or the DOI).
  • What does the tool do?
    Generates a graph based on the similarity metric of articles, overlapping references and bibliographic connections.
  • Comments
    “Prior works”, publications that were most commonly cited by the publications in the graph or “derivative works”, publications that cited many of the publications in the graph.
    Stronger lines and the proximity of nodes represent similarity.
  • See more: Get Relevant Research Literature with “Connected Papers”, OpenEduResource (Youtube, 4:59 min.). Example.

Open Knowledge Maps

  • Data source: BASE, PubMed
  • How does the search work?
    Search with keywords and their combinations (also with AND-OR Boolean operators).
  • What does the tool do?
    Finds the 100 most relevant results and creates clusters based on semantic similarities in metadata (abstract, title, subject keywords, etc.) and arranges similar sub-areas into bubbles whose relative positions suggest similarity.
  • Comments
    Publication type (journal article as default), date, metadata quality.
    You can search very broad topics, and it groups articles and other publications into themes you may not have considered.
  • See more:
    Open knowledge maps The coffee lectures for scientists, University Library Bern (16:55 min.). Example.

ResearchRabbit

  • Data source: Semantic Scholar, PubMed
  • How does the search work?
    Requires creating a user ID/account.
    You start by creating a collection that includes, at least, one publication.
  • What does the tool do?
    Creates recommendations based on your collection using titles, abstracts and other metadata. Visualises the results for options “Similar Work”, “Earlier Work” and “Later Work”.
    You can use a graph as a new jumping off point, just click on a dot. Graphs are interactive, so it´s easy to create new “publication networks” (graphs).
  • Comments
    Fine slogans: “Spotify for papers”, “Reimagine Research. We’re rethinking everything: literature search, alerts, and more.”
  • See more:
    Sprint through of our capabilities (Vimeo; 1:28 min.). Research Rabbit is the Spotify of Research Papers (YouTube, 12:34 min.),

Iris.ai (unsubscribed, 29.4.2022)

  • Data source: CORE, PubMed
  • How does the search work?
    Requires creating a user ID/account.
    Search with the URL or DOI of an interesting article. The licenced version also allows searching with a 300–500 word summary written in a natural language.
  • What does the tool do?
    Creates a map of concept clusters, “fingerprints” based on machine extracted keywords, contextual synonyms and hypernyms.
  • Comments
    You can limit your search to PubMed only, or include/exclude any other repository.
    The licenced version has more features, e.g. the Focusing tool.
    The CORE as a data source also includes bachelor’s and master’s theses.
  • See more: Get started

Advantages

  • Visuality.
  • Easy to get started (with one good article).
  • Easier to make sense of the results than based on result lists.
  • Provides an overview of the topic and the connections of concepts.
  • Beneficial during the early stages when you are still unable to limit your search with keywords
  • Helps to find new connections and categorisations
  • Interdisciplinarity, networks
  • Exploring new information, keeping you up to date.

Things to note

  • Data sources behind the tools. What is the reliability and comprehensiveness of the result? Are the results peer reviewed? Pre-prints? Theses?
  • How does the algorithms work? What does the tool miss out of the results?
  • The maps also include random topics, clusters that don’t make sense. But, perhaps they are easier to ignore in a visual presentation.
  • How are the topics connected? Are they combined with AND or OR?
  • Bias and personalisation. The searches cannot be reproduced.
  • Sources that are cited often are highlighted in these results, just like in the Google search tools.

New tools alongside the traditional ones

The new tools mainly act as competitors to Google Scholar. They are not sufficient for systematic information retrieval. Of course, their purpose is not to cover everything, but to provide a general overview or a “sample” of a topic. These new tools can act as a good starting point for literature searches, and complement traditional database searches.

The article databases have better possibilities to limit or refine the search, and the information on sources can be verified. “Find similar” / “Find related” -features and alerts have long been the options.

On the whole, it all still seems to be fairly random. Of course, a great deal depends on the topic and the accuracy of the information need. It is better not to trust these tools alone. Their use can also be timeconsuming and it is easy to get lost.

We are happy to hear your comments!

Kannattaa lukea | Worth reading

Matthews, David. (2021). Drowning in the literature? These smart software tools can help. Nature (London), 597(7874), 141–142. DOI: https://doi.org/10.1038/d41586-021-02346-4 

Salmi, Kirsi , Englund, Jukka, & Putous, Maarit. (2021). Tekoälyohjelma Iris.AIn alkutaival käyttäjäkokemukset ja uudet kilpailijat. Signum, 53(4), 21-25. DOI: https://doi.org/10.25033/sig.113613

Avoimen tieteen hakuopasGuide for open publications searching (UEF library)

Maarit Putous, tietoasiantuntija | information specialist
Opetus- ja tietopalvelut | Training and information services
Kirsi Salmi, tietoasiantuntija | information specialist
Tietoaineistopalvelut | Collection Services