Tekoäly ei vieläkään tee töitämme | Artificial intelligence still doesn’t do our jobs

(Please, scroll down to read a summary in English.)

Lähtökohta ja mikä tiedonhaku?

Kukaan ei kai ole voinut välttyä ChatGPT-uutisoinnilta ja keskustelulta eri medioissa, somessa ja lehdissä. Huolta on herättänyt esimerkiksi plagioinnin helppous, ja on peräänkuulutettu eettisyyttä, kriittisyyttä sekä media-/informaatiolukutaitoja. Oppilaitoksissa on keskusteltu paljon myös siitä, millaisia tehtäviä (esseitä, opinnäytteitä ym.) ja tenttejä opiskelijoilla teetetään nyt ja tulevaisuudessa. Miten oppiminen, opettaminen ja tiedonhaku tulevat muuttumaan?

Huomiomme kirjaston tietoasiantuntijoina kiinnitti se, että joidenkin mielestä ChatGPT on tiedonhaun väline tai että sen avulla oppii tiedonhakua. Miten niin oppii? Ja millaista tiedonhakua? Kovin erilaista on haku, kun kone antaa valmiita vastauksia. Meille kirjastossa tiedonhaku näyttäytyy enimmäkseen prosessina, jossa perehdytään kattavasti siihen, mitä jostakin aiheesta on aikaisemmin tutkittu ja kirjoitettu. Pääpaino on lähteiden haussa, julkaistun tieteellisen tiedon haussa. Löytyneistä lähteistä itse valiten, yhdistellen, jäsennellen ja viittauksia käyttäen koostetaan oma ”tuotos”. Muuttuuko myös tiedonhaku sellaisena kuin me sen tällä hetkellä ymmärrämme? Toki valmiin vastauksen saamiseksi pitää oppia erilainen tapa kysyä koneelta.

Suuret monialaiset tietoaineistot ja niiden luonnollisen kielen parempi ymmärtäminen haastavat perinteiset hakusanoilla toimivat tietokannat, kuten Googlekin on jo tehnyt. Tekoälyn potentiaali näkyy parhaiten suurten tietomäärien tiivistämisessä. Tärkeintä ehkä onkin, mitä tehdään tekoälyn kirjoittaman tuotoksen jälkeen. Kun hakukoneiden tarjoamia lähteitä pitää käyttäjän arvioida, yhtä lailla pitää ChatGPT:n antaman suoran vastauksenkin sisältöön suhtautua kriittisesti.

Mikä ChatGPT on ja miten se toimii?

OpenAI:n kehittämä ChatGPT on chattibotti, joka käyttää syväoppimismalleihin perustuvaa Generative Pre-trained Transformer (GPT) -tekniikkaa. Se toimii vuorovaikutteisen keskustelun tavoin: sille esitetään kysymys ja se kirjoittaa vastauksen, ja asiassa edetään haluttuun suuntaan jatkokysymyksillä. Se on siis ”vastauskone”, joka ei anna lähteitä vaan tekstiä. ChatGPT:n käyttö edellyttää kirjautumista. ChatGPT [linkki aukeaa uuteen ikkunaan/välilehteen]

ChatGPT on koulutettu suurilla tekstimassoilla, esimerkiksi Googlen, Wikipedian, verkkosivujen ja blogialustojen teksteillä, nettikeskusteluilla, fakta- ja fiktiokirjoilla, sanomalehtien verkkosisällöillä. Koulutusdatan syöttö on lopetettu jo 2021 eikä tieto datasta ole julkista.

Koulutuksen aikana kielimalli oppii yhteyksiä sanojen ja lauseiden välillä, malleja tekstin rakenteesta ja kontekstista. Se perustuu todennäköisyyksiin, tilastollisiin malleihin siitä, miten kieli toimii missäkin yhteydessä. Kun käyttäjä esittää kysymyksen, vastaus koostetaan datamassasta. Kuten professori Matti Tedre Itä-Suomen yliopiston tietojenkäsittelytieteen laitokselta Savon Sanomissa toteaa: Sitä voisi ajatella ennustavana tekstinsyöttönä, automaattina, joka syöttää tietyn sanan jälkeen yleensä tulevan sanan.

Koulutuksen jälkeen kone osaa tuottaa uutta sisältöä ihmismäisellä tavalla. Se tekee mahdollisimman asiallisen näköistä ja kielellisesti oikeanlaista tekstiä. Kone ei kuitenkaan erota toden ja epätoden eroa. ChatGPT ei kopioi vaan tuottaa joka pyynnöllä ennen olemassaolematonta tekstiä ja siksi se on vaikeasti havaittavissa koneen tuottamiksi.

Matti Tedre tiivistää ChatGPT:stä ja muista kielimalleista:

  • eivät sisällä enää sellaisenaan mitään siitä datasta, jolla on opetettu
  • eivät ole tietoa hakevia malleja
  • niitä ei voi käyttää hakukoneina
  • eivät ole tietoa lajittelevia tai ryhmitteleviä malleja
  • eivät ymmärrä tuottamaansa
  • niille ei ole opetettu, millaisia ovat oikeat tai väärät vastaukset
  • emme tiedä, miksi kielimallit päätyvät kulloiseenkin tekstiin

Koukutuimme kokeilemaan

Omat ensireaktiomme olivat ihastus ja hämmästys. Konehan tekee vakuuttavan näköistä tekstiä – ja koukuttaa jatkamaan. Ja sehän ymmärtää suomeakin! Siinä missä artikkelitietokantaan on mietittävä hakusanat, vaihtoehtoiset ja rajaavat termit ja muotoiltava haku AND- ja OR-operaattoreita käyttäen ennen kuin saa edes viitelistan hakutulokseksi, tekoäly kirjoittaa jo valmiin ”esseen” parilla kysymyksellä. Kun tarkemmin lukee ja kokeilee lisää, paljastuu ympäripyöreitä ja virheellisiäkin vastauksia. Alla muutama kokeilumme.

Esimerkki 1

UEF-kirjaston tiedonhaun kurssitehtävässä haetaan omalla tutkimusaiheella muutamasta keskeisestä alakohtaisesta tietokannasta, mutta sen lisäksi innokkaimmat suuntaavat hakunsa muihinkin lähteisiin. Terveyden edistämisen opiskelija Irina Luukkonen kävi keskustelua tekoälyn kanssa tiedonhaun aiheestaan:

Parhaat viittaukset sauvakävelyyn?
”Sauvakävelyä koskevia tutkimuksia on tehty erityisesti terveysliikunnan ja vanhusliikunnan aloilla. Tärkeitä viittauksia sauvakävelyyn ovat esimerkiksi: “Walking with poles: an effective exercise for older adults” -tutkimus, joka on julkaistu Journal of Aging and Physical Activity -lehdessä vuonna 2007. Tutkimuksessa selvitettiin sauvakävelyn hyötyjä vanhusten kunnon ja tasapainon parantamisessa. “Pole walking for health and fitness: a systematic review” -tutkimus, joka on julkaistu Journal of Science and Medicine in Sport -lehdessä vuonna 2016. Tutkimuksessa katsottiin sauvakävelyn vaikutusta fyysisen kunnon, tasapainon, selän kivun ja kardiovaskulaarisen terveyden parantamiseen.”

Tekoälyn viittaukset muuhunkin tutkimukseen ovat vastaavanlaisia. Vastauksena kysymykseen ”mistä tietokannoista tämä tieto on haettu”, se kertoo ”eri tieteellisten tutkimusten tietokannoista kuten PubMed, ScienceDirect, JSTOR, ja Google Scholar”. Tietokantahakuja se ei pysty tekemään, kuten kertookin:

Voitko hakea aiheeseen liittyvää tietoa PsycInfo-tietokannasta?
”En pysty itse suorittamaan hakuja eri tietokannoista, mutta voin kuitenkin antaa sinulle tietoa siitä mistä voit etsiä aiheeseen liittyviä artikkeleita. Yksi hyvä paikka aloittaa on Google Scholar, joka on ilmainen hakupalvelu, joka keskittyy tieteellisten artikkeleiden ja julkaisujen hakuun.” [..] ”On myös mahdollista, että tutkimusta aiheesta ei ole juuri julkaistu tai että se on julkaistu vain kansainvälisissä tieteellisissä julkaisuissa ja siksi sitä ei ole saatavilla ilmaiseksi.”

Ristiriitaista, vaikka asiaakin vastauksissa on. Tarkentavien kysymysten jälkeen ChatGPT generoi kuusi tutkimusta, joita kuitenkaan ei ole olemassakaan. Tai ainakaan mikään niistä ei löytynyt PubMed, Scopus, Google tai Google Scholar hauilla – saksaksikaan. Tekoäly taisi siis tekaista lähteet, laittoi sanoja todennäköisyysjärjestykseen. Tieteelliseen asiayhteyteen tekstin kuitenkin liitti. Sen tarjoamat tieteelliset lehdet (journals) ovat olemassa, mutta niissä kyseisiä tutkimuksia ei ole julkaistu.

Opiskelija ottaa kantaa laajemminkin tekoälyn käyttöön:

”Monet opiskelijat varmasti tulevaisuudessa tulee käyttämään tekoälyä tiedonhaussa ja yleensäkin opinnoissa. Ja moni varmasti sitä jo tekee, vaikka ei siitä yleisesti puhu tai kerro.
Mielestäni siksi on tärkeää ottaa aihe osaksi kursseja. Voisiko olla jopa osana tätä tiedonhaun kurssia? Minusta opiskelijoiden olisi todella tärkeää ymmärtää tätä kokonaisuutta. Ja pohtia tekoälyn roolia kokonaisuudessa ja sen tarjoaman tiedon luotettavuutta. Ja tärkeää on ymmärtää, ettei se ainakaan vielä korvaa systemaattista tiedonhakua. Ja tärkeää olisi ymmärtää, ettei tekoälyn tarjoaman tiedon alkulähdettä ole helppoa selvittää, joten ei voi aukottomasti osoittaa tiedon luotettavuutta, tuoreutta yms vaikka se tuntuu ihan järkeviä vastaavan.”

Esimerkki 2

ChatGPT osaa tarjota hakukoneita ja tietokantoja, kun siltä kysyy, mistä tieteellistä tietoa kannattaisi hakea, esimerkiksi:

“… Other resources that may be useful for scientific information search include:
– PubMed, a database of biomedical literature maintained by the National Library of Medicine
– Web of Science, a multidisciplinary database of scholarly literature
– Scopus, another multidisciplinary database of scholarly literature
– arXiv, a preprint server for physics, mathematics, computer science, and other fields
– JSTOR, a digital library for the humanities, social sciences, and sciences
– Subject-specific databases and repositories
It is also important to check the sources of the articles found and to verify their reliability. It is always a good idea to cross-check information in multiple sources and to consult with experts in the field.”

Esimerkki 3

Kun pyytää ChatGPT:ltä neuvoa haun muokkaamiseen, saa sinänsä hyviä, mutta melko ympäripyöreitä ohjeita – ja jo kysymyksessäkin huomioituja seikkoja. Kirjaston tietoasiantuntija osaisi antaa kohdistetumpia ja tarkempia vastauksia haun muokkaamiseen ja haussa etenemiseen.

“It sounds like the search results you received are not relevant to your research needs. To improve your search results, you may want to consider revising your search strategy and using more specific keywords or narrowing down your search criteria. Here are some suggestions to improve your search results:
– Use synonyms: Consider using synonyms for the terms you are searching for, as different authors may use different terminology to describe similar concepts.
– Refine your search criteria: You can further refine your search criteria by adding more specific terms, such as the location, the type of study, the population group, or the study design.
– Check the database coverage: Make sure that you are searching in databases that have comprehensive coverage of the field you are researching. Some databases may have a more limited collection of articles on a specific topic.
– Utilize advanced search features: Some databases have advanced search features, such as field searching, proximity searching, and Boolean operators, which can help you get more precise results.
– Review reference lists: Once you have found a relevant article, review its reference list for other relevant articles that may not have been captured by your search.”

Hakusanaideoita siltä kuitenkin kysyessään saa, olkoonkin ettei se niitä oikein osaa pilkkoa tietokantakelpoisiksi hakusanoiksi ja niiden yhdistelmiksi.

Kirjastobotti Uffe

Vastailevan (älykkään) chattibotin lisäksi on niin sanottuja klikkailubotteja, joiden toiminta perustuu etukäteen ohjelmoituihin keskusteluihin. Käyttäjä valitsee kysymykset ja vastaukset annetuista vaihtoehdoista. UEF-kirjaston botti Uffe on tällainen.

Lähtökohta oli, että kirjaston kotisivuilla on moniin usein kysyttyihin ongelmiin jo ratkaisuja, mutta asiakkaat eivät löydä vastauksia. Leadoon botti oli tekniikkana jo hankittu UEFille. Klikkailubotti saadaan nopeammin ja kevyemmin pystyyn, kun taas älykkäämmän chattibotin opettaminen vaatisi paljon enemmän resursseja.

Jos Uffen valikoista ei löydy kysyjälle vastausta, on mahdollisuus kysyä ihmiseltä. Kirjaston livechatissa ollaan vastaamassa kello 10-16, mutta ilta- ja yöaikaankin Uffe jaksaa.

Kokeilkaa kirjaston sivujen tai UEF-Primon kautta (oikea alalaita) ja antakaa palautetta. Uffea kehitetään edelleen.

Kaikki hallussa?

Tekoälyn käyttö, soveltaminen ja ymmärtäminen ovat tulevaisuuden työelämätaitoja siinä missä tiedonhakutaidotkin. Entä korvaako tekoäly ihmisen työt? Yleinen näkemys on, ettei ole järkevää käyttää ihmisresursseja informaation ”uuttamiseen” ja käsittelemiseen suurten datamassojen joukosta.

Hakukoneissa tekoäly on ollut taustalla helpottamassa tiedonhakua jo pitkään. Artikkelitietokannoissa se toimii huomaamattomammin, esimerkiksi PubMedin Similar articles -toiminnon algoritmi painottaa sanoja ja antaa vastineena joukon parhaiksi katsomiaan artikkeleita. Uudemmissa, avoimen tiedon hakukoneissa tekoäly karsii ja valikoi julkaisut suuresta massasta niputtaen ne esimerkiksi käsitteiden mukaisesti ryhmiin. Näistä löytyy blogikirjoituksemme.

Kun totumme ChatGPT:n kaltaisiin ”vastauskoneisiin”, reaktio muihin voi olla, että eihän nämä tee vielä mitään, kun eivät tekstiä kirjoita, vaan tarjoavat vain tuloslistoja luettavaksi. Samanaikaisesti käytössämme on erilaisia hakukoneita (esim. Google, UEF-Primo, PubMed). Mikä toimii yhdessä, ei toimikaan samoin toisessa, vaan pitää osata tehdä erilaisia hakuja tai kysymyksiä eri välineille. Hakukoneidenkin muutos lienee ilman muuta tulossa. Myös avoin tiede ja avoin saatavuus ovat edistäneet uudenlaisten välineiden kehitystä.

ChatGPT:tä ja muita vastaavia tekoälysovelluksia voisi pitää pikemminkin “tukiälynä”. Ne auttavat laajojen aineistokokonaisuuksien jäsentelyssä ja seulovat oleellisen, ehkä myös tulkitsevat ja antavat ideoita, joita itse ei olisi osannut ajatella. Ideoita hakusanoiksikin niillä voi saada. Tekoälyvälineistä voi tulla uusia ajattelun ja luovuuden työvälineitä. Mutta miten opitaan vastuullisiksi, kriittisiksi ja informaatiolukutaitoisiksi tekoälyn käyttäjiksi?

Tekoäly ei vapauta kirjoittajaa tiedon todenperäisyyden, luotettavuuden tai tieteellisyyden arvioinnista eikä lähteiden tarkistamisesta. Edelleen kirjoittaja on itse vastuussa tekstistään, vaikka tekoälyn aikaan itse tehdyn tekstin varmistaminen on vaikeaa. Lisäksi tieteelliseen kirjoittamiseen kuuluvat myös lähdeviittaukset. Siten tieteellisen tiedon hakuun ChatGPT ei riitä, sillä se ei ole hakukone eikä sen data päivitykään. Kehityksen vauhti on kuitenkin huimaa.

 

Kirsi Salmi ja Maarit Putous OpenAI:n äärella
Kirsi Salmi ja Maarit Putous OpenAI:n äärellä

Artificial intelligence still doesn’t do our jobs

Briefly in English, translated by ChatGPT, but modified by us : )

ChatGPT has been widely discussed in various media. Concerns have been raised about the ease of plagiarism and the need for ethics, critical thinking, and media/information literacy.

We noticed that some people think ChatGPT is a tool for information retrieval, or by using it one will learn how to search information. But the way in which the machine provides ready-made answers to questions is vastly different from traditional information retrieval methods used in article databases. In the library, information retrieval involves a comprehensive search for published scientific knowledge on a given topic, and the focus is on finding information sources. Then the sources are selected, read, analyzed, summarized, and organized to create a personalized output, with referencing.

ChatGPT is an artificial intelligence language model developed by OpenAI. The GPT model is pre-trained on large amounts of text data from the internet, such as Wikipedia and web pages, to learn how to predict the next word in a given text sequence. This pre-training allows the model to develop a broad “understanding” of natural language, which it can then use to generate human-like responses to a wide range of questions.

Matti Tedre summarizes about ChatGPT and other language models:

  • They no longer contain any of the data they were trained on.
  • They are not information-seeking models.
  • They cannot be used as search engines.
  • They are not models that sort or group information.
  • They do not “understand” what they produce.
  • They have not been taught what are the correct or incorrect answers, only a model of how language works.
  • And we do not know why language models end up generating a particular text.

We got hooked on trying it out. Our initial reactions were admiration and surprise. ChatGPT produces impressive-looking text – and it’s addictive. And it understands Finnish too! While with an article database, you have to think about keywords, alternative and limiting terms, and formulate search queries using AND and OR operators before you even get a reference list as a search result, artificial intelligence writes a ready-made “essay” with just a few questions. When you read more carefully, you reveal even incorrect answers.

It’s not a search engine and doesn’t find information sources (e.g. publications, articles). However, when asked it offers options, where to search for scholarly literature, gives ideas for keywords/search terms, gives general advice on how to improve the relevance of the database searches etc.

The use, application, and understanding about artificial intelligence are future work skills, just as information retrieval skills are. Will AI replace human jobs? Common views are that it does not make sense to use human resources to extract and process information from large datasets. AI helps in structuring the large sets of data and filtering the essential, perhaps also providing ideas.

“Artificial intelligence does not relieve the writer of the responsibility to assess the truthfulness, reliability, and scientific nature of the information, nor does it eliminate the need to verify sources. The writer remains responsible for their text, even though it may be difficult to verify text generated by AI. Additionally, scientific writing requires proper citation of sources. Therefore, ChatGPT is not sufficient for searching scientific information, as it is not a search engine and its data is not updated. However, the pace of development is staggering.”

——

Lähteinä käytetty esimerkiksi näitä :

Chat GPT:llä menee mykyrokat ja makrot sekaisin. Savon Sanomat 1.2.2023.
– Matti Tedreä haastateltu.

Itä-Suomen yliopisto kannustaa opettajiaan tekoälysovellusten käyttöön
– Matti Tedren ja Teemu Valtosen alustus UEFin pedajohtajien verkostolle 10.2.2023. Teams-tallenne (18:38 min)

Thompson Alan D. (2022). What’s in my AI? A Comprehensive Analysis of Datasets Used to Train GPT-1, GPT-2, GPT-3, GPT-NeoX-20B,
Megatron-11B, MT-NLG, and Gopher. https://lifearchitect.ai/whats-in-my-ai/

Ylä-Jussila Lauri ja Hintikka Kari A. (31.1.2023) ChatGPT – internet-hakukone 2.0 vai maailman energiasyöpöin puppusanageneraattori vai monipuolinen tukiäly. Otavan Opisto. YouTube (29:17 min)

sekä aiheesta Helsingin Sanomat, Yle.fi, UEF Yammer ja erinäiset some-alustat.

Kiitos Irina Luukkonen tehtävän käyttämisestä esimerkissä ja hyvistä kommenteista.

——

Maarit Putous, tietoasiantuntija | information specialist
Opetus- ja tietopalvelut | Training and information services
Kirsi Salmi, tietoasiantuntija | information specialist
Tietoaineistopalvelut | Collection Services