Tiedon saavutettavuus ja käännösteknologian rooli monikielistyvässä yhteiskunnassa

Monitieteinen DECA-konsortio (Demokratian episteeminen toimintakyky algoritmien aikakaudella) tutkii tiedon saamiseen, käyttämiseen ja tuottamiseen liittyviä näkökulmia ja ongelmakohtia yksilöiden ja yhteiskunnan tasolla sekä algoritmeihin perustuvien palveluiden, kuten sosiaalisten medioiden ja tekoälyn, vaikutuksia demokraattiseen tietoyhteiskuntaan. Itä-Suomen yliopiston käännöstieteen tutkijat ovat mukana konsortion työpaketissa 3, joka keskittyy tiedon saannin kielimuureihin ja pyrkii selvittämään tarkemmin esimerkiksi konekääntämisen käyttöä monikielisen tiedon saamisen apuvälineenä.

Tieto monikielisessä yhteiskunnassa

Yhteiskuntamme ovat enenevässä määrin monikielisiä ihmisten muuttaessa eri maiden välillä. Esimerkiksi Suomessa asuvista henkilöistä joka kymmenes ilmoitti vuoden 2023 lopussa äidinkielekseen jonkin muun kielen kuin suomen, ruotsin tai saamen kielet (Tilastokeskus 2024). Niin sanottujen vieraskielisten henkilöiden määrän kasvu onkin ollut merkittävää viime vuosina. Vaikka väestörekisteriin kirjattu äidinkieli ei suoraan kerro henkilön käyttämiä ja ymmärtämiä kieliä, tilastot heijastavat kuitenkin sitä tosiasiaa, että tarve tiedon ja viestinnän monikielisyydelle kasvaa.

Monikielisen tiedon tarve on merkittävä nykyaikaisessa tietoyhteiskunnassa, koska yhteiskunnan toimintaan osallistuminen edellyttää, että kaikki yhteiskunnan jäsenet pystyvät saamaan ymmärrettävää, luotettavaa tietoa ja viestimään toistensa kanssa. Tiedon tarve korostuu erityisesti pakolaisuuden kaltaisissa tilanteissa, joissa muuttoon ei ole voinut varautua. Jos uuteen maahan muuttava henkilö ei pysty saamaan tietoa ja viestimään ymmärtämällään kielellä, kielimuuri voi muodostua merkittäväksi esteeksi kotiutumiselle ja yhteiskunnan toimintaan osallistumiselle.

Esimerkiksi Suomessa viranomaisten ja muiden julkisten toimijoiden tarjoamaa tietoa on saatavilla enimmäkseen suomeksi ja ruotsiksi sekä jossain määrin virallisesti tunnustetuilla vähemmistökielillä (saamen kielet, romani, suomalainen viittomakieli ja suomenruotsalainen viittomakieli). Vieraskielistä tietoa on tarjolla eniten englanniksi, jossain määrin myös muilla kielillä, joiden puhujia on Suomessa prosentuaalisesti merkittävä määrä (esim. venäjä, viro, arabia, somali, kiina, vietnam). Monikielistä tietoa on kuitenkin yleensä saatavilla vain rajoitetusti.

Tiedon puutteen ja viestinnän kielimuurien vuoksi monet maahanmuuttajat hyödyntävätkin arjessaan konekääntämistä, kuten Google-kääntäjää ja vastaavia konekäännössovelluksia. Konekääntämisen käyttö arjessa on kaikkiaan yleistynyt viime vuosina, kun sekä verkkoselaimissa toimivien että mobiililaitteille asennettavien sovellusten tarjoama kielivalikoima on laajentunut ja laatu parantunut. Sovelluksilla voikin kääntää automaattisesti niin tekstiä kuin puhetta, ja kamerasovelluksen avulla myös esimerkiksi opasteiden tekstejä. Uudempana ”perinteisten” kääntämiseen tarkoitettujen sovellusten rinnalle ovat tulleet suuriin kielimalleihin perustuvat tekoälyvälineet (esim. ChatGPT), joilla pystyy myös tuottamaan käännöksiä.

Tiedonhaun kielimuureja tutkimassa

Vuoden 2024 aikana tekemässämme tutkimuksessa olemme keskittyneet siihen, miten hiljattain Suomeen muuttaneet ukrainan- ja venäjänkieliset ihmiset hakevat tietoa, miten kielimuurit vaikuttavat tiedon löytämiseen ja miten he hyödyntävät tiedonhaussa konekäännöstä. Tätä on selvitetty haastatteluilla ja simuloiduilla tiedonhakukokeilla.  Tässä blogikirjoituksessa kerromme tiedonhakuun liittyvistä havainnoista.

Tiedonhakukokeissa koehenkilöt, jotka olivat Ukrainasta tai Venäjältä viimeisen parin viime vuoden aikana Suomeen muuttaneita aikuisia, saivat neljä tehtävää, jotka sisälsivät tiedon etsimistä jokapäiväiseen elämään tai Suomeen yleisemmin liittyvistä asioista. Tietoa piti etsiä esimerkiksi paikallisen kirjaston myöhästymismaksuista ja julkisen liikenteen aikatauluista. Muutamaa poikkeusta lukuun ottamatta koehenkilöt eivät osanneet suomea eikä valtaosa pystynyt etsimään tietoa myöskään englanniksi.

Tehtävien suorittamiseen koehenkilöille annettiin tablettitietokone, ja he saivat käyttää tiedonhaussa mitä tahansa kieliä sekä kaikkia sellaisia digitaalisia työkaluja ja tietolähteitä, joita pystyi käyttämään ilman sisäänkirjautumista. Suoritukset tallennettiin ruututallenteina, joita analysoimalla tarkasteltiin erityisesti seuraavia asioita: mitä kieliä hauissa käytettiin, miten eri kielillä onnistuttiin oikeaa tietoa löytämään, miten konekääntimiä käytettiin ja miten konekääntimien käyttö vaikutti oikeiden vastausten löytymiseen.

Analyysi osoitti, että valtaosa koehenkilöistä yritti etsiä tietoa äidinkielellään (ukrainaksi tai venäjäksi), mutta oikean tiedon löytäminen näillä kielillä oli vaikeaa. Joidenkin tehtävien kohdalla tietoa oli kyllä tarjolla myös näillä kielillä (etenkin venäjän kielellä), mutta sitä ei kuitenkaan onnistuttu aina löytämään. Mahdollisia syitä tähän voivat olla esimerkiksi erot koehenkilöiden teknisissä tai tiedonhakutaidoissa, mutta osa vieraskielisestä tiedosta oli myös esitetty niin, että sen löytäminen on vaikeaa. Esimerkiksi erään kirjaston käyttösäännöt ovat tarjolla niin venäjäksi kuin ukrainaksikin, mutta pelkästään ladattavina pdf-tiedostoina, jolloin internetin hakukone ei pystynyt löytämään tietoa näillä kielillä käyttösääntöjen sisällöistä.

Konekääntimiä käytti vain pieni osa koehenkilöistä, tyypillisesti nuoret aikuiset, jotka olivat muutenkin taitavia tiedonhaussa. Tehokkain tapa oli käyttää konekäännintä hakulausekkeiden kääntämiseen suomeksi: tällöin hakukone etsi tietoa sillä kielellä, millä sitä oli tehtävien aiheista parhaiten tarjolla. Myös hakutulosten selaamiseen tarvittiin tietenkin tällöin konekääntimen apua, mutta koska konekäännin oli sisällytetty tabletin oletusselaimeen, tämä oli suhteellisen vaivatonta ja oikeiden hakusanojen löytyessä tietoa löytyi yleensä nopeasti.

Konekäännöslukutaito osana digitaitoja

Tiedon tuottaminen monikielisesti on ensisijaisesti resurssikysymys, ja on epärealistista odottaa, että ihmistoimijat voisivat tuottaa kaiken tärkeän tiedon kaikilla Suomessa käytössä olevilla vähemmistökielillä tai edes niistä suurimmilla. On otettava myös huomioon, että pelkästään tiedon tuottaminen ei riitä, vaan tietoa on myös ylläpidettävä, pidettävä ajan tasalla. Parhaimmillaan konekäännös ja tekoäly voivat olla ratkaisevassa roolissa kielimuurien ylittämisessä, mutta niiden kritiikitön soveltaminen voi aiheuttaa ongelmia.

Käännösteknologian tutkijat ovatkin viime aikoina nostaneet esille yleisten digitaitojen osana niin sanotun konekäännöslukutaidon (englanniksi Machine Translation Literacy). Tällä käsitteellä tarkoitetaan tietoisuutta käännösteknologian tarjoamista mahdollisuuksista mutta myös rajoitteista. Tärkeä näkökulma on erityisesti välineiden tuottaman käännöksen laatu, joka saattaa olla hyvin vaihtelevaa eri kielillä. Konekäännöksen käytössä on hyvä olla tietoinen mahdollisista ongelmakohdista ja tyypillisistä virheistä. Lisäksi erityisesti henkilökohtaista tai luottamuksellista tietoa käsitellessä olisi syytä ottaa huomioon välineiden tietoturva.

Työpakettimme pyrkiikin lisäämään tietoisuutta käännösteknologiasta ja edistämään konekäännöslukutaitoa tuottamalla tutkimustietoon perustuvia materiaaleja, joissa käsitellään näiden välineiden käyttöön liittyviä kompastuskiviä ja hyviä toimintatapoja. Materiaaleja suunnataan erilaisiin käyttötilanteisiin arkielämän tiedonhausta ammattiyhteyksissä tapahtuvaan viestintään ja erilaisille kohderyhmille kouluista maahanmuuton ja kotoutumisen kanssa toimiviin tahoihin. Materiaaleja on tarkoitus tuoda avoimesti saataville vuoden 2025 aikana.

Maarit Koponen, professori, käännöstiede

Juha Lång, tutkijatohtori, englannin kieli ja kääntäminen