2.4 Sanankatkaisu, korvausmerkit ja sanaliitot

Sanankatkaisu

Sanat taipuvat tai esiintyvät yhdyssanojen osina. Sanoista saa muokattua erilaisia johdannaisia. Kun halutaan hakea kaikkia erilaisia taivutusmuotoja, on se ilmaistava hakusanan muodossa. Tämä tehdään käyttämällä sanankatkaisua.

  • computer, computers, computerised, computerized, computation, computational …

Katkaise sana asteriskin avulla

Erilaiset sanamuodot voi hakea sanankatkaisun (truncation) avulla. Sanankatkaisu tapahtuu käyttämällä hakusanana sanan taipumatonta vartaloa, johon liitetään katkaisumerkki (truncation mark).

Katkaisumerkkinä käytetään asteriskia (tähtimerkki): comput*

Yleissääntö on, että käyttämällä sanankatkaisua saadaan lisää hakutuloksia. Yhtä hakusanaa käyttämällä haetaan kerralla lukuisia erilaisia taivutusmuotoja ja muita variantteja.

Miten sanat katkaistaan

Katkaisukohdan kanssa pitää olla tarkkana. Jos katkaisee liian aikaisin (comp*), tulee myös vääriä osumia. Jos katkaisee liian myöhään (computer*), osa jää löytymättä.

Tekstiä sekä tulosmääriä symboloivat kirjapinokuvat. Hakusanat ja niiden tulosmäärät allekkain. Reseptori 50. Reseptorit 250. Reseptorit* 252. Reseptori* 313. Reseptor* 321. *reseptor* 393. Viimeinen rivi korostettu.
Koska sana taipuu reseptori, reseptoreista jne, hyvä katkaisukohta on r-kirjaimen jälkeen. katkaisemalla sana myös alusta saadaan mukaan yhdyssanoja, kuten tumareseptori.

Sananvartalo on hyvä yleissääntö, mutta ei pidä paikkaansa aina, esim. jos vartalo on hyvin lyhyt, kuten sanassa suo. Haun kannalta ongelmallisesti taipuu myös esim. sana  lapset -> lasten.

Sana voidaan katkaista ainakin lopusta, mutta usein myös alusta tai keskeltä.

Esimerkkejä:

  • *koivu = koivu, hieskoivu, rauduskoivu
  • *koivu* = koivu, koivun, rauduskoivun jne.
  • vesi*alueet = vesialueet, vesistöalueet

Milloin sanat pitää katkaista

Kansainväliset hakukoneet huomioivat sanojen taipumisen osittain automaatisesti. Lähes aina yksikkömuotoisena haettu sana löytää myös monikon – ja päinvastoin.

  • child: hakee child ja children, ei hae childhood

Sanankatkaisua tarvitaan aina vähintään sanojen johdannaisia varten. Myös lainausmerkkien eli fraasien käyttö lisää katkaisun tarvetta.

Web of Science löytää automaattisesti verbien eri taivutusmuotoja. Finna.fi osaa hakea suomen kielen taivutusta automaattisesti. Tämä automatiikka tuottaa joskus yllättäviä tuloksia. Katso video (kesto 6:57); kannattaa suurentaa koko ruudun kokoiseksi alalaidasta!

Videolla käytetään esimerkkinä UEF-Finna -hakukonetta. UEF-Finnaa ei enää ole, mutta kansallinen Finna.fi toimii kuten videolla.


UEF-Primo ei osaa taivuttaa suomen kieltä. Siksi UEF-Primossa pitää aina muistaa käyttää sanakatkaisua.

Korvausmerkit (wildcards)

Korvausmerkkejä tarvitaan useimmiten hakusanoissa, joiden kirjoitusasu vaihtelee, esim. brittiläinen englanti vs. amerikanenglanti: organisation – organization. Ongelmallisen merkin kohdalle hakusanaan voi sijoittaa korvausmerkin. Tästä on hyötyä erityisesti silloin, jos katkaisumerkin käyttäminen toisi mukaan aiheeseen kuulumattomia sanoja, esimerkiksi organi* = organisation, organization, organism, organic, organising, organize jne.

Korvausmerkkien symbolit vaihtelevat tietokannasta toiseen, eikä niitä aivan kaikkialla ole edes käytössä. Korvausmerkki voi myös toimia kahdella tavalla: se korvaa joko yhden merkin tai yhden/nolla merkkiä.

Monet kansainväliset tietokannat kuitenkin ottavat tällaiset kirjoitusmuotovariantit huomioon automaattisesti, eikä korvausmerkkiä tarvita. Tässäkin tosin pätee se, että jos käytetään fraasia eli lainausmerkkejä, hakuautomatiikka ei toimi.

  • ”old forest”: hakee ”old forest”, ei hae ”old forests”

Sanaliitot eli fraasit

Sanaliitto on sanapari tai -ryhmä, jonka merkitysseikat sitovat yhteen.

Jotta sanaliiton eli fraasin (phrase) sanat pysyisivät haussa peräkkäin ja halutussa järjestyksessä, pitää tämä ilmaista hakukoneelle erikseen.

Merkitse fraasi lainausmerkein

Fraasin merkkinä tiedonhaussa käytetään lainausmerkkejä:

  • ”biologinen torjunta”
  • ”cell wall”

Fraasin merkitys tiedonhaussa on se, että fraasin avulla hakua saadaan aiheeltaan tarkemmaksi. Samalla myös hakutulosten määrä pienenee.

Fraasin käyttö voi myös joissakin tapauksissa rajata hyviäkin osumia pois hakutuloksesta. Koska fraasin sanojen järjestys on ehdoton, ei haku ymmärrä samankaltaisuutta esimerkiksi fraasien ”forest ecology” ja ”ecology of forests” välillä. Myös tarkemmat ilmaisut, kuten ”forest landscape ecology”, rajautuvat ulos. Fraasia käytettäessä voi siis joutua hakemaan useammalla fraasilla yhtä aikaa.

Ilman lainausmerkkejä kahden sanan välillä on AND-operaattori, vaikka sitä ei näkyville kirjoittaisikaan (lisää operaattoreista kerrotaan seuraavassa luvussa).

Tekstiä sekä tulosmääriä symboloivat kirjapinokuvat ja tulosmäärät lukuna. ”Soil biota”, lainausmerkkien sisällä, 22. Soil biota, ilman lainausmerkkejä, 231. Soil AND biota, 231.
Vertaa hakutulosten määriä.

Ilman fraasia hakusanat voivat esiintyä missä tahansa tekstin joukossa: eri kentissä tai lähellä tai kaukana toisistaan.

Sen sijaan kun haetaan fraasilla, sanat ovat yhdessä, peräkkäin, annetussa järjestyksessä, ja muodostavat käsitteen.

Esimerkki alla valaisee asiaa.

Kaksi tekstinpätkää, joissa korostettuna sanat forest ja soil. Ensimmäisessä tekstissä: further decline of forest and soil. Toisessa tekstissä: continuously measured in a temperate forest soil.
Sanaliitto vs. yksittäiset sanat. Sanaliitolla on yksi, tietty merkitys, yksittäiset sanat edustavat erillisiä käsitteitä.

Muista kuitenkin, että myös ilman lainausmerkkejä haetut sanat löytävät toki sanaliittojakin. Ongelma on siinä, että ne löytävät myös muuta.

Kuvakaappaus Web os Science -tietokannasta. Hakulause on population ecology, ilman lainausmerkkejä. Hakutuloksissa kolme otsikkoa, yhdessä sanat population ja egology erillään, kahdessa peräkkäin.
Haku population ecology ilman lainausmerkkejä löytää sekä fraaseja että erillisiä sanoja.

Katso video (kesto 3:43). Videolla esiintyy hakukone UEF-Finna, jota ei enää ole olemassa. Haun periaate kuitenkin pätee edelleen. Video kannattaa suurentaa koko näytölle, jotta esimerkit näkyvät kunnolla.

Fraasin merkitseminen tietokannassa

Kirjoita itse lainausmerkit sanaliiton ympärille. Lainausmerkki tarkoittaa tässä 2-näppäimen yläpuolista tuplaheittomerkkiä.

Esimerkki Scopus-tietokannasta (sama tapa toimii Web of Sciencessa ja ProQuestissa):

Kuvakaappaus. Hakutermi "forest soil" Scopus-tietokannan hakurivillä. Hakutermiin kuuluvat lainausmerkit korostettu keltaisella värillä.

Seuraava sivu: Hakusanoista hakulausekkeiksi