2.4 Sanankatkaisu, korvausmerkit ja sanaliitot
Sanankatkaisu
Sanat taipuvat tai esiintyvät yhdyssanojen osina. Sanoista saa muokattua erilaisia johdannaisia. Kun halutaan hakea kaikkia erilaisia taivutusmuotoja, on se ilmaistava hakusanan muodossa. Tämä tehdään käyttämällä sanankatkaisua.
- computer, computers, computerised, computerized, computation, computational …
Katkaise sana asteriskin avulla
Erilaiset sanamuodot voi hakea sanankatkaisun (truncation) avulla. Sanankatkaisu tapahtuu käyttämällä hakusanana sanan taipumatonta vartaloa, johon liitetään katkaisumerkki (truncation mark).
Katkaisumerkkinä käytetään asteriskia (tähtimerkki): comput*
Yleissääntö on, että käyttämällä sanankatkaisua saadaan lisää hakutuloksia. Yhtä hakusanaa käyttämällä haetaan kerralla lukuisia erilaisia taivutusmuotoja ja muita variantteja.
Miten sanat katkaistaan
Katkaisukohdan kanssa pitää olla tarkkana. Jos katkaisee liian aikaisin (comp*), tulee myös vääriä osumia. Jos katkaisee liian myöhään (computer*), osa jää löytymättä.
Sananvartalo on hyvä yleissääntö, mutta ei pidä paikkaansa aina, esim. jos vartalo on hyvin lyhyt, kuten sanassa työ. Haun kannalta ongelmallisesti taipuu myös esim. sana lapset -> lasten.
Sana voidaan katkaista ainakin lopusta, mutta usein myös alusta tai keskeltä.
Esimerkkejä:
- *psykologia : hakee kaikki psykolgian alalajit, kuten neuropsykologia ja havaintopsykologia sekä itse pääsanan psykologia
- työ*psykologia = työpsykologia, työterveyspsykologia, työpaikkapsykologia
Milloin sanat pitää katkaista
Kansainväliset hakukoneet huomioivat sanojen taipumisen osittain automaatisesti. Lähes aina yksikkömuotoisena haettu sana löytää myös monikon – ja päinvastoin.
- child: hakee child ja children, ei hae childhood
Sanankatkaisua tarvitaan aina vähintään sanojen johdannaisia varten. Myös lainausmerkkien eli fraasien käyttö lisää katkaisun tarvetta.
Web of Science löytää automaattisesti verbien eri taivutusmuotoja. Finna.fi osaa hakea suomen kielen taivutusta automaattisesti. Tämä automatiikka tuottaa joskus yllättäviä tuloksia. Katso video (kesto 6:57); kannattaa suurentaa koko ruudun kokoiseksi alalaidasta!
Videolla käytetään esimerkkinä UEF-Finna -hakukonetta. UEF-Finnaa ei enää ole, mutta kansallinen Finna.fi toimii kuten videolla.
UEF-Primo ei osaa taivuttaa suomen kieltä. Siksi UEF-Primossa pitää aina muistaa käyttää sanakatkaisua.
Korvausmerkit (wildcards)
Korvausmerkkejä tarvitaan useimmiten hakusanoissa, joiden kirjoitusasu vaihtelee, esim. brittiläinen englanti vs. amerikanenglanti: organisation – organization. Ongelmallisen merkin kohdalle hakusanaan voi sijoittaa korvausmerkin. Tästä on hyötyä erityisesti silloin, jos katkaisumerkin käyttäminen toisi mukaan aiheeseen kuulumattomia sanoja, esimerkiksi organi* = organisation, organization, organism, organic, organising, organize jne.
Korvausmerkkien symbolit vaihtelevat tietokannasta toiseen, eikä niitä aivan kaikkialla ole edes käytössä. Korvausmerkki voi myös toimia kahdella tavalla: se korvaa joko yhden merkin tai yhden/nolla merkkiä.
Monet kansainväliset tietokannat kuitenkin ottavat tällaiset kirjoitusmuotovariantit huomioon automaattisesti, eikä korvausmerkkiä tarvita. Tässäkin tosin pätee se, että jos käytetään fraasia eli lainausmerkkejä, hakuautomatiikka ei toimi.
- behaviour: hakee sekä behaviour että behavior
- ”behavioural pattern” ei hae ”behavioral pattern”
- ”behavio*ral pattern” hakee sekä ”behavioural pattern” että ”behavioral pattern”
Jos ei halua/voi käyttää katkaisu- tai korvausmerkkiä, asian voi kiertää OR-operaattorin avulla. OR-operattorista kerrotaan seuraavassa luvussa.
”behavioural pattern” OR ”behavioral pattern”
Sanaliitot eli fraasit
Sanaliitto on sanapari tai -ryhmä, jonka merkitysseikat sitovat yhteen.
Jotta sanaliiton eli fraasin (phrase) sanat pysyisivät haussa peräkkäin ja halutussa järjestyksessä, pitää tämä ilmaista hakukoneelle erikseen.
Fraasin merkkinä tiedonhaussa käytetään lainausmerkkejä sanaliiton ympärillä: ”psykososiaalinen tuki”.
Fraasin merkitys tiedonhaussa on se, että fraasin avulla hakua saadaan aiheeltaan tarkemmaksi. Samalla myös hakutulosten määrä pienenee.
Fraasin käyttö voi myös joissakin tapauksissa rajata hyviäkin osumia pois hakutuloksesta. Koska fraasin sanojen järjestys on ehdoton, ei haku ymmärrä samankaltaisuutta esimerkiksi fraasien ”music psychology” ja ”psychology of music” välillä. Myös tarkemmat ilmaisut, kuten ”occupational health psychology”, haettaessa fraasilla ”occupational psychology”, rajautuvat ulos. Fraasia käytettäessä voi siis joutua hakemaan useammalla fraasilla yhtä aikaa.
Ilman lainausmerkkejä kahden sanan välillä on AND-operaattori, vaikka sitä ei näkyville kirjoittaisikaan (lisää operaattoreista kerrotaan seuraavassa luvussa).
Ilman fraasia hakusanat voivat esiintyä missä tahansa tekstin joukossa: eri kentissä tai lähellä tai kaukana toisistaan.
Sen sijaan kun haetaan fraasilla, sanat ovat yhdessä, peräkkäin, annetussa järjestyksessä, ja muodostavat käsitteen.
Esimerkki alla valaisee asiaa:
Muista kuitenkin, että myös ilman lainausmerkkejä haetut sanat löytävät toki sanaliittojakin. Ongelma on siinä, että ne löytävät myös muuta.
Katso video fraasihausta (kesto 3:43). Videolla esiintyy hakukone UEF-Finna, jota ei enää ole olemassa. Haun periaate kuitenkin pätee edelleen. Video kannattaa suurentaa koko näytölle, jotta esimerkit näkyvät kunnolla.
Fraasin merkitseminen tietokannassa
Kirjoita itse lainausmerkit sanaliiton ympärille. Lainausmerkki tarkoittaa tässä 2-näppäimen yläpuolista tuplaheittomerkkiä.
Tässä haetaan UEF-Primosta kirjaston kokoelmasta viitteitä (pääosin kirjoja), joiden nimessä esiintyy fraasi ”special education”.
Seuraava sivu: Hakusanoista hakulausekkeiksi