Aineiston ”siivousviikoilla” metsästetään haamurivejä

Jenni Merovuo

Nainen kuuraamassa astiaa. Willem van Odekercken, c. 1644, Alankomaiden kansallismuseo.

Aloitin työni Rajan kaupungeissa kesäkuun alussa datan ”siivouksella”. Digihumanistiset menetelmät tarjoavat uusia tutkimuksellisia mahdollisuuksia, mutta niiden hyödyntäminen ei useinkaan ole nopeaa tai vaivatonta. Raastuvanoikeuksien pöytäkirjat on nyt koneluettu Kansallisarkistolla ja seuraava työvaihe on manuaalinen korjailu. Työvaihe on mekaaninen, mutta samalla pääsee vaeltamaan läpi aineiston ja tekemään ensikäden havaintoja.

Ennen kuin voimme ottaa tuomiokirja-datan ulos Transkribuksesta ja siis irrottaa se alkuperäislähteestään, koneen tekemä työ on käytävä läpi ja korjattava riittävissä määrin. Tämä mahdollistaa paitsi luotettavammat hakutulokset jatkossa, myös datan käyttämisen HTR-mallin (Hand-written text recognition) kouluttamiseen edelleen. Mitä lähempänä alkuperäistä data on, sitä luotettavampaa analyysia siitä voi tehdä. Tässä vaiheessa on hyvä myös huomauttaa, että vaikka data saatetaan edustettavaan kuntoon, pidämme alkuperäislähteen aina käsillä lähilukua varten.

Esittelen alla muutamia tyypillisiä koneluvun haasteita.

Väärinluku

Pääpiirteissään HTR-malli lukee 1600-luvun kirjoitusta jo oivallisesti eivätkä pienet virheet haittaa kokonaisuuden hyödyntämistä. Ei ole realistista odottaa, että HTR tuottaisi täydellistä translitteraatiota. Vakiintuneet sanat, rikosnimikkeet sekä esimerkiksi lyhenteet kone tunnistaa ilahduttavan hyvin. Supermalli tunnistaa myös perinteisempiä malleja paremmin eri kieliä ja eri kirjoitustyylejä. 1600-luvulla oli tavallista korostaa tärkeitä, arvokkaita tai vierasperäisiä asioita ja nimiä kirjoittamalla ne latinalaiskirjoituksella, kun taas leipäteksti oli uusgoottilaista käsialaa.
Tutkimusaiheemme näkökulmasta on tärkeää, että erityisesti nimet ovat oikein, mutta joidenkin nimien kanssa HTR:llä on haasteita. Toki nimiä on myös kirjoitettu alkuperäiseen asiakirjaan eri tavoilla ja näiden variaatioiden yhdenmukaistamiseen ei ole tässä työvaiheessa tarpeen ryhtyä vaan siirtää lähteen teksti mahdollisimman autenttisesti.

Anders Pirhosen nimi on luettu Pers[soseksi], koska HTR pitää edellisen rivin Mattias Göökin viimeisen kirjaimen koristeellista lenkkiä seuraavalle riville kuuluvana s-kirjaimena. Anders Pirhonen oli raatimies ja nimi toistuu tuomiokirjoissa useita kertoja. Yleensä se on luettu oikein.

Ylimääräiset, puuttuvat ja tuplarivit

Suurimmat haasteet näyttävät aiheutuvan segmentoinnin eli sivun asettelun ja eri alueiden tunnistamisesta.

Yksi datasta erottuvista haasteista ovat tuplarivit, jotka on melko helppo tunnistaa ja poistaa. Joskus tuplarivit tosin kulkevat täysin samasta kohdasta, jolloin niitä on vaikeampi huomata.

Triplarivi (31–33).

HTR osaa melko hyvin erottaa tekstin sivun läpi tunkevasta mustejäljestä, kun kuvanlaatu on tarpeeksi hyvä. Joskus se on vetänyt yhden sanan riville pitkän rivin, mutta lukenut vain yhden sanan, kuten kuuluukin. Toisinaan taas kone tulkitsee esimerkiksi koristeellisen kirjaimen omaksi rivikseen, jolloin translitteraatioon tulee ylimääräistä tekstiä. Toisinaan taas HTR ei tunnista tekstiä eikä siis tee riviäkään. Taulukot, kuten sakkoluettelot vaativat normaalia leipätekstiä enemmän käsityötä rivittämisen suhteen.

Ylimääräinen rivi.

Rivitys ja teksti lisätään tässä tapauksessa manuaalisesti. Siksi on hyvä omata riittävät paleografiset taidot. Aineiston tuntemus myös nopeuttaa työtä valtavasti.  

Joillakin sivuilla tekstialue on virheellisesti rajautunut tai alueita on muodostunut yksittäisten kirjainten tai numeroiden ympärille. Tyhjästä tekstialueesta ei ole periaatteessa haittaa analyysin tekijälle, mutta aineistoa siivoavan on tarvittaessa tarkastettava, että tekstirivit ovat kuitenkin oikealla alueellaan, jotta teksti rakentuu oikeaan järjestykseen. Nopein ratkaisu on tekstialueiden yhdistäminen.

Tarpeeton ylimääräinen tekstialue (vihreä), tunnistamaton rivi (In nomine Jesu) ja koristeellinen alkukirjain, jonka HTR tunnisti aivan oikein A-kirjaimeksi (Anno 1663 d. 12 Januarij).

Helposti havaittava, mutta datassa haitallisempi ilmiö ovat haamurivit. Nämä ilmestyvät tyypillisesti kohtiin, jossa ei ole tekstiä kuten tyhjille sivuille ja sivujen marginaaleihin. Ne on helppo havaita Transkribuksessa ja tärkeää poistaa, sillä ne voivat tuoda dataan sisältöä, joka ei sinne kuulu. Haamuriveillä on usein lauseita ja sanoja, jotka voisivat kuulua tuomiokirjaan, mutta ne ovat kuitenkin täysin sattumanvaraisia. Käkisalmen tuomiokirjoissa niillä esiintyy usein esimerkiksi Tukholma ja Helsinki.

Aineistoon kuulumattomia haamurivejä, jotka eivät selvästi kuulu konteksiin. Pälkjärven voisi vielä uskoa, mutta kunnallishallinto perustettiin vasta parisataa vuotta asiakirjan kirjoittamisen jälkeen.

Rivijärjestys

Vaikka kaikki näyttäisi olevan nopealla silmäyksellä kunnossa, on hyvä kuitenkin tarkistaa rivijärjestys. Toisinaan koneluetun datan rivijärjestys ei vastaa alkuperäislähdettä, vaikka se näyttää lukijalle ilmeisen helpolta järjestää. Transkribuksessa rivit voi raahata omille paikoilleen helposti, kunhan on ensin paikantanut ongelman.

Siivoaminen on näpertelyä, lukemista ja kirjoittamista ja siihen kuluu aikaa. Sitä hidastaa myös Transkribuksen selainversion ajoittainen takkuilu ja oikuttelu. Se on silti huomattavasti nopeampaa kuin translitteraation kirjoittaminen tyhjästä, joten otan ilolla vastaan HTR-avun kaikkine vajavaisuuksineen.

Ja jos kaipaa jännitystä siivouksen lomassa, niin toki aineistoon voi testata hakuja, vaikka siivous on vielä kesken. Tuomiokirjat ovat rikas ja kiehtova aineistokokonaisuus mm. arjen, sukupuolen, rikollisuuden ja sosiaalihistoriaan – ja verkostojen!