Koulutusaineistoa supermallille!

Tämä on ensimmäinen varsinainen postaus tälle blogialustalle! Hankkeemme ideana on tutkia Ruotsin valtakunnan itärajalla 1600-luvun jälkipuoliskolla sijainneiden viiden kaupungin eli Nevanlinnan, Käkisalmen, Sortavalan, Brahean ja Kajaanin kaupallisia ja sosiaalisia verkostoja. Tärkeimpänä lähdeaineistona ovat raastuvanoikeuksien pöytäkirjat, joiden käsittelemien tapausten kuvausten perusteella pyritään porautumaan tähän tutkimustehtävään.

Oikeuden pöytäkirjoihin ei kirjattu tietoja kaupallisista tai sosiaalisista verkostoista systemaattisesti, vaan ennemminkin satunnaisesti: silloin, kun tehdystä kaupasta, velasta, perinnöstä tai muista asioista tuli kiistaa tai jos jotakuta epäiltiin peräti rikoksista. Ajattelemme kuitenkin, että kun tarkasteltavien tapausten määrä kasvaa riittävän suureksi, keskeisimpien kaupallisten ja sosiaalisten verkostojen, täytyy hahmottua aineistosta.

Kun oikeuden pöytäkirjojen kaltaisen laadullisen aineiston määrä kasvaa kovin suureksi, tarvitsee tutkija työkaluja sen käsittelyyn. Hankkeessamme näitä työkaluja laajan aineiston käsittelyyn haetaan digitaalisista menetelmistä. Näitä ovat HTR-teknologia (Handwritten Text Recognition), verkostoanalyysi- ja geoinformaatiotyökalut, joista jälkimmäisiä hyödynnetään tutkimuksen kaupunkitilojen segregaatiota tarkastelevassa osassa. Teoreettisena viitekehyksenä on vertaileva mikrohistorian näkökulma, josta voidaan kertoa tällä alustalla lisää joskus myöhemmin.

Tutkimuksemme työvaiheet ovat lyhyesti kerrottuna seuraavat. Yhteistyössä Kansallisarkiston kanssa tuotetaan tarkasteltavien kaupunkien käsin kirjoitetuista raastuvanoikeuden pöytäkirjoista sähköisesti luettavissa oleva aineistokokonaisuus. Kutsuttakoon sitä vaikkapa tietokannaksi tai korpukseksi. Kansallisarkistosta yhteistyökumppaneina ovat Sanna Joska ja Ilkka Jokipii. Tietokannasta luodaan Excelillä keskeisiä kaupallisia ja sosiaalisia suhteita kuvaavat havaintomatriisit. Kun havaintomatriisien informaatio siirretään verkostotyökaluun, esimerkiksi Visoneen, saadaan sen avulla erilaisten kaupallisten ja sosiaalisten suhteiden visualisoinnit. Ne toimivat lähtökohtana hankkeessa kirjoitettaville artikkeleille.

Kolmivuotinen tutkimushankkeemme alkoi vuoden 2024 alussa Svenska Litteratursällskapet i Finlandin (SLS) myöntämän määrärahan turvin. Missä mennään nyt?

Kansallisarkisto on kehittänyt vanhojen käsialojen lukuun algoritmia, käsialamallia, jota kutsutaan ”suomalaiseksi supermalliksi”. Se kykenee jo nyt tulkitsemaan 1600-luvun käsialoja varsin hyvin, virheprosentti on alle neljän. Sanna ja Ilkka voivat kertoa tarkemmin työstään ”supermallin” kanssa myöhemmin tällä alustalla. Kansallisarkiston ”supermallille” on saatu koulutusaineistoa eri tahoilta, Yksi osa hankettamme on myös osallistua tuon ”supermallin” kehittämiseen entistä paremmaksi ja tuottaa algoritmille lisää uutta opittavaa.

Tällainen hankkeessamme tuotettava ”supermallin” koulutusaineisto on Sortavalan raastuvanoikeuden pöytäkirjat vuosilta 1680–1690. Aloin vapaa-aikoinani litteroida Sortavalan pöytäkirjoja omia tutkimuksiani varten jo pari vuotta sitten. Nyt noille tekemilleni litteroinneille löytyi lisää käyttöä sekä ”supermallin” opetusmateriaalina, että osana tutkimushankkeemme tutkimusaineistoa. Koska olin tehnyt litterointityötä jo pitkähkön ajan ja matkan varrella ymmärrykseni vanhan käsialan litteroinnin ongelmista ja siitä kuinka sellaista työtä ylipäänsä kannatti tehdä, oli kasvanut, oli ennen aineiston syöttämistä HTR-ohjelmaan työnjälkeni alkupää käytävä uudelleen läpi ja toimitettava aineisto yhtenäiseen asuun. Tämän työvaiheen olen juuri saanut tehtyä!

Kuva1. Tällaiselta näyttivät mikrofilmeistä kuvatut pöytäkirjat!

Omat kommervenkkinsa siinäkin hommassa oli. Alun perin litteroin pöytäkirjoja sangen viheliäisistä mikrofilmien kuvista digitoiduista mustavalkoisista digiarkiston pöytäkirja-aukeamista. Vaikka olen lukenut noita mikrofilmejä jo 1980-luvn lopulta lähtien, ne ovat edelleen ongelmallisia. Mustavalkoisissa, mikrofilmille tallennetuissa eikä erityisen tarkalla optiikalla kuvatuissa asiakirjojen aukeamissa teksti on paikoin ”palanut puhki.” Kynänjälki oli joskus paperissa olevan kosteusjäljen tai paperin toiselta puolelta läpi kuultavan tekstin aiheuttaman mustan sutun tai muun lian peitossa. Joskus piti vain intuitiolla ja kokemuksella tuon ajan kielestä päätellä mitä asiakirjassa luki. Välillä oli mahdotonta tietää, oliko kuvassa näkyvä tahra iin piste vai kenties 350 vuotta vanha kärpäsen paska tai muu roiske. Se, kummasta oli kyse, saattoi vaikuttaa suuresti siihen, mikä sana kirjaimista muodostui.

Kansallisarkisto on nyt, tekemäni mikrofilmeistä digitoiduista kuvista tekemäni litterointityön jälkeen, kuvannut suuren joukon asiakirjoja, myös tutkimiemme kaupunkien raastuvanoikeuksien pöytäkirjat, uudelleen alkuperäisistä asiakirjoista ja vieläpä värillisinä kuvina. Nämä löytyvät nyt Astiasta. Niistä asiakirjojen lukeminen on lähes lasten leikkiä: kynän jälki on elävä ja se näkyy myös homeiden ja muiden suttujen alta. Myös tämän vuoksi oli syytä tarkastaa vanhat litterointini uusien kuvien avulla. Kaikki mikrofilmikuvien ”kärpäsenpaskat” selvisivätkin näin joko iin pisteiksi tai sitten vanhoiksi tahroiksi. Asiasisällön ymmärtämisen kannalta mitään olennaista vikaa ei litteroinneista löytynyt, mutta toki ”supermallin” koulutusaineistossa kaikkien kirjaimien olisi oltava oikein, jotta algoritmi myös oppisi ”lukemaan” tekstiä mahdollisimman oikein.

Kuva 2. Kansallisarkiston tekemät uudet kuvaukset ja digitoinnit ovat jo varsin mukavia luettavia!

Yksi aika iso kysymys olivat lyhenteet ja muutamat muut 1600-luvun kirjoitustavalle ominaiset ”maneerit”. Lyhenteet, kuten vaikkapa leiviskää (painomitta) tarkoittava ”häkkyrä,” oli korvattava järkeen käyvällä kirjainyhdistelmällä. Aiemmissa opetusaineistoissa oli omaksuttu tapa jättää huomiotta kahden perättäisen m-kirjaimen merkitseminen kirjaimen yläpuolella olevalla viivalla, jolloin sana kirjoitettiin yhdellä m-kirjaimella (esim. litteroinnissa sana sama, p.o. samma). Tästä purnasin, koska m ja sen yläpuolella oleva viiva on ajalle ominainen tapa kirjoittaa ”mm”. Mutta koska näin oli muussa aineistossa menetelty, oli opetusaineiston yhtenäisyyden vuoksi minun siivottava litteroinnistani nuo viivalla merkityt ja avaamani ”tuplaämmät” pois.

Monta muutakin pulmaa tuli eteen, mutta uskoakseni ne tuli kaikki ratkaistua tyydyttävästi. Lopputuloksena oli yli 100 000 sanaa käsittävä lisä ”supermallin” opetusaineistoon, jonka viimeisen osuuden sain lähetettyä siis juuri Kansallisarkistoon Sannalle ja Ilkalle. He voivat hieman myöhemmin tällä alustalla avata lisää ”supermalliaan” ja sen opettamista lukemaan vanhoja käsialoja.

Kimmo K