Keitä olivat kummittelevat rovasti Carsten ja maisteri Serlachius?

Kimmo Katajala

Olemme aiemminkin kirjoittaneet Transkribuksen ja Kansallisarkiston ns. supermallin lähdeaineistoomme luomista ”haamuriveistä.” On toki aivan ymmärrettävää, että käsialamalli tunnistaa 1600-luvun erilaiset, joskus aika villitkin alkukirjainten koukerot erilliseksi tekstiksi. Yleensä tällöin malli ymmärtää lennokkaat viivat ja kiehkurat joksikin yksittäiseksi sanaksi tai numeroksi. Erikoisempi ilmiö kuitenkin on, että se ”näkee” tekstiä myös aivan tyhjillä sivuilla, usein useampia rivejä. Erityisesti tuomiokirjasidoksen kluuttikankainen selkäsidos innosti ohjelman tarinoimaan olemattomasta uutta tekstiä lähes 150 riviä!

Koneluvun lisäämiä haamurivejä tuomiokirjan kannessa

Tämähän voisi olla hauskaakin, jollei aikaa tuhraantuisi näiden ”haamurivien” havaitsemiseen ja poistamiseen aineistosta. Ne nimittäin sisältävät usein toistuvia samoja nimiä, paikannimiä ja ilmaisuja. Kun projektimme tavoitteena on hahmottaa kaupunkien kaupallisia verkostoja ja jos nämä algoritmin tyhjillä sivuilla ”näkemät” henkilöt ja paikannimet päätyisivät lopulliseen aineistoomme, vääristäisivät ne väistämättä tutkimuksen lopputulosta.

Henkilöitä, joita algoritmi ”näkee” milloin missäkin sivun marginaalissa tai tyhjällä sivulla ovat mm. rovasti Carsten ja kirkkoherra maisteri Johannes Serlachius. Toistuvat paikannimet ovat Kaarlepyy (Carleby), jossa on kovasti hankittu jotain tavaraa sotaväen tarpeisiin (til Militiens behof) ja Helsinki (Helsingfors), joihin esimerkiksi Sortavalan kaupungin porvareilla olisi algoritmin mielestä ollut hyvinkin kiinteät yhteydet.

Herää tietenkin kysymys siitä, että ”ilmastako” algoritmi nämä henkilöt ja paikat keksii. Tuskinpa vaan. Koska Kaarlepyy (Kokkola) ja Helsinki, sikäli kuin tiedetään, ovat aivan oikeita 1600-luvulla olemassa olleita paikkoja, myös rovasti Carsten ja kirkkoherra Serlachiuskin ovat todennäköisesti olleet olemassa. He lienevät esiintyneen siinä opetusaineistossa, jolla algoritmia on alkuaan opetettu ymmärtämään 1600-luvun käsialaa. Siten algoritmi ilmeisesti poimii opetusaineistossaan toistuneita ilmaisuja sinne, missä sen mielestä olisi voinut olla tekstiä. Sen sijasta Sortavalan aineistossa esiintyvä ”örk” vie ajatukset väistämättä J. R. R. Tolkienin maailmaan ja sitä on vaikeampi selittää.