Stadsarchief lanceert 18e eeuws HTR-model en KWS-demonstrator


In september werd al gemeld dat het Stadsarchief erin was geslaagd om een eerste algemeen model te maken voor 18e eeuwse notariële handschriften. Sindsdien is ook gewerkt een keyword-spotting (KWS) demonstrator op basis van dit model. Zowel het model als de KWS-demonstrator zijn nu voor iedereen te gebruiken.

Als u Transkribus heeft gedownload en een Transkribus-account heeft aangemaakt, vindt u het nieuwe model van het Stadsarchief terug onder 'Models' onder de naam 'Dutch Notarial Model 18th Century'. U kunt dit model nu testen op scans die zelf heeft ingeladen in Transkribus en die nog geen transcripties hebben. Als u zelf wel enige transcripties hebt gemaakt, dan kunt u het Amsterdamse notariële model ook als 'base model' gebruiken.

In september was ook al vastgesteld dat het notariële model een erg lage foutenmarge had bij scans van andere 18 e-eeuwse notarissen waarvan nog geen model was. Om deze aanname verder te testen en om kennis te maken van de werking van keyword-spotting, is besloten om op voorstel van Transkribus samen te werken aan een demonstratiesite waarin een aantal 18 e-eeuwse notarissen deels te doorzoeken zijn. De keyword-spotting waar Transkribus gebruik van maakt is ontwikkeld door de polytechnische universiteit van Valencia en werkt op basis van zowel HTR-model als optische pixelherkenning. In tegenstelling tot de index op het notarieel archief die momenteel wordt gemaakt in het VeleHanden-project Alle Amsterdamse Akten beperkt deze wijze van automatische getranscribeerde tekstdoorzoeking zich dus niet alleen tot bijvoorbeeld persoons- en locatieomschrijvingen, maar zijn werkelijk alle herkende woorden terug te vinden. Het nadeel is dat deze woorden nog niet automatisch geclassificeerd kunnen worden.

Op www.transkribus.eu/r/notarial is de KWS-demonstrator van het Stadsarchief Amsterdam terug te vinden. In deze interface zijn de eerste inventarisnummers van 21 18 e eeuwse notarissen die volledige gescand zijn en die meer dan 50.000 scans hebben, doorzoekbaar gemaakt. Op deze wijze zijn nu meer dan 10.000 scans automatisch te doorzoeken.

Zoekpogingen op woorden die we veel tegenkomen bij notarissen leveren zonder uitzondering al erg veel hits op. Het woord 'testament' levert bijvoorbeeld al 1.391 hits op, het woord 'notaris' is al 4,639 keer terug te vinden en het woord 'schip' al 652 keer. Daarnaast kan op precisie of 'accuracy' van de transcriptie (de mate van waarschijnlijkheid waarvan het KWS-algoritme zeker is dat een gespot woord/gespotte pixels ook overeenkomt met de geleverde transcriptie) en op inventarisnummer worden geselecteerd. Daarnaast kan ook de volledige transcriptie worden getoond.

De KWS-demonstrator toont aan dat het algemene 18 e eeuwse notariële model inderdaad erg goed is en dat het extra trainen op afzonderlijke notarishandschriften beperkt nodig is als er eenmaal een goed functionerend algemeen model is. De mogelijkheden zijn in theorie enorm: deze 21 notarissen die vertegenwoordigd zijn in de demonstrator zijn in totaal al goed voor zo'n 1,7 miljoen scans. Het nadeel is natuurlijk dat er aanzienlijke kosten gemaakt zullen moeten worden in alles te 'keyword-spotten' en vooral dat belangrijke metadata zoals taal, datum, eenheid van het document (akte), typologie alsook persoons- en locatieomschrijvingen die in de akte voorkomen, weer nieuwe bewerkingsslagen vereisen om toegevoegd te kunnen worden aan het corpus. Dit is de reden waarom het Stadsarchief het VeleHanden-project Alle Amsterdamse Akten onmiskenbaar belangrijk blijft vinden.

Tags

18e eeuwSalomon DorperclclCrowd leert computer lezenTranskribusBenjamin PhaffPieter de Wilde
Deel artikel

     
   Gerelateerde artikelen