Onderzoeksgroep Piek Vossen levert taaltechnologie voor digitale ontsluiting VOC-archieven

De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) kent 3,8 miljoen toe aan het project GLOBALISE dat het historische archief gaat digitaliseren.

21-05-2021 | 16:40

De onderzoeksgroep Computational Linguistics & Text Mining Lab (CLTL) gaat onder leiding van hoogleraar Computationele Lexicologie Piek Vossen de taaltechnologie leveren om het UNESCO-archief van de VOC digitaal te ontsluiten.

Momenteel is het enorm complex om onderzoek te kunnen doen in het immense archief van het UNESCO Memory of the World-archief van de Verenigde Oost-Indische Compagnie (VOC). Het archief telt maar liefst vijfentwintig miljoen pagina’s. “Dankzij de investering van 3,8 miljoen uit het NWO-programma Grootschalige Infrastructuur kunnen we hierin verandering brengen”, aldus Vossen.

Een team van data-experts onder leiding van Vossen gaat alle relevante contextuele gegevens uit de talloze publicaties over de geschiedenis van de VOC verzamelen en structureren. Het betreft het herkennen van namen van personen, organisaties, plaatsen en gebeurtenissen en die vervolgens ook omzetten naar een zogenaamde Kennisgraaf (knowledge graph) die de wereld uit die tijd modelleert. Daarbij wordt ook gekeken naar de perspectieven die de Nederlandse VOC hebben op die gebeurtenissen en personen.

De technologie die gebruikt wordt voor het digitaliseren van het VOC archief bouwt voort op de ‘reading machines’ die Vossen eerder ontwikkelde in Biographynet, Newsreader en recentelijk CLARIAH-PLUS. “Dit is software getraind met AI die uitdrukkingen herkent als namen aan de hand van voorbeelden die door historici zijn gelabeld. Vervolgens zoekt de software die namen op in een database en kijkt om wie of wat het gaat. Een naam kan niet alleen betrekking hebben op een persoon, maar ook een plaats of een schip. Verder hebben veel personen dezelfde naam, dus wie is het in deze tekst? Voor gebeurtenissen geldt hetzelfde. De AI software leert van voorbeelden om de gebeurtenissen waarin die personen, schepen en plaatsen betrokken zijn te herkennen aaan de hand van de woorden en zinnen waarin ze genoemd worden. Denk hierbij aan conflicten, rampen, oogsten, handel, partijen goederen, prijzen en dergelijke. Het gaat hierbij om oud-Nederlands dus bestaande software moet worden aangepast voor deze teksten”, aldus Vossen.  

GLOBALISE-project
Het GLOBALISE-project is een consortium bestaande uit het Huygens ING, de Vrije Universiteit, het Nationaal Archief, het Internationaal Instituut voor Sociale Geschiedenis en het KNAW Humanities Cluster. Het doel van het project is in de periode 2021-2026 een digitale wetenschappelijke infrastructuur die de belangrijkste reeks VOC-rapporten voor geavanceerde nieuwe onderzoeksmethoden ontsluit.