Das umfangreiche Korpus der Korrespondenz der Constance de Salm (ca. 11.000 Stücke) besteht aus sehr unterschiedlichen Dokumenttypen (Originale, Entwürfe, Abschriften), die auf losen Blättern oder in gebundenen Büchern vorliegen und zudem von vielen verschiedenen Händen kopiert und abgeschrieben wurden. Anlässlich meines Praktikums von April bis Juli 2022 am DHIP im Rahmen des Masterstudiengangs “Technologies numériques appliquées à l’histoire” (École nationale des chartes) habe ich einen halbautomatisierten Workflow für die Erstellung einer digitalen Edition dieser Korrespondenz eingerichtet.
Eine vollständige Umsetzung der Verarbeitungskette wäre für ein viermonatiges Praktikum zu umfangreich gewesen, daher war hier das Erarbeiten eines Pilot-Workflows das Ziel, um die zukünftige Arbeit an der Edition zu erleichtern. So wurden drei Probleme angegangen, die sich bei jeder nativ-digitalen Edition eines sehr umfangreichen Korpus stellen:
- Das Seitenlayout von Dokumenten zu analysieren (durch Training eines Modells zur Segmentierung von Seiten);
- Ein Modell zu produzieren, das die Handschriften verschiedener Kopisten erkennen kann, und die Trainingsmethode wiederholbar zu machen;
- Eine Strukturierung der Ausgabe im TEI-Format zu erzielen, Buchstabe für Buchstabe, aus Quellen, in denen sie gemeinsam hinein kopiert worden waren.
[...]