Wie man Volltext aus gescannten handschriftlichen Quellen extrahiert: Video-Tutorials über Automatische Texterkennung jetzt online

Die manuelle Transkription handschriftlicher oder gedruckter Quellen ist häufig zeitaufwändig und bei größeren Korpora oft nicht durchführbar. Automatische Texterkennung (ATR) kann hierbei entscheidend helfen, Volltext aus gescannten Bildern zu extrahieren. Die entsprechende Software wie Transkribus, eScriptorium, OCR4all, OCR-D und andere entwickeln sich rasant und liefern mit ihren großen Modellen oft erstaunliche Ergebnisse.

Der Teaser zu den sechs Videos, v.l.n.r.: Pauline Spychala, David Lassner, Hippolyte Souvay, Hugo Scheithauer, Floriane Chiffoleau und Sarah Ondraszek.

Dennoch ist es nicht ganz einfach, wenn man vor der Herausforderung steht, automatische Texterkennung anwenden zu wollen, zumal wenn es sich um ein großes Korpus handelt.

[...]

Quelle: https://dhdhi.hypotheses.org/9053

Weiterlesen

Von Wissensgraphen, dem Salm’schen Sternenhimmel und wie man nachhaltig Wissen schafft

Fotomontage des Salm’schen Sternenhimmels. Hintergrundbild von Marc Sendra Martorell auf Unsplash

Forschungsdaten beschäftigen jene, die Wissen schaffen. Heutzutage gehört es zur wissenschaftlichen „best practice“, sich über das Erstellen und Veröffentlichen FAIRer digitaler Daten Gedanken zu machen. Neben FAIRification stehen in unterschiedlichen Institutionen nun auch Linked Open Data und das Semantic Web auf der Karte. So baut NFDI4Memory beispielsweise einen Wissensgraphen für die historische Forschung auf.

Im Rahmen meiner Masterarbeit mit dem Titel „Seuls les petits corpus ont le secret des petits corpus – Explorative, Automated Analysis and Presentation of the Correspondence of French Writer Constance de Salm (1767–1845) in a Semantic Web Approach“ erforsche ich den Mehrwert von Wissensgraphen in der Speicherung und Nachnutzung der Korrespondenzdaten.

Der Fokus liegt auf der Verwendung kleinerer Korpora, die aus ebenso kleineren Digitalisierungsprojekten stammen. Da insbesondere big data und große Massendigitalisierungsvorhaben ins Rampenlicht gerückt sind, soll die Masterarbeit die Bedeutung von small data hervorheben.

[...]

Quelle: https://dhdhi.hypotheses.org/8586

Weiterlesen