Wie man Volltext aus gescannten handschriftlichen Quellen extrahiert: Video-Tutorials über Automatische Texterkennung jetzt online

Die manuelle Transkription handschriftlicher oder gedruckter Quellen ist häufig zeitaufwändig und bei größeren Korpora oft nicht durchführbar. Automatische Texterkennung (ATR) kann hierbei entscheidend helfen, Volltext aus gescannten Bildern zu extrahieren. Die entsprechende Software wie Transkribus, eScriptorium, OCR4all, OCR-D und andere entwickeln sich rasant und liefern mit ihren großen Modellen oft erstaunliche Ergebnisse.

Der Teaser zu den sechs Videos, v.l.n.r.: Pauline Spychala, David Lassner, Hippolyte Souvay, Hugo Scheithauer, Floriane Chiffoleau und Sarah Ondraszek.

Dennoch ist es nicht ganz einfach, wenn man vor der Herausforderung steht, automatische Texterkennung anwenden zu wollen, zumal wenn es sich um ein großes Korpus handelt.

[...]

Quelle: https://dhdhi.hypotheses.org/9053

Weiterlesen

Erste OCR-Sprechstunde im neuen Jahr: 11. Januar zwischen 15 und 16 Uhr

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 11. Januar 2024 statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.

[...]

Quelle: https://dhd-blog.org/?p=20440

Weiterlesen

Nächste offene OCR-Sprechstunde am 12. Oktober 2023 von 15 bis 16 Uhr

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 12. Oktober 2023 statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.

[...]

Quelle: https://dhd-blog.org/?p=20016

Weiterlesen

Neuer Schwerpunkt der Abteilung Digitale Geschichtswissenschaft am DHIP: Automatisierte Handschriftenerkennung (ATR)

Die Grundlage für viele historische Arbeiten sind textliche Quellen, seien sie handschriftlich oder gedruckt, im Archiv selbst fotografiert oder von Archiven, Bibliotheken und Museen digital online bereitgestellt. Je mehr Quellen es zu entziffern, zu lesen und zu analysieren gilt, umso wichtiger wird es, dass diese im Volltext zur Verfügung stehen. Das erleichtert nicht nur das Durchsuchen und die klassische Weiterverarbeitung der Texte in Form von Notizen oder Zitaten, sondern ermöglicht überhaupt erst die Anwendung digitaler Methoden zur Textanalyse. Für umfangreiche Quellenkorpora muss dabei nicht mehr ausschließlich selbst transkribiert werden, vielmehr können lernende Technologien bei der Erstellung einer Transkription helfen. Das klingt gut – ist es auch -, aber dennoch recht aufwändig und birgt so manchen methodischen Fallstrick…

ATR = OCR+HTR

Die für die Volltexterkennung grundlegenden ATR-Technologien haben sich in den letzten Jahren rasant entwickelt und tun dies auch weiterhin: ATR steht für Automated Text Recognition, der sich derzeit etablierende Oberbegriff für die Erkennung von gedruckten Texten über Optical Character Recognition (OCR) zum einen und die Erkennung handschriftlicher Texte über Handwritten Text Recognition (HTR) zum anderen. 

Den meisten dürfte bei der Erkennung handschriftlicher Texte als erstes Transkribus in den Sinn kommen, eine KI-gestützte Plattform, die relativ einfach zu bedienen ist und auch im Browser verwendet werden kann, ab einem gewissen Umfang jedoch kostenpflichtig wird.

[...]

Quelle: https://dhdhi.hypotheses.org/8419

Weiterlesen