Die Grundlage für viele historische Arbeiten sind textliche Quellen, seien sie handschriftlich oder gedruckt, im Archiv selbst fotografiert oder von Archiven, Bibliotheken und Museen digital online bereitgestellt. Je mehr Quellen es zu entziffern, zu lesen und zu analysieren gilt, umso wichtiger wird es, dass diese im Volltext zur Verfügung stehen. Das erleichtert nicht nur das Durchsuchen und die klassische Weiterverarbeitung der Texte in Form von Notizen oder Zitaten, sondern ermöglicht überhaupt erst die Anwendung digitaler Methoden zur Textanalyse. Für umfangreiche Quellenkorpora muss dabei nicht mehr ausschließlich selbst transkribiert werden, vielmehr können lernende Technologien bei der Erstellung einer Transkription helfen. Das klingt gut – ist es auch -, aber dennoch recht aufwändig und birgt so manchen methodischen Fallstrick…
ATR = OCR+HTR
Die für die Volltexterkennung grundlegenden ATR-Technologien haben sich in den letzten Jahren rasant entwickelt und tun dies auch weiterhin: ATR steht für Automated Text Recognition, der sich derzeit etablierende Oberbegriff für die Erkennung von gedruckten Texten über Optical Character Recognition (OCR) zum einen und die Erkennung handschriftlicher Texte über Handwritten Text Recognition (HTR) zum anderen.
Den meisten dürfte bei der Erkennung handschriftlicher Texte als erstes Transkribus in den Sinn kommen, eine KI-gestützte Plattform, die relativ einfach zu bedienen ist und auch im Browser verwendet werden kann, ab einem gewissen Umfang jedoch kostenpflichtig wird.
[...]
Quelle: https://dhdhi.hypotheses.org/8419