Vollst. überarb., erw. und fairifizierte Neuauflage: Die Datenbank „Das Adressbuch der Deutschen in Paris von 1854“

Vortrag von Mareike König und Alina Ostrowski am 22.6.2023, 17:45, im Kolloquium “Digital Humanities: Aktuelle Forschungsprojekte” an der Universität Köln (HS XVIII).

Wie kann man alternde digitale Projekte vor dem Datenfriedhof bewahren und welche Schritte sind notwendig, um ihre Nutzungsszenarien zu erweitern und an gegenwärtige Standards anzupassen? Diesen Fragen geht der Vortrag exemplarisch am Beispiel der Datenbank „Adressbuch der Deutschen in Paris von 1854“ nach, die 2006 vom DHI Paris online gestellt worden war. In Kooperation mit dem IDH Köln wurde jüngst eine Überarbeitung anvisiert, die insbesondere auf eine Konsolidierung und Anreicherung der Daten sowie auf ihre Bereitstellung nach den FAIR-Prinzipien (findable, accessible, interoperable, reusable) zielte. Zugleich schloss sie die Digitalisierung des Druckexemplars, den Relaunch der Website und die Visualisierung der Daten auf einer historischen Karte ein. Für alle Anwendungen wurde Open Source-Software eingesetzt. Der verwendete Code ist auf GitHub zugänglich.

[...]

Quelle: https://dhdhi.hypotheses.org/8549

Weiterlesen

Neuer Schwerpunkt der Abteilung Digitale Geschichtswissenschaft am DHIP: Automatisierte Handschriftenerkennung (ATR)

Die Grundlage für viele historische Arbeiten sind textliche Quellen, seien sie handschriftlich oder gedruckt, im Archiv selbst fotografiert oder von Archiven, Bibliotheken und Museen digital online bereitgestellt. Je mehr Quellen es zu entziffern, zu lesen und zu analysieren gilt, umso wichtiger wird es, dass diese im Volltext zur Verfügung stehen. Das erleichtert nicht nur das Durchsuchen und die klassische Weiterverarbeitung der Texte in Form von Notizen oder Zitaten, sondern ermöglicht überhaupt erst die Anwendung digitaler Methoden zur Textanalyse. Für umfangreiche Quellenkorpora muss dabei nicht mehr ausschließlich selbst transkribiert werden, vielmehr können lernende Technologien bei der Erstellung einer Transkription helfen. Das klingt gut – ist es auch -, aber dennoch recht aufwändig und birgt so manchen methodischen Fallstrick…

ATR = OCR+HTR

Die für die Volltexterkennung grundlegenden ATR-Technologien haben sich in den letzten Jahren rasant entwickelt und tun dies auch weiterhin: ATR steht für Automated Text Recognition, der sich derzeit etablierende Oberbegriff für die Erkennung von gedruckten Texten über Optical Character Recognition (OCR) zum einen und die Erkennung handschriftlicher Texte über Handwritten Text Recognition (HTR) zum anderen. 

Den meisten dürfte bei der Erkennung handschriftlicher Texte als erstes Transkribus in den Sinn kommen, eine KI-gestützte Plattform, die relativ einfach zu bedienen ist und auch im Browser verwendet werden kann, ab einem gewissen Umfang jedoch kostenpflichtig wird.

[...]

Quelle: https://dhdhi.hypotheses.org/8419

Weiterlesen