“Where AI meets historical documents”: Automatically transcribing historical prints with OCR and HTR

By Janna Katharina Müller

In my last blog post, I wrote about the source corpus for my master’s thesis – the journal “Monatliche Correspondenz zur Beförderung der Erd- und Himmelskunde” (MC) – and my plan to subject it to digital analysis. The main thing I needed for my analysis was a digital text. Thanks to the Thuringian University and State Library in Jena, the scanned originals of the MC are available online, but only as non-machine-readable PDF files. The first step towards usable data was thus to generate a text from image files.

However, it was essential to consider the type of writing used in the MC: As can be seen from the example page below, the MC was printed in a font that uses, among other things, the long s (“ſ”), an archaic form of the lower-case letter s. Unlike most German publications of the early 19th century, however, this is not a fractional font such as Fraktur, but rather an Antiqua font with serifs, which contains rounded arcs and was used primarily for Latin, Italian, and French texts, but was rather uncommon in German prints.

Figure 1: Example page from the MC (Monatliche Correspondenz zur Beförderung der Erd- und Himmelskunde, Juni-Heft (1801): 556)

OCR with Tesseract

One of the best-known ways to recognize text is Optical Character Recognition (OCR), the electronic or mechanical conversion of images into machine-coded text based on the recognition of individual characters.

[...]

Quelle: https://href.hypotheses.org/2105

Weiterlesen

Keynotes der DHd2022

Die 8. Jahrestagung des DHd-Verbandes – die »DHd2022: Kulturen des digitalen Gedächtnisses« in Potsdam – gibt ihre beiden Keynote-Speakerinnen bekannt: Wir freuen uns sehr, dass wir mit Amalia S. Levi als Opening Keynote und Kathrin Passig als Closing Keynote zwei wunderbare Sprecherinnen gewonnen haben, die das Konferenzthema aus unterscheidlichen Blickwinkeln beleuchten werden. 

Opening Keynote

Amalia S. Levi: »Filling the Gaps: Digital Humanities as Restorative Justice«

Di, 8.3.2022, 18:30 Uhr, via Zoom

Abstract: GLAM collections form the infrastructure of digital humanities work, and digitization has exponentially increased the pool of available primary sources that can be manipulated with computers. At the same time, GLAM institutions embody Western worldviews, imperial expansion, and national aspirations.

[...]

Quelle: https://dhd-blog.org/?p=17383

Weiterlesen

How to map itineraries on FactGrid — and Robinson Crusoe’s eight voyages

William Taylor’s typesetter was reading Crusoe’s history with full attention. That is why he stumbled over that date which the manuscript gave him for his page 46. 1659, “the same Day eight Year that I went from my Father and Mother at Hull”. Crusoe had left his parents in 1661, so he had stated on 7. Should that have been 1651? Or should it now be 1669? There as apparently no time to waste. He skipped the problem and left two blanks.

First edition of Robinson Crusoe, 1719, omitted dates on p.

[...]

Quelle: https://blog.factgrid.de/archives/2475

Weiterlesen

OPERAS Open Chat am 17.02.2022 11 Uhr zu Fair-Prinzipien

Sehr geehrte Damen und Herren, liebe Kolleginnen und Kollegen,

nachdem wir uns im Rahmen unserer Veranstaltungsreihe „OPERAS Open Chats“ bereits mit verschiedenen Stakeholdern der Open Access und Open Science Transformation ausgetauscht haben, wollen wir im nächsten Schritt gezielt die Themen beleuchten, die für die Geistes- und Sozialwissenschaften und für die OPERAS Infrastruktur von besonderer Bedeutung sind.

Dabei werden wir einerseits die Angebote von OPERAS zu diesen Themen vorstellen und möchten andererseits Ihre Bedarfe in diesem Bereich mit aufnehmen.

Wir laden Sie daher herzlich zum nächsten Termin, via Zoom, am 17.02.2022 ein. Wir wollen uns dabei zum Thema CoOperas und den Fair Prinzipien austauschen und freuen uns über eine inhaltliche Einführung durch das Team von Open Edition. Die Veranstaltung findet auf Deutsch und Englisch statt.

[...]

Quelle: https://dhd-blog.org/?p=17378

Weiterlesen