[Praxislabor] Arbeiten mit (vielen) retrodigitialisierten Quellen: Texterkennung und Metadatenextraktion in PDF-Dateien mit freier Software

Moritz Mähr (wiss. Mitarbeiter an der Professur für Technikgeschichte, Zürich)

Lernen Sie in PDF-Dateien Texterkennung (OCR) und Textextraktion mit kostenlosen Befehlszeilenwerkzeugen wie Tesseract und Poppler durchzuführen und sich schnell einen Überblick über eine grosse Anzahl von PDF-Dokumenten zu verschaffen.

Zielpublikum

Wenn Sie eines oder mehrere der folgenden Kriterien erfüllen, wird diese Lektion für Sie lehrreich sein:

  • Sie arbeiten mit textbasierten Quellen und müssen den Inhalt der Quellen extrahieren.
  • Ihre Dateien liegen im PDF-Format vor oder können in dieses Dateiformat konvertiert werden.


  • [...]

Quelle: https://digigw.hypotheses.org/3683

Weiterlesen

Neue DHd-AG OCR gegründet

Wir freuen uns sehr, die Gründung einer neuen DHd-AG namens „OCR“ bekannt geben zu dürfen.

Die neue DHd-AG OCR verfolgt im Wesentlichen folgende Ziele:

  • Vernetzung von Nutzer*innen, Vermittler*innen, Entwickler*innen und Forscher*innen durch mindestens jährliche Treffen sowie Workshops und gemeinsame Projekte mit dem Fokus auf freier und quelloffener Software bzw. Publikationen zum Thema.
  • Erarbeitung, Sicherung und Verbreitung von Best Practices zu praktischen Anwendungsfragen der OCR, z. B. Workflow, Formate, Parameter.


  • [...]

Quelle: https://dhd-blog.org/?p=12242

Weiterlesen

Stellenausschreibung: wiss. Mitarbeiter/in Koordination OCR-D, HAB Wolfenbüttel

An der Herzog August Bibliothek ist zum nächstmöglichen Zeitpunkt im Rahmen des von der DFG geförderten Projektes „Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition“ (OCR-D) die auf 12 Monate befristete Stelle einer/eines wissenschaftlichen Mitarbeiterin / Mitarbeiters (Entgeltgruppe 13 TV-L) zu besetzen.
Die Förderinitiative hat zum Ziel, einerseits Verfahren und Richtlinien für einen optimalen Workflow zu beschreiben sowie eine möglichst weitreichende Standardisierung von OCR-bezogenen Prozessen und Metadaten zu erarbeiten, andererseits die vollständige Transformation des schriftlichen deutschen Kulturerbes in eine maschinenlesbare Form (strukturierter Volltext) konzeptionell vorzubereiten (Masterplan). Das Vorhaben wird in Kooperation mit der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, der Berlin-Brandenburgischen Akademie der Wissenschaften und dem Steinbuch Centre for Computing des Karlsruher Instituts für Technologie (KIT) durchgeführt.
In der abschließenden Projektphase steht insbesondere die Kommunikation mit den Kooperationspartnern, den Modulprojekten sowie externen Interessierten im Fokus.

Ihre Aufgaben:
• Projektmanagement und Projektkoordination mit besonderem Fokus auf den Schnittstellen zwischen den einzelnen Arbeitspaketen
• Kommunikation mit Experten und dem wissenschaftlichen Beirat
• Dokumentation der Projektergebnisse
• Vorbereitung und Durchführung von Workshops
• Mitarbeit an der Überarbeitung der DFG-Praxisregeln „Digitalisierung“
• Mitarbeit bei der Erarbeitung von Qualitätsstandards und Empfehlungen zur Nachnutzbarkeit

Sie bringen mit:
• Abgeschlossenes informationswissenschaftliches, geisteswissenschaftliches oder sozialwissenschaftliches Hochschulstudium
• Erfahrung in der Projektorganisation und ausgeprägte Kommunikationsfähigkeit
• Gute Kenntnisse zum Thema OCR und Digitalisierungsprozessen in Kultureinrichtungen
• Gute allgemeine informationsfachliche Kenntnisse
• Vertrautheit mit Drittmittelprojekten bzw. dem Antrags- und Berichtswesen der DFG
• Teamfähigkeit und soziale Kompetenz
• Sehr gute Englischkenntnisse
• Einsatzbereitschaft und Eigeninitiative

Von Vorteil sind:
• Kompetenzen in der Öffentlichkeitsarbeit, (Webauftritt u.a.

[...]

Quelle: https://dhd-blog.org/?p=11496

Weiterlesen

Automatisierte Handschriftenerkennung: Das Projekt READ und die in seinem Rahmen entwickelte Plattform Transkribus

Menschen sind in der Lage, Handschriften zu entziffern. Wie sieht es bei den Maschinen aus? Können sie uns heutzutage diese Aufgabe komplett abnehmen oder ist es momentan noch nicht so weit? Über den Stand der Dinge zur automatisierten Handschriftenerkennung aus dem Kontext des Projekts READ berichtete im Rahmen des Kolloquiums Digital Humanities Tobias Hodel aus dem Staatsarchiv Zürich.

Handschriftenerkennung: Wozu der Aufwand?

Die Entzifferung von Archivdokumenten ermöglicht uns einen tiefen Einblick in die Vergangenheit. Millionen von Akten, die weltweit in unterschiedlichen Archiven in analoger oder digitaler Form aufbewahrt werden, verbergen unvorstellbare Mengen an Wissen und Erkenntnissen in sich.

Viele von diesen Dokumenten sind Handschriften.

[...]

Quelle: https://dhc.hypotheses.org/469

Weiterlesen

Tagungsbericht zum <philtag n=″14″/>

Vom 16.-17. März 2017 fand in Würzburg der 14. Workshop der DH-Tagungsreihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen. Wie schon im Vorjahr wurde der Workshop auch in diesem Jahr wieder von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, ausgerichtet. Den thematischen Schwerpunkt der diesjährigen Tagung stellten Digitale Editionen im erweiterten Sinne dar. Die insgesamt zwölf Vorträge beschäftigten sich mit Verfahren zur Erschließung digitaler Volltexte, insbesondere durch Optical Character Recognition (OCR), sowie mit der Korrektur, Auszeichnung und schließlich der Präsentation und Visualisierung der Texte und Textkorpora im Netz.

Tag 1
Den Anfang machten Wahed Hemati und Tolga Uslu (Universität Frankfurt), die zwei beim Frankfurter Text Technology Lab entwickelte Projekte vorstellten: Das Projekt Wikidition bietet eine Darstellungsumgebung für digitale Editionen, die auf Semantic MediaWiki basiert und unter Anderem Möglichkeiten zur Lemmatisierung, Annotation und Vergleich der erfassten Texte liefert.

[...]

Quelle: http://dhd-blog.org/?p=7903

Weiterlesen

Tagungsbericht zum <philtag n=“13″/>

Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, der 13. Workshop der Reihe abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr.

[...]

Quelle: http://dhd-blog.org/?p=6501

Weiterlesen

<PhilTag nr=“13″/>

Am 25. und 26. Februar 2016 findet unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der  Universitätsbibliothek Würzburg, der 13. Workshop der Reihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neuen Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bilden OCR-Verfahren, die vor allem am 1. Seminartag vorgestellt und von den Teilnehmern auch in der Praxis erprobt werden sollen. Der 2. Seminartag behandelt aktuelle Projekte der Digital Humanities mit besonderem Schwerpunkt auf Textmining-Verfahren.

[...]

Quelle: http://dhd-blog.org/?p=6047

Weiterlesen

Ein Problem der offenen Wissenschaft? – Das #Bundesarchiv


Twitter ist irgendwie das bessere Oberseminar :D.

— Charlotte Jahnz (@CJahnz) 7. Juli 2015

Daniel Meszner (@meszner) betreut gerade den Twitter-Account der AG Digitale Geisteswissenschaften des Verbands der Historiker und Historikerinnen Deutschlands (@digiw) und führt eine Twitter Umfrage über die “drei wichtigsten (digitalen) Tools für die Forschung” durch. Für mich hat sich neben Evernote (Über das Tobias Jakobi (@historytoby) einen schönen Beitrag geschrieben hat.) mittlerweile Twitter zu einem wirklich mächtigen Werkzeug entwickelt, dass ich anderen meist mit dem Leitfaden von Mareike König (@Mareike2405) näherbringe. Auf meine Masterarbeit und diesen Blog hat Twitter durchaus Einfluss, wie ich in diesem Beitrag aufzeigen möchte.



[...]

Quelle: http://winzen.hypotheses.org/351

Weiterlesen

Mitarbeiter/in in den Digital Humanities, Digitalisierungszentrum der Universität Würzburg

UWÜ_sehrkleinAm Digitalisierungszentrum der Universität Würzburg (Universitätsbibliothek) ist ab sofort in Vollzeit die Stelle eines/einer

Mitarbeiters/Mitarbeiterin in den Digital Humanities

zu besetzen. Die Stelle ist teilzeitfähig, sofern durch Jobsharing die ganztägige Wahrnehmung der Aufgaben gesichert ist. Die Vergütung richtet sich nach dem TV-L.

Die Stelle ist bis zum 30.9.2017 befristet und wird im Rahmen des BMBF-Projektes „Kallimachos“ ausgeschrieben, das den Aufbau eines Digital-Humanities-Zentrums mit den Schwerpunkten digitale Edition und quantitative Analyseverfahren (Textmining) an der Universität Würzburg zum Ziel hat. Sie soll insbesondere der Unterstützung der Projektleitung bei Koordination, Dokumentation und Dissemination der Projektergebnisse dienen sowie die anwenderbezogene Entwicklung von Tools zur Unterstützung digitaler Editionen begleiten.

[...]

Quelle: http://dhd-blog.org/?p=5217

Weiterlesen

Wer das lesen könnt … Zur (Un-)Brauchbarkeit heutiger E-Book-Reader für historische Literatur


E-Book-Reader mit Buchseite im Fraktursatz

Wer in einer historischen Wissenschaft forscht, kann sich heute einen großen Teil seiner Quellenliteratur in elektronischer Form an den eigenen Arbeitsplatz holen: dank Google Books (und einiger progressiver Bibliotheken) sind bereits mehrere Millionen gemeinfreier Bücher digitalisiert. Bei einer größeren Forschungsarbeit warten dann zehn-, vielleicht zwanzigtausend digitalisierte Buchseiten darauf, gesichtet, bewertet und in den relevanten Teilen gelesen zu werden. Doch welche Art von Lesegerät ist überhaupt geeignet, um historische Literatur in digitalisierter Form effizient studieren zu können? Gibt es solche Geräte überhaupt auf dem Markt?

Drei Grundanforderungen muss der Reader mindestens erfüllen: er muss erstens für ermüdungsarmes Lesen langer Texte geeignet sein, zweitens über ein ausreichend großes Display verfügen und drittens einen effizienten Umgang mit denjenigen Formaten bieten, in denen die Digitalisate historischer Bücher üblicherweise vorliegen. Der erste Punkt ist schnell geklärt: hintergrundbeleuchtete Bildschirme sind für stundenlanges Lesen ungeeignet. In Frage kommen daher nur E-Book-Reader mit reflektiven Displays (“elektronisches Papier”), die in Bezug auf Kontrast und Schärfe der Textdarstellung die Qualität bedruckten Papiers inzwischen nahezu erreichen (eInk Pearl).

Die zweite und dritte Anforderung ergibt sich aus dem Format, in dem historische Literatur üblicherweise als Digitalisat zur Verfügung gestellt wird: nämlich als Image-Daten, also Faksimiles, die man in der Regel im PDF-Format herunterladen kann. Im Gegensatz zu elektronischem Text, bei dem sich Zeilen- und Seitenumbruch im Lesegerät entsprechend der Displaygröße und der eingestellten Schriftart und Schriftgröße anpassen, zeigen diese Faksimile-Digitalisate den Text genau in der Form, in der er im Original gedruckt vorliegt. Notwendig sind daher E-Book-Reader mit großem Display, so dass der Text in Vollseitenansicht wenigstens bei mittelgroßen Büchern noch gut lesbar ist.

Bereits an dieser Stelle beginnt der Markt, extrem dünn zu werden: Bei meiner Recherche im Frühjahr dieses Jahres kam es mir vor, als würde zur bereits millionenfach vorhandenen „Software“ noch die geeignete Hardware fehlen. Lediglich drei Anbieter hatten überhaupt lieferbare Geräte mit der ausreichenden Größe von rund 10 Zoll im Portfolio: PocketBook mit den beiden Varianten Pro 902 und 903, Amazon (Kindle DX) und Onyx (Boox M90/M92). Zwei weitere Anbieter (iRex und EnTourage) sind nicht mehr am Markt; inzwischen ist der Hersteller Ectaco mit seinem JetBook Color hinzugekommen.

Um einmal ein Maß zu geben: Die 10-Zoll-Displays haben ein Format von rund 20 x 14 cm – dies ist etwas kleiner als DIN A5 und entspricht ungefähr dem klassischen Oktav-Buchformat, so dass die digitalisierten Seiten solcher Bücher in Originalgröße wiedergegeben werden können. Bei Groß-Oktav und größeren Buchformaten ist eine gute Lesbarkeit bestenfalls noch dann gegeben, wenn die Darstellung des Readers einen angepassten Zoom auf den Satzspiegel erlaubt.

Dies wäre dann der dritte Punkt: ein nutzerfreundlicher Umgang mit PDF-Dokumenten. Amazons Kindle DX unterstützt PDF nur rudimentär, bei PocketBook (das leider kein Pearl-Display hat) ist er mittelprächtig, bei Onyx ist zumindest die Zoom-Funktionalität wohl die beste: es ist ein automatischer Randbeschnitt einstellbar, so dass die maximale Zoomstufe stets automatisch ermittelt werden kann und auch das Blättern von rechten zu linken Seiten nicht zu Ausschnittsverschiebungen in den Satzspiegel hinein führt. Der Teufel steckt aber auch bei dieser Lösung im Detail: etwa wenn Verschmutzungen, die Lagenangaben für den Buchbinder oder Annotationen außerhalb des Satzspiegels liegen. Stichwort Annotationen: Ein guter PDF-Reader muss auch die analogen Lektüretechniken wie Lesezeichen, Anstreichungen und Anmerkungen digital adäquat ersetzen. Beim Onyx Boox M92 ist dies dank Touch-Screen mit elektronischem Stift ganz ordentlich möglich; die Umsetzung des Anmerkungsexports ist jedoch noch verbesserungswürdig.

Zusammenfassend lässt sich sagen: Sucht man einen 10-zolligen E-Book-Reader mit sehr gutem eInk-Display und ordentlicher PDF-Handhabbarkeit, kam zum Zeitpunkt meiner Recherche vor einigen Monaten genau ein Gerät in Frage – das zudem bei den allermeisten Händlern in Deutschland nicht erhältlich war. Ich ziehe daraus die Folgerung, dass es für Geräte dieser Art derzeit noch keinen ausreichend attraktiven Markt gibt.

Was heißt das nun für Bibliotheken? Immer mehr Einrichtungen forcieren die Digitalisierung ihrer Bestände, doch um die hardwaretechnischen Voraussetzungen der Benutzbarkeit dieser Digitalisate kümmert sich kaum ein Bibliothekar – in der Annahme, die Elektronikbranche werde für jeden Zweck schon geeignete Geräte anbieten. Eine derzeit eher naive Annahme, wie ich gezeigt habe. (Die möglicherweise auch daher rührt, dass Bibliothekare zwar viel Expertise im Erschließen, aber wenig Erfahrung im Lesen ihrer Bestände haben?) Doch sollen und können sich Bibliotheken hier engagieren? Oder wird es der Markt schon richten? Denkbar wären Public-Private Partnerships, in denen Uni-Bibliotheken mit Hardware-Unternehmen kooperieren. Mancherorts erhalten Studierende der naturwissenschaftlichen Fakultät zum 1. Semester einen iPad – sollte man nicht in Fächern wie Literaturwissenschaft „akademische E-Book-Reader“ zu etablieren versuchen?

Quelle: http://dss.hypotheses.org/682

Weiterlesen