Automatisierte Handschriftenerkennung: Das Projekt READ und die in seinem Rahmen entwickelte Plattform Transkribus

Menschen sind in der Lage, Handschriften zu entziffern. Wie sieht es bei den Maschinen aus? Können sie uns heutzutage diese Aufgabe komplett abnehmen oder ist es momentan noch nicht so weit? Über den Stand der Dinge zur automatisierten Handschriftenerkennung aus dem Kontext des Projekts READ berichtete im Rahmen des Kolloquiums Digital Humanities Tobias Hodel aus dem Staatsarchiv Zürich.

Handschriftenerkennung: Wozu der Aufwand?

Die Entzifferung von Archivdokumenten ermöglicht uns einen tiefen Einblick in die Vergangenheit. Millionen von Akten, die weltweit in unterschiedlichen Archiven in analoger oder digitaler Form aufbewahrt werden, verbergen unvorstellbare Mengen an Wissen und Erkenntnissen in sich.

Viele von diesen Dokumenten sind Handschriften.

[...]

Quelle: https://dhc.hypotheses.org/469

Weiterlesen

Tagungsbericht zum <philtag n=″14″/>

Vom 16.-17. März 2017 fand in Würzburg der 14. Workshop der DH-Tagungsreihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen. Wie schon im Vorjahr wurde der Workshop auch in diesem Jahr wieder von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, ausgerichtet. Den thematischen Schwerpunkt der diesjährigen Tagung stellten Digitale Editionen im erweiterten Sinne dar. Die insgesamt zwölf Vorträge beschäftigten sich mit Verfahren zur Erschließung digitaler Volltexte, insbesondere durch Optical Character Recognition (OCR), sowie mit der Korrektur, Auszeichnung und schließlich der Präsentation und Visualisierung der Texte und Textkorpora im Netz.

Tag 1
Den Anfang machten Wahed Hemati und Tolga Uslu (Universität Frankfurt), die zwei beim Frankfurter Text Technology Lab entwickelte Projekte vorstellten: Das Projekt Wikidition bietet eine Darstellungsumgebung für digitale Editionen, die auf Semantic MediaWiki basiert und unter Anderem Möglichkeiten zur Lemmatisierung, Annotation und Vergleich der erfassten Texte liefert.

[...]

Quelle: http://dhd-blog.org/?p=7903

Weiterlesen

Tagungsbericht zum <philtag n=“13″/>

Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, der 13. Workshop der Reihe abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr.

[...]

Quelle: http://dhd-blog.org/?p=6501

Weiterlesen

<PhilTag nr=“13″/>

Am 25. und 26. Februar 2016 findet unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der  Universitätsbibliothek Würzburg, der 13. Workshop der Reihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neuen Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bilden OCR-Verfahren, die vor allem am 1. Seminartag vorgestellt und von den Teilnehmern auch in der Praxis erprobt werden sollen. Der 2. Seminartag behandelt aktuelle Projekte der Digital Humanities mit besonderem Schwerpunkt auf Textmining-Verfahren.

[...]

Quelle: http://dhd-blog.org/?p=6047

Weiterlesen

Ein Problem der offenen Wissenschaft? – Das #Bundesarchiv


Twitter ist irgendwie das bessere Oberseminar :D.

— Charlotte Jahnz (@CJahnz) 7. Juli 2015

Daniel Meszner (@meszner) betreut gerade den Twitter-Account der AG Digitale Geisteswissenschaften des Verbands der Historiker und Historikerinnen Deutschlands (@digiw) und führt eine Twitter Umfrage über die “drei wichtigsten (digitalen) Tools für die Forschung” durch. Für mich hat sich neben Evernote (Über das Tobias Jakobi (@historytoby) einen schönen Beitrag geschrieben hat.) mittlerweile Twitter zu einem wirklich mächtigen Werkzeug entwickelt, dass ich anderen meist mit dem Leitfaden von Mareike König (@Mareike2405) näherbringe. Auf meine Masterarbeit und diesen Blog hat Twitter durchaus Einfluss, wie ich in diesem Beitrag aufzeigen möchte.



[...]

Quelle: http://winzen.hypotheses.org/351

Weiterlesen

Mitarbeiter/in in den Digital Humanities, Digitalisierungszentrum der Universität Würzburg

UWÜ_sehrkleinAm Digitalisierungszentrum der Universität Würzburg (Universitätsbibliothek) ist ab sofort in Vollzeit die Stelle eines/einer

Mitarbeiters/Mitarbeiterin in den Digital Humanities

zu besetzen. Die Stelle ist teilzeitfähig, sofern durch Jobsharing die ganztägige Wahrnehmung der Aufgaben gesichert ist. Die Vergütung richtet sich nach dem TV-L.

Die Stelle ist bis zum 30.9.2017 befristet und wird im Rahmen des BMBF-Projektes „Kallimachos“ ausgeschrieben, das den Aufbau eines Digital-Humanities-Zentrums mit den Schwerpunkten digitale Edition und quantitative Analyseverfahren (Textmining) an der Universität Würzburg zum Ziel hat. Sie soll insbesondere der Unterstützung der Projektleitung bei Koordination, Dokumentation und Dissemination der Projektergebnisse dienen sowie die anwenderbezogene Entwicklung von Tools zur Unterstützung digitaler Editionen begleiten.

[...]

Quelle: http://dhd-blog.org/?p=5217

Weiterlesen

Wer das lesen könnt … Zur (Un-)Brauchbarkeit heutiger E-Book-Reader für historische Literatur


E-Book-Reader mit Buchseite im Fraktursatz

Wer in einer historischen Wissenschaft forscht, kann sich heute einen großen Teil seiner Quellenliteratur in elektronischer Form an den eigenen Arbeitsplatz holen: dank Google Books (und einiger progressiver Bibliotheken) sind bereits mehrere Millionen gemeinfreier Bücher digitalisiert. Bei einer größeren Forschungsarbeit warten dann zehn-, vielleicht zwanzigtausend digitalisierte Buchseiten darauf, gesichtet, bewertet und in den relevanten Teilen gelesen zu werden. Doch welche Art von Lesegerät ist überhaupt geeignet, um historische Literatur in digitalisierter Form effizient studieren zu können? Gibt es solche Geräte überhaupt auf dem Markt?

Drei Grundanforderungen muss der Reader mindestens erfüllen: er muss erstens für ermüdungsarmes Lesen langer Texte geeignet sein, zweitens über ein ausreichend großes Display verfügen und drittens einen effizienten Umgang mit denjenigen Formaten bieten, in denen die Digitalisate historischer Bücher üblicherweise vorliegen. Der erste Punkt ist schnell geklärt: hintergrundbeleuchtete Bildschirme sind für stundenlanges Lesen ungeeignet. In Frage kommen daher nur E-Book-Reader mit reflektiven Displays (“elektronisches Papier”), die in Bezug auf Kontrast und Schärfe der Textdarstellung die Qualität bedruckten Papiers inzwischen nahezu erreichen (eInk Pearl).

Die zweite und dritte Anforderung ergibt sich aus dem Format, in dem historische Literatur üblicherweise als Digitalisat zur Verfügung gestellt wird: nämlich als Image-Daten, also Faksimiles, die man in der Regel im PDF-Format herunterladen kann. Im Gegensatz zu elektronischem Text, bei dem sich Zeilen- und Seitenumbruch im Lesegerät entsprechend der Displaygröße und der eingestellten Schriftart und Schriftgröße anpassen, zeigen diese Faksimile-Digitalisate den Text genau in der Form, in der er im Original gedruckt vorliegt. Notwendig sind daher E-Book-Reader mit großem Display, so dass der Text in Vollseitenansicht wenigstens bei mittelgroßen Büchern noch gut lesbar ist.

Bereits an dieser Stelle beginnt der Markt, extrem dünn zu werden: Bei meiner Recherche im Frühjahr dieses Jahres kam es mir vor, als würde zur bereits millionenfach vorhandenen „Software“ noch die geeignete Hardware fehlen. Lediglich drei Anbieter hatten überhaupt lieferbare Geräte mit der ausreichenden Größe von rund 10 Zoll im Portfolio: PocketBook mit den beiden Varianten Pro 902 und 903, Amazon (Kindle DX) und Onyx (Boox M90/M92). Zwei weitere Anbieter (iRex und EnTourage) sind nicht mehr am Markt; inzwischen ist der Hersteller Ectaco mit seinem JetBook Color hinzugekommen.

Um einmal ein Maß zu geben: Die 10-Zoll-Displays haben ein Format von rund 20 x 14 cm – dies ist etwas kleiner als DIN A5 und entspricht ungefähr dem klassischen Oktav-Buchformat, so dass die digitalisierten Seiten solcher Bücher in Originalgröße wiedergegeben werden können. Bei Groß-Oktav und größeren Buchformaten ist eine gute Lesbarkeit bestenfalls noch dann gegeben, wenn die Darstellung des Readers einen angepassten Zoom auf den Satzspiegel erlaubt.

Dies wäre dann der dritte Punkt: ein nutzerfreundlicher Umgang mit PDF-Dokumenten. Amazons Kindle DX unterstützt PDF nur rudimentär, bei PocketBook (das leider kein Pearl-Display hat) ist er mittelprächtig, bei Onyx ist zumindest die Zoom-Funktionalität wohl die beste: es ist ein automatischer Randbeschnitt einstellbar, so dass die maximale Zoomstufe stets automatisch ermittelt werden kann und auch das Blättern von rechten zu linken Seiten nicht zu Ausschnittsverschiebungen in den Satzspiegel hinein führt. Der Teufel steckt aber auch bei dieser Lösung im Detail: etwa wenn Verschmutzungen, die Lagenangaben für den Buchbinder oder Annotationen außerhalb des Satzspiegels liegen. Stichwort Annotationen: Ein guter PDF-Reader muss auch die analogen Lektüretechniken wie Lesezeichen, Anstreichungen und Anmerkungen digital adäquat ersetzen. Beim Onyx Boox M92 ist dies dank Touch-Screen mit elektronischem Stift ganz ordentlich möglich; die Umsetzung des Anmerkungsexports ist jedoch noch verbesserungswürdig.

Zusammenfassend lässt sich sagen: Sucht man einen 10-zolligen E-Book-Reader mit sehr gutem eInk-Display und ordentlicher PDF-Handhabbarkeit, kam zum Zeitpunkt meiner Recherche vor einigen Monaten genau ein Gerät in Frage – das zudem bei den allermeisten Händlern in Deutschland nicht erhältlich war. Ich ziehe daraus die Folgerung, dass es für Geräte dieser Art derzeit noch keinen ausreichend attraktiven Markt gibt.

Was heißt das nun für Bibliotheken? Immer mehr Einrichtungen forcieren die Digitalisierung ihrer Bestände, doch um die hardwaretechnischen Voraussetzungen der Benutzbarkeit dieser Digitalisate kümmert sich kaum ein Bibliothekar – in der Annahme, die Elektronikbranche werde für jeden Zweck schon geeignete Geräte anbieten. Eine derzeit eher naive Annahme, wie ich gezeigt habe. (Die möglicherweise auch daher rührt, dass Bibliothekare zwar viel Expertise im Erschließen, aber wenig Erfahrung im Lesen ihrer Bestände haben?) Doch sollen und können sich Bibliotheken hier engagieren? Oder wird es der Markt schon richten? Denkbar wären Public-Private Partnerships, in denen Uni-Bibliotheken mit Hardware-Unternehmen kooperieren. Mancherorts erhalten Studierende der naturwissenschaftlichen Fakultät zum 1. Semester einen iPad – sollte man nicht in Fächern wie Literaturwissenschaft „akademische E-Book-Reader“ zu etablieren versuchen?

Quelle: http://dss.hypotheses.org/682

Weiterlesen