[Praxislabor] Arbeiten mit (vielen) retrodigitialisierten Quellen: Texterkennung und Metadatenextraktion in PDF-Dateien mit freier Software

Moritz Mähr (wiss. Mitarbeiter an der Professur für Technikgeschichte, Zürich)

Lernen Sie in PDF-Dateien Texterkennung (OCR) und Textextraktion mit kostenlosen Befehlszeilenwerkzeugen wie Tesseract und Poppler durchzuführen und sich schnell einen Überblick über eine grosse Anzahl von PDF-Dokumenten zu verschaffen.

Zielpublikum

Wenn Sie eines oder mehrere der folgenden Kriterien erfüllen, wird diese Lektion für Sie lehrreich sein:

  • Sie arbeiten mit textbasierten Quellen und müssen den Inhalt der Quellen extrahieren.
  • Ihre Dateien liegen im PDF-Format vor oder können in dieses Dateiformat konvertiert werden.


  • [...]

Quelle: https://digigw.hypotheses.org/3683

Weiterlesen

Masterarbeit

Dem Leitmotiv der offenen Wissenschaft folgend, stelle meine Masterarbeit mit dem Titel: Ein Netzwerk des Widerstandes im Nationalsozialismus?  – Eine Untersuchung zur Dortmunder ‚Winzengruppe‘ in den Blog ein. Sie wurde von meinen Betreuern, den Professoren Scholtyseck und Geppert an der Universität Bonn mit einer 1.7 benotet.

Der bisherige Plan ist, jedes Kapitel als einzelnen Beitrag zu veröffentlichen und alles untereinander zu verlinken. Ich suche aber noch nach einer Möglichkeit, wie sich eventuelle Kommentare besser bündeln lassen. Bisher fällt mir dazu nur ein ständiger Verweis auf eine Nachbesprechungs- oder Kommentarseite ein, auf der sich vielleicht auch (abhängig von meinem Verhandlungsgeschick) die Gutachten meiner Betreuer befinden würden. Zwischen den Blogbeiträgen und der abgegeben Masterarbeit bestehen minimale Unterschiede, weil es bei der Portierung von Word zu WordPress ein paar Schwierigkeiten gibt und ich nebenbei ein paar Flüchtigkeitsfehler ausmerze.



[...]

Quelle: http://winzen.hypotheses.org/589

Weiterlesen

Miguel Requena Jiménez, Kleidung, Blut und Befleckung in der paganen Welt der Antike.

In einem Aufsatz in den Mannheimer Geschichtsblättern behandelt Miguel Requena Jiménez das Thema "Kleidung, Blut und Befleckung in der paganen Welt der Antike."
Der Artikel findet sich auf einer Unterseite der Universitat de València und kann als PDF abgerufen werden. Auf der academia.edu-Seite des Autors kann der Artikel ebenfalls eingesehen werden.



via Hiltibold

Quelle: http://provinzialroemer.blogspot.com/2013/12/miguel-requena-jimenez-kleidung-blut.html

Weiterlesen

Josef Freiberger, Villa und Landschaft. Römische Villen- und Landschaftsdarstellungen auf Wandmalereien, Reliefs und Mosaiken.

In seiner Diplomarbeit widmet sich Josef Freiberger der Darstellung von Landgütern und Landschaften auf römischen Wandmalereien, Reliefs und Mosaiken. Das Werk ist als PDF auf den Seiten der Karl Franzens-Universität Graz abrufbar.


via Hiltibold

Quelle: http://provinzialroemer.blogspot.com/2013/12/josef-freiberger-villa-und-landschaft.html

Weiterlesen

DHd-Blog: Online-Volltexte zu Johann Friedrich Blumenbach

Seit Juli 2012 stehen die Digitalisate fast aller Publikationen Blumenbachs über die online-Fassung der Blumenbach-Bibliographie (http://www.blumenbach-online.de/fileadmin/wikiuser/Daten_Digitalisierung/Bibliographie/Bibliographie.html) zur Verfügung, die im Rahmen des Projekts “Johann Friedrich Blumenbach – online” der Akademie der Wissenschaften zu Göttingen entstanden sind. Die Digitalisate sind als pdf-Dateien verfügbar und können direkt von der Bibliographie aus herunter geladen werden. Außerdem können inzwischen […]

Quelle: http://www.einsichten-online.de/2013/04/4056/

Weiterlesen

Online-Volltexte zu Johann Friedrich Blumenbach

Seit Juli 2012 stehen die Digitalisate fast aller Publikationen Blumenbachs über die online-Fassung der Blumenbach-Bibliographie (http://www.blumenbach-online.de/fileadmin/wikiuser/Daten_Digitalisierung/Bibliographie/Bibliographie.html) zur Verfügung, die im Rahmen des Projekts “Johann Friedrich Blumenbach – online” der Akademie der Wissenschaften zu Göttingen entstanden sind. Die Digitalisate sind als pdf-Dateien verfügbar und können direkt von der Bibliographie aus herunter geladen werden.

Außerdem können inzwischen über die Bibliographie 60 Volltexte (im html-Format) wichtiger Werke Blumenbachs genutzt werden. Diese Texte sind z. B. mithilfe der Suchfunktion eines Browsers durchsuchbar und können per „copy & paste“ für Zitate genutzt werden.

Seiten- und Zeilenumbrüche entsprechen den originalen Druckseiten. In dieser Form liegen vor: alle lateinischen Ausgaben von De generis humani varietate nativa und diverse Übersetzungen dieses Werks, alle 12 Originalausgaben des Handbuchs der Naturgeschichte und einzelne Übersetzungen, die Schädeldekaden und die dazu gehörigen Erstabdrucke der lateinischen Texte in den Commentationes der Göttinger Akademie der Wissenschaften sowie deren deutsche Zusammenfassungen in den Göttingischen gelehrten Anzeigen, die Beiträge zur Naturgeschichte und die Hefte 1 und 6 der Abbildungen naturhistorischer Gegenstände.

Quelle: http://dhd-blog.org/?p=1506

Weiterlesen

Online-Volltexte zu Johann Friedrich Blumenbach

Seit Juli 2012 stehen die Digitalisate fast aller Publikationen Blumenbachs über die online-Fassung der Blumenbach-Bibliographie (http://www.blumenbach-online.de/fileadmin/wikiuser/Daten_Digitalisierung/Bibliographie/Bibliographie.html) zur Verfügung, die im Rahmen des Projekts “Johann Friedrich Blumenbach – online” der Akademie der Wissenschaften zu Göttingen entstanden sind. Die Digitalisate sind als pdf-Dateien verfügbar und können direkt von der Bibliographie aus herunter geladen werden.

Außerdem können inzwischen über die Bibliographie 60 Volltexte (im html-Format) wichtiger Werke Blumenbachs genutzt werden. Diese Texte sind z. B. mithilfe der Suchfunktion eines Browsers durchsuchbar und können per „copy & paste“ für Zitate genutzt werden.

Seiten- und Zeilenumbrüche entsprechen den originalen Druckseiten. In dieser Form liegen vor: alle lateinischen Ausgaben von De generis humani varietate nativa und diverse Übersetzungen dieses Werks, alle 12 Originalausgaben des Handbuchs der Naturgeschichte und einzelne Übersetzungen, die Schädeldekaden und die dazu gehörigen Erstabdrucke der lateinischen Texte in den Commentationes der Göttinger Akademie der Wissenschaften sowie deren deutsche Zusammenfassungen in den Göttingischen gelehrten Anzeigen, die Beiträge zur Naturgeschichte und die Hefte 1 und 6 der Abbildungen naturhistorischer Gegenstände.

Quelle: http://dhd-blog.org/?p=1506

Weiterlesen