[Praxislabor] Arbeiten mit (vielen) retrodigitialisierten Quellen: Texterkennung und Metadatenextraktion in PDF-Dateien mit freier Software

Moritz Mähr (wiss. Mitarbeiter an der Professur für Technikgeschichte, Zürich)

Lernen Sie in PDF-Dateien Texterkennung (OCR) und Textextraktion mit kostenlosen Befehlszeilenwerkzeugen wie Tesseract und Poppler durchzuführen und sich schnell einen Überblick über eine grosse Anzahl von PDF-Dokumenten zu verschaffen.

Zielpublikum

Wenn Sie eines oder mehrere der folgenden Kriterien erfüllen, wird diese Lektion für Sie lehrreich sein:

  • Sie arbeiten mit textbasierten Quellen und müssen den Inhalt der Quellen extrahieren.
  • Ihre Dateien liegen im PDF-Format vor oder können in dieses Dateiformat konvertiert werden.


  • [...]

Quelle: https://digigw.hypotheses.org/3683

Weiterlesen