Moritz Mähr (wiss. Mitarbeiter an der Professur für Technikgeschichte, Zürich)
Lernen Sie in PDF-Dateien Texterkennung (OCR) und Textextraktion mit kostenlosen Befehlszeilenwerkzeugen wie Tesseract und Poppler durchzuführen und sich schnell einen Überblick über eine grosse Anzahl von PDF-Dokumenten zu verschaffen.
Zielpublikum
Wenn Sie eines oder mehrere der folgenden Kriterien erfüllen, wird diese Lektion für Sie lehrreich sein:
- Sie arbeiten mit textbasierten Quellen und müssen den Inhalt der Quellen extrahieren.
- Ihre Dateien liegen im PDF-Format vor oder können in dieses Dateiformat konvertiert werden.
[...]