Aktendigitalisierung für Anfänger. Oder: Die kurze Geschichte einer rasanten technischen Entwicklung

Wie lange wird die Digitalisierung der „Deutschen Nachkriegskinder“-Studie dauern? Durch die schnellen technischen Entwicklungen muss diese Frage stets neu und besser beantwortet werden. Am 5. Juni habe ich zusammen mit einer studentischen Hilfskraft versucht genau das auf dem aktuellen Stand der verfügbaren Technik herauszufinden. Dabei gebe ich auch einen Rückblick auf die bisher bestehenden Möglichkeiten.
Erst wenige Tage vorher habe ich entdeckt, dass in der Universitätsbibliothek Bonn ein sehr hübscher und neuer Buchscanner steht, mit dem jeder kostenlose Scans auf USB-Stick anfertigen kann. Noch vor wenigen Jahren kostete in der gleichen Bibliothek ein rein digitaler Scan genau so viel wie der Ausdruck auf Papier! Glücklicherweise sind diese Zeiten vorbei. Wir haben daher einen Vormittag lang verschiedene Unterlagen gescannt, die Zeit gemessen, Workflows und Einstellungen optimiert und dokumentiert.

Scanner anno dazumal (2009)

Aber gehen wir noch mal kurz zurück ins Jahr 2009, als ich zum ersten Mal mit der Forschungsgruppe „Deutsche Nachkriegskinder – revisited“ in Berührung kam. Damals war ich noch selbst studentische Hilfskraft. In meinem Büro stand ein Scanner zur Verfügung, der per Parallelschnittstelle an den Arbeitsrechner angeschlossen war: ein Kodak i80. Dieser Flachbettscanner kostete seinerzeit wohl eine kleine vierstelllige Summe, war jedoch schon zu meinem Arbeitsbeginn nicht mehr auf dem Stand der Technik und furchtbar langsam. Jeder Scan dauerte damit mindestens eine Minute, vom Einlegen des Blatts bis zum fertigen Scan auf dem Rechner. Meistens dauerte es viel länger. Ein ganzes Archiv damit zu digitalisieren würde einen Menschen sehr viel Lebenszeit rauben.

Smartphone-Scanner (2012)

Seit der Verbreitung von Smartphones mit guten Kameras erschloss es sich mir nicht mehr über eine Minute auf einen Scan zu warten, wenn ich sofort ein digitales Abbild der Akte erhalten kann. 2012 entdeckte ich ein  Crowdfunding-Projekt für eine Box, die es ermöglichte mit dem iPhone zu scannen, ohne die Kamera wackelig in der Hand zu halten, teils sogar mit eingebauter Beleuchtung. Ich baute mir zum Testen so selbst einen kleinen Smartphone-Scan-Automaten. Heutzutage gibt es solche fertige Boxen für wenig Geld.

Problematisch beim Smartphone-Scannen ist die fehlende Nachbearbeitung. Bilder sind oft verzerrt sein, die Farben und Lichtverhältnisse nicht korrekt wiedergegeben oder die Bilder sind unscharf, was man erst auf dem großen Bildschirm erkennen kann. Doch mit neuen Apps, die das Foto mit Algorithmen zu einem perfekten Scan zuschneiden, Farben und Licht optimieren, ist all das kein Problem mehr.

Im Alltag benutze ich keinen Scanner mehr, sondern die Scanbot-App der Bonner Entwickler von doo. Die Papierränder werden automatisch erkannt und das Bild automatisch nach der Scharfstellung und Dokumenterkennung ausgelöst. Danach landet das Bild sofort und ebenfalls automatisch in meiner Dropbox. Also muss ich nur noch meine Kamera ausrichten und danach kann ich das Ergebnis auf meinem Rechner begutachten.

Automatische Dokumenterkennung
Nachbearbeitung und Upload

Natürlich ist die Qualität dieser Bilder sehr unterschiedlich und hängt trotz aller Algorithmen sehr von den externen Lichtverhältnissen ab. Manchmal wird das Bild auch verzerrt, weil man die Kamera nicht perfekt gerade über das Blatt Papier gehalten hat. Trotzdem, mit der Handykamera und einer optimierten App könnte ich in meinen Tests etwa alle 30 Sekunden einen akzeptablen Scan erstellen.

Scannen mit dem Zeutschel zeta (2014)

Vor einem Jahr ist mir dann zum ersten Mal der Scanner der Firma Zeutschel bei Twitter über den Weg gelaufen. Ich war überrascht, dass eine Buchscanner-Firma mit sozialen Medien arbeitet. Um ehrlich zu sein, gibt es den Zeutschel zetal schon seit 2011 auf dem Markt. Doch erst eine Woche vor diesem Beitrag habe ich ihn dann endlich in der Bibliothek entdeckt und wollte ihn ausprobieren. Einen solchen Buchscanner kann man sich leider nicht selbst basteln und er liegt auch nicht im studentischen Budget. Umso schöner, dass die ULB Bonn ihn angeschafft hat.

Das Design des zeta erinnert ein wenig an Apple, zumindest ist es sehr hübsch für einen Buchscanner, die sonst eher funktionell gestaltet sind. Die einzige, aber dafür enorm störende Schwachstelle ist der Touchscreen, der leider nicht von Apple stammt. Das Betriebsystem ist Windows 7, das bekamen wir bei einem Absturz des Programms zu Gesicht. Wer  Multi-Touch-Gesten und eine funktionierende Bildschirmtastatur gewohnt ist, wird enttäuscht. Buchstaben muss man mehrfach drücken, die Tastatur hat keine Umlaute und das Anpassen des Scanbereichs ist nur nach mehrfachem Probieren zu nutzen, trotz Multitouchfähigkeit des Bildschirms ist das wirklich enttäuschend für so ein hochpreisiges Gerät.

Wenn man aber etwas mit dem zeta gearbeitet hat, merkt man, dass einige Algorithmen im Hintergrund die Arbeit des Buchscanners unbemerkt erleichtern. Finger, die das Blatt festhalten, werden aus dem Bild heraus gerechnet und es schien mir, als würde der Scanner eine Wahrscheinlichkeit berechnen, wo die nächste Buchseite ist, damit er die Zuschnitte nicht bei jedem Scan neu festlegen muss.

Die Scans kann man in den Formaten .jpg, .tif oder .pdf speichern, sie haben eine Auflösung von 300 dpi, unter gewissen Einstellungen auch bis zu 600 dpi. Bei PDF-Dateien besteht die Möglichkeit mehrerer Scans in eine Datei zu speichern (Multisite). Auch die Zuschnitte lassen sich per Einstellung optimieren (nur links, nur rechts, automatisch teilen oder nicht teilen).

Der Scanvorgang selbst ist wirklich sehr komfortabel und blitzschnell. Mit den Fingern fixiert man das Blatt, tippt sobald eine grüne LED leuchtet auf die Scanbuttons, die an mehreren Stellen ergonomisch erreichbar sind und kontrolliert danach das Ergebnis auf dem Touchscreen. Sobald der nächste Scan gestartet wird, wird das vorherige Bild auf dem USB-Stick gesichert. Nur beim letzten Scan muss man aufpassen, dass man das Speichern nicht vergisst, bevor man den USB-Stick entfernt.

Nachdem wir alle Einstellungen einmal ausprobiert haben und einen optimalen Workflow zu zweit entwickelten (einer sortiert die Aktenblätter, legt sie auf den Scanner und fixiert sie, der andere scannt, kontrolliert, korrigiert und löst den nächsten Scan aus), haben wir die Zeit gemessen, die wir brauchten um eine Beispielakte zu scannen. In einer Stunde konnten wir 184 Aktenseiten scannen. Die Konzentration lässt mit der Zeit etwas nach, dafür gibt es Übungseffekte, die den gesamten Vorgang beschleunigen.

Scanbeispiele

Hollerithschlüssel für den Lehrerbericht
Anleitung von 1953 zur Durchführung und Auswertung der psychologischen Untersuchungen
Akte für die Konstitutionsdaten
Akte für die psychologischen Untersuchungsergebnisse
Unterzeichentest

Ergebnis

Um die Dauer der gesamten Digitalisierung aller Akten abschätzen, müssen wir wissen, wie viele Aktenblätter es gibt. Im Schnitt sind etwa 100 Aktenblätter pro Akte enthalten. Insgesamt haben wir 4095 Akten wiedergefunden, was bedeutet, dass bis zu 409.500 Aktenblätter gescannt werden müssten.

Schätzung der notwendigen Arbeitsstunden zur Digitalisierung von 409.500 Aktenblätter mit klassischem Scanner, Smartphone und Buchscanner

Schätzung der Arbeitsstunden zur Digitalisierung von 409.500 Aktenblätter mit klassischem Scanner, Smartphone und Buchscanner

Nach meiner Schätzung sind also mit aktueller Technik für die Digitalisierung der Nachkriegskinder-Akten 4451 Arbeitsstunden nötig. Das errechnet sich aus 184 Aktenblätter, die pro Stunde mit zwei Personen gescannt werden können, bei einer Anzahl von 409.500 zu scannenden Aktenblätter.

Diese Zahlen sind nur grobe Schätzwerte und können sich durch Übung, bessere Workflows und bessere Technologien in kurzer Zeit wieder verändern. Nicht eingerechnet ist die Zeit für die Verschlagwortung und Anreicherung mit Metadaten, die vermutlich noch einmal das Doppelte der Zeit kosten wird.

Über Anregungen, Erfahrungen, Hinweise auf andere Artikel, best practices und Kommentare, aus denen wir mehr über Digitalisierung lernen können, würden wir uns freuen. Eine Einführung, die ich mir als nächstes genauer anschauen werde, ist die “Checkliste Digitalisierung”, die unter folgendem Link abgerufen werden kann:

http://dx.doi.org/10.12752/2.0.001.1

Ein weiterer Linktipp aus dem Archivamtblog: Marcus Stumpf, Digitalisierungsstrategien in Deutschland – Versuch einer Bestandsaufnahme, 8.5.2014: http://archivamt.hypotheses.org/668

Disclaimer: Es gibt keinen zu erklärenden Interessenkonflikt, da dieser Artikel aus privatem Interesse geschrieben wurde.

Quelle: http://zakunibonn.hypotheses.org/1119

Weiterlesen