Besuch im Digitalisierungszentrum der Österreichischen Nationalbibliothek

OENB_EingangAm 16. April 2015 besuchten wir im Rahmen des Methodenkurs das Digitalisierungszentrum der Österreichischen Nationalbibliothek. Fotos durften wir dort leider nicht machen, nur später im Prunksaal, in dem wir im Anschluss die Ausstellung „Wien 1365. Eine Universität entsteht“ besuchten. Durch die Abteilung Digitale Services (ADS) führte uns sehr sachkundig und anregend die Leiterin der Abteilung, Christa Müller. Die Abteilung ist in einem großen Raum mit Tageslicht untergebracht. Vier Scanstationen unterschiedlicher Größe stehen dort. Hier werden neben den Repro-Aufträgen durch die Leserschaft vor allem wertvolle Bücher, Karten, Papyri, alte Drucke sowie die Unterlagen aus dem Literaturarchiv digitalisiert.

Die ADS wurde 2007 mit der Microfilmstelle zusammengeführt und konnte zwei bibliothekarische Hauptaufgaben verbinden: Schutz des Bestandes durch das Erstellen von Schutzdigitalisaten einerseits sowie das Zugänglichmachen des Bestandes durch die Online-Bereitstellung andererseits.

[...]

Quelle: http://dguw.hypotheses.org/189

Weiterlesen

Schon aus den Startlöchern?

Beim Europeana Newspapers Project Information Day an der Österreichischen Nationalbibliothek kam immer wieder das Bild von Marathonläuferinnen und -läufern, die unmittelbar nach dem Startschuss die 42,195 km in Angriff nehmen – als Sinnbild für den Stand der Digitalisierung von periodischen Druckschriften. In den Vorträgen, die Europeana Newspapers vorstellten und in den Gesprächen am Rande wurde für mich wieder einmal sehr deutlich, dass Welten aufeinanderprallen, wenn bereitstellende Institutionen und Benützerinnen und Benützer zusammenkommen.

Volltextsuche ist (theoretisch) wunderbar -  ‘unterwegs’ stolpert man immer wieder Spannendes, das man sonst nie gefunden hätte; und einige der “Splitter” auf mind the gap(s) fingen mit solchen Zufallsfunden an. Oliver Rathkolb (Universität Wien) beschrieb sehr treffend, wie ANNO etc. die Arbeit erleichtern kann – und dass die digitalisierten Zeitungen dem, der sie zu nutzen weiß, vielfältige Möglichkeiten wesentlich schneller eröffnen.

Rathkolb kam auf diesen Aspekt zu sprechen, wenn er meint:

Oliver Rathkolb: ‘I am more efficient navigating digital repositories than my students who grew up with Google – how come?’ #eurnewsVIE

— Clemens Neudecker (@cneudecker) 16. Oktober 2014

Es ist ein Quantensprung, jederzeit und überall online auf Tageszeitungen zugreifen zu können. Aus dem individuellen Forschungsinteresse ergeben sich Desiderate, die vielleicht/hoffentlich/denn doch endlich irgendwann auftauchen – für mich wären das etwa satirisch-humoristische Blätter wie:

  • Glühlichter / Neue Glühlichter (1889-1915)
  • Humoristische Blätter  (1873-1925) [ZDB-ID: 1130534-4]

Und natürlich wünsche ich mir den Floh in Farbe – denn Der Floh war die erste Wiener satirisch-humoristische Zeitschrift, die regelmäßig farbige Karikaturen brachte. In (BTW nicht sehr gutem) Schwarz/Weiß gehen viele Informationen unter – und manches ist überhaupt nicht zu erkennen.

In mehreren Beiträgen wurde auf die Vorzüge der Volltextsuche hingewiesen.

ANNO full text search: more than 100.000 hits in seconds! http://t.co/E5BWROE58Y #eurnewsVIE

— ONB R&D (@ONB_RD) 16. Oktober 2014

in anderen Beiträgen wurden  die Herausforderungen (und Grenzen) der OCR angesprochen.[1] Immer wieder wurde auf die ‘relativ hohe’ Genauigkeit hingewiesen.

Die Botschaft hör ich wohl, allein mir fehlt der Glaube. (Faust I, 765)

Mein Korpus zu China in satirisch-humoristischen Quellen entstand auf traditionelle Art: über Tage, Wochen, Monate, Jahre in Bibliotheken mit Papierexemplaren, Mikrofilmen und als Bild digitalisierten Zeitungen:

  • Für Figaro, Kikeriki wurden zunächst Mikrofilme verwendet (die Digitalisate standen noch nicht zur Verfügung).
  • Für den Floh wurden die S/W gescannten Seiten (ohne OCR) verwendet.[2]
  • Für die Humoristischen Blätter wurde das Papierexemplar der ÖNB eingesehen.
  • Für die (nur am Rande berücksichtigten) Glühlichter wurde das Papierexemplar der ÖNB benutzt – das lückenhaft und in einem erbärmlichen Zustand war (und vermutlich ist).

Für die Zeit zwischen 1894 und 1917 ergab das nach Durchsicht von Figaro, Kikeriki, Floh und Humoristischen Blättern mehr als 300 Abbildungen (Abbildungen, Bildwitze) und etwa 2500 Textstellen (Einzeiler, fingierte Reportagen, Briefe, Gedichte, Dialoge etc.).

Bei der Erfassung wurde größtmögliche Vollständigkeit angestrebt, die Zeitungen wurden zweimal durchgesehn und wirklich jedes Fitzelchen mit China-Bezug erfasst.

Als ANNO in 2014 die  Volltextsuche in historischen Zeitungen auch für die Jahre 1914-1918 freigab, durchsuchte ich ‘meine’ Zeitungen (also Figaro, Kikeriki und Floh). Das Ergebnis ist ernüchternd bis erschütternd: der Großteil meiner zuvor ermittelten Fragmente war so nicht auffindbar, ‘neue’ (also zuvor nicht erfasste) Stellen wurden nicht gefunden. Selbstverständlich wurden bei der Suche ‘kreative’ OCR-Varianten mitberücksichtigt:

  • “Cb” für “Ch” / “cb” für “ch”
  • “chm” statt “chin”, “chni” statt “chin”
  • “f”/”ſ”-Fehler in allen möglichen Varianten, u.a. bei ‘Chinese’[3]
  • Namensvarianten mit/ohne Bindestrich und in unterschiedlichsten Transkriptionen (z.B. für Cíxǐ 慈禧 Varianten wie ‘Tsu-si’ und ‘Tsu-hsi’, aber auch ‘Tfu-hfi’ etc.)

(M)ein Resümée (unter dem Eindruck des beim Info Day Gehörten): Je spezieller das Suchthema, desto nutzloser wird die Volltextsuche. Bei 100.000+ Treffern zu “Schule” lassen sich die (vermutlich in die Millionen gehenden) nicht gefundenen Treffer möglicherweise/vielleicht/eventuell  verschmerzen. Bei randständigeren Themen sieht das ganz anders aus.

Und

We need more digital (& physical) library labs! Examples: @BL_Labs @KBNLresearch #eurnewsVIE

— Clemens Neudecker (@cneudecker) 16. Oktober 2014

kann ich nur unterstreichen. Es braucht mehr Labs.

Es braucht aber vor allem Raum, um bereitstellende Institutionen und Benutzerinnen und Benutzer in Kontakt zu bringen.

  1. Die Diskussion ist nicht neu, vgl. etwa  Rose Holley: “How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs”. In: D-Lib Magazine Volume 15 Number 3/4 (March/April 2009).
  2. Zu einem späteren Zeitpunkt konnten auch für Figaro, Kikeriki und Floh die Papierexemplare der UB Wien eingesehen werden.
  3. “Afien ift fuper, aber “Schiffen” wird es wirklich intereffant …

Quelle: http://mindthegaps.hypotheses.org/1805

Weiterlesen