Workshop “Metadaten Analysieren” der DHd-AG Zeitungen & Zeitschriften

von Nanette Rißler-Pipka, Harald Lordick und Torsten Roeder

Während viele Millionen Zeitungs- und Zeitschriftenseiten in Portalen wie Europeana oder der Deutschen Digitalen Bibliothek am Bildschirm lesbar sind, steht maschinenlesbarer Text nur in kleinen Mengen der Forschung zur Verfügung. Schade, denkt man: Damit kann man ja nur begrenzt etwas anfangen. Doch all diese Digitalisate sind katalogisiert und manchmal sogar zu einem Anteil bis auf die Inhaltsverzeichnisse jeder Ausgabe, also bis auf Artikelebene erfasst. Für Zeitungen und Zeitschriften sind diese zusätzlichen Informationen schon durch die Struktur des Mediums besonders reichhaltig und wichtig.

Diese Informationen nennen wir “Metadaten”.[1] Und es ist gut, dass es sie gibt: Sie verraten uns zum einen in systematischer Form das, was aus den Digitalisaten explizit hervorgeht, wie etwa  den Namen der Zeitung/Zeitschrift, den Druckort, das Erscheinungsdatum. Zum anderen enthalten sie beispielsweise auch die Regelmäßigkeit des Erscheinens, die Anzahl der gescannten und der gedruckten Exemplare, die Autorinnen und Autoren sowie weitere Akteure, die Anzahl der Seiten und der Artikel oder die Sprache, in der die Artikel verfasst wurden. All dies kann viel Recherche erfordern.

[...]

Quelle: https://dhd-blog.org/?p=14457

Weiterlesen

Internationaler Workshop Europeana DSI „Tools to make your collection widely visible“: 15.-16.02.2016 (Berlin)

via Frank von Hagel:

Am 15.  und 16. Februar 2016 findet im Ethnologischen Museum in Dahlem (Lansstraße 8) der internationale Workshop Europeana DSI:

„Tools to make your collection widely visible“

statt, zu dem wir Sie heute herzlich einladen wollen.

Die Veranstaltung wird vom Institut für Museumsforschung sowie von Michael Culture, NEMO und der SPK, im Rahmen des Europeana Digital Service Infrastructure (DSI) Projektes organisiert.

Verschiedene Werkzeuge, die im Rahmen mehrerer Projekte entwickelt wurden, um Objektdaten von Museen im Internet sichtbar und zugänglich zu machen werden vorgestellt.

[...]

Quelle: http://dhd-blog.org/?p=6328

Weiterlesen

Schon aus den Startlöchern?

Beim Europeana Newspapers Project Information Day an der Österreichischen Nationalbibliothek kam immer wieder das Bild von Marathonläuferinnen und -läufern, die unmittelbar nach dem Startschuss die 42,195 km in Angriff nehmen – als Sinnbild für den Stand der Digitalisierung von periodischen Druckschriften. In den Vorträgen, die Europeana Newspapers vorstellten und in den Gesprächen am Rande wurde für mich wieder einmal sehr deutlich, dass Welten aufeinanderprallen, wenn bereitstellende Institutionen und Benützerinnen und Benützer zusammenkommen.

Volltextsuche ist (theoretisch) wunderbar -  ‘unterwegs’ stolpert man immer wieder Spannendes, das man sonst nie gefunden hätte; und einige der “Splitter” auf mind the gap(s) fingen mit solchen Zufallsfunden an. Oliver Rathkolb (Universität Wien) beschrieb sehr treffend, wie ANNO etc. die Arbeit erleichtern kann – und dass die digitalisierten Zeitungen dem, der sie zu nutzen weiß, vielfältige Möglichkeiten wesentlich schneller eröffnen.

Rathkolb kam auf diesen Aspekt zu sprechen, wenn er meint:

Oliver Rathkolb: ‘I am more efficient navigating digital repositories than my students who grew up with Google – how come?’ #eurnewsVIE

— Clemens Neudecker (@cneudecker) 16. Oktober 2014

Es ist ein Quantensprung, jederzeit und überall online auf Tageszeitungen zugreifen zu können. Aus dem individuellen Forschungsinteresse ergeben sich Desiderate, die vielleicht/hoffentlich/denn doch endlich irgendwann auftauchen – für mich wären das etwa satirisch-humoristische Blätter wie:

  • Glühlichter / Neue Glühlichter (1889-1915)
  • Humoristische Blätter  (1873-1925) [ZDB-ID: 1130534-4]

Und natürlich wünsche ich mir den Floh in Farbe – denn Der Floh war die erste Wiener satirisch-humoristische Zeitschrift, die regelmäßig farbige Karikaturen brachte. In (BTW nicht sehr gutem) Schwarz/Weiß gehen viele Informationen unter – und manches ist überhaupt nicht zu erkennen.

In mehreren Beiträgen wurde auf die Vorzüge der Volltextsuche hingewiesen.

ANNO full text search: more than 100.000 hits in seconds! http://t.co/E5BWROE58Y #eurnewsVIE

— ONB R&D (@ONB_RD) 16. Oktober 2014

in anderen Beiträgen wurden  die Herausforderungen (und Grenzen) der OCR angesprochen.[1] Immer wieder wurde auf die ‘relativ hohe’ Genauigkeit hingewiesen.

Die Botschaft hör ich wohl, allein mir fehlt der Glaube. (Faust I, 765)

Mein Korpus zu China in satirisch-humoristischen Quellen entstand auf traditionelle Art: über Tage, Wochen, Monate, Jahre in Bibliotheken mit Papierexemplaren, Mikrofilmen und als Bild digitalisierten Zeitungen:

  • Für Figaro, Kikeriki wurden zunächst Mikrofilme verwendet (die Digitalisate standen noch nicht zur Verfügung).
  • Für den Floh wurden die S/W gescannten Seiten (ohne OCR) verwendet.[2]
  • Für die Humoristischen Blätter wurde das Papierexemplar der ÖNB eingesehen.
  • Für die (nur am Rande berücksichtigten) Glühlichter wurde das Papierexemplar der ÖNB benutzt – das lückenhaft und in einem erbärmlichen Zustand war (und vermutlich ist).

Für die Zeit zwischen 1894 und 1917 ergab das nach Durchsicht von Figaro, Kikeriki, Floh und Humoristischen Blättern mehr als 300 Abbildungen (Abbildungen, Bildwitze) und etwa 2500 Textstellen (Einzeiler, fingierte Reportagen, Briefe, Gedichte, Dialoge etc.).

Bei der Erfassung wurde größtmögliche Vollständigkeit angestrebt, die Zeitungen wurden zweimal durchgesehn und wirklich jedes Fitzelchen mit China-Bezug erfasst.

Als ANNO in 2014 die  Volltextsuche in historischen Zeitungen auch für die Jahre 1914-1918 freigab, durchsuchte ich ‘meine’ Zeitungen (also Figaro, Kikeriki und Floh). Das Ergebnis ist ernüchternd bis erschütternd: der Großteil meiner zuvor ermittelten Fragmente war so nicht auffindbar, ‘neue’ (also zuvor nicht erfasste) Stellen wurden nicht gefunden. Selbstverständlich wurden bei der Suche ‘kreative’ OCR-Varianten mitberücksichtigt:

  • “Cb” für “Ch” / “cb” für “ch”
  • “chm” statt “chin”, “chni” statt “chin”
  • “f”/”ſ”-Fehler in allen möglichen Varianten, u.a. bei ‘Chinese’[3]
  • Namensvarianten mit/ohne Bindestrich und in unterschiedlichsten Transkriptionen (z.B. für Cíxǐ 慈禧 Varianten wie ‘Tsu-si’ und ‘Tsu-hsi’, aber auch ‘Tfu-hfi’ etc.)

(M)ein Resümée (unter dem Eindruck des beim Info Day Gehörten): Je spezieller das Suchthema, desto nutzloser wird die Volltextsuche. Bei 100.000+ Treffern zu “Schule” lassen sich die (vermutlich in die Millionen gehenden) nicht gefundenen Treffer möglicherweise/vielleicht/eventuell  verschmerzen. Bei randständigeren Themen sieht das ganz anders aus.

Und

We need more digital (& physical) library labs! Examples: @BL_Labs @KBNLresearch #eurnewsVIE

— Clemens Neudecker (@cneudecker) 16. Oktober 2014

kann ich nur unterstreichen. Es braucht mehr Labs.

Es braucht aber vor allem Raum, um bereitstellende Institutionen und Benutzerinnen und Benutzer in Kontakt zu bringen.

  1. Die Diskussion ist nicht neu, vgl. etwa  Rose Holley: “How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs”. In: D-Lib Magazine Volume 15 Number 3/4 (March/April 2009).
  2. Zu einem späteren Zeitpunkt konnten auch für Figaro, Kikeriki und Floh die Papierexemplare der UB Wien eingesehen werden.
  3. “Afien ift fuper, aber “Schiffen” wird es wirklich intereffant …

Quelle: http://mindthegaps.hypotheses.org/1805

Weiterlesen

Europeana: Digitalisierte Erinnerungen an den Ersten Weltkrieg

download (29)

Das Projekt “Europeana 1914-1918″, welches sich zur Aufgabe macht, Materialien rund um den Ersten Weltkrieg zu sammeln und sie in einem digitalen Archiv öffentlich zugänglich zu machen, hat sein Angebot erweitert. Ab sofort kann man auf der Website des Projektes Materialien aus Bibliotheken, privaten Sammlungen und Filmarchiven erkunden.

Das Projekt geht auf eine Initiative der Universität Oxford von 2008 zurück, die darum bat, Erinnerungsstücke von Privatpersonen vom Ersten Weltkrieg wie Briefe, Postkarten oder Fotos digitalisieren zu dürfen. Mittlerweile enthält das Archiv ca. 26 Millionen Dokumente.

Wer etwas zu dem Archiv beitragen möchte, der kann seine Erinnerungsstücke auf der Website hochladen oder an den regelmäßig stattfindenden Aktionstagen mitbringen und digitalisieren lassen. Einer dieser Aktionstage findet heute in der Staatsbibliothek zu Berlin im Rahmen der Konferenz “Unlocking Sources” statt.

Quelle: http://dhd-blog.org/?p=2967

Weiterlesen

Archivwesen: Manfred Thaller (Hrsg.): Das Digitale Archiv NRW in der Praxis. Eine Softwarelösung zur digitalen Langzeitarchivierung, Hamburg 2013

http://www.verlagdrkovac.de/3-8300-7278-3.htm Das „Digitale Archiv NRW“ wurde als Projekt zur landesweiten digitalen Langzeitarchivierung durch das Land Nordrhein-Westfalen initiiert. Ziel dieser Initiative ist es, digitales kulturelles Erbe langfristig zu sichern und zugänglich zu machen. Hierfür wurde an der Professur für Historisch-Kulturwissenschaftliche Informationsverarbeitung in Köln prototypisch eine funktional vollständige Softwarelösung erarbeitet, die in diesem Band sowohl konzeptuell als […]

Quelle: http://www.einsichten-online.de/2013/09/4701/

Weiterlesen

Tagung: Digitale Rekonstruktionen mittelalterlicher Bibliotheken

Bei der Tagung „Digitale Rekonstruktionen mittelalterlicher Bibliotheken“ werden verschiedene Projekte vorgestellt, deren Ziel es ist, Bestände mittelalterlicher Bibliotheken, die heute weltweit zerstreut sein können, digital zusammenzuführen und zu erschließen. Auch werden Möglichkeiten aufgezeigt, diese Bestände wissenschaftlich zu nutzen und die vorhandenen Daten und Metadaten in übergreifende Portale einzuspeisen. Schließlich sollen die Anforderungen diskutiert werden, die aktuelle Arbeiten aus der Sprach- und Literaturwissenschaft, der Kunstgeschichte und der Musikwissenschaft an solche digitalen Rekonstruktionen stellen. Veranstalter: Universität Trier, Historisch-Kulturwissenschaftliches Forschungszentrum Trier, Technische Universität Darmstadt, Stadtbibliothek/Stadtarchiv Trier Datum: [...]

Quelle: http://ordensgeschichte.hypotheses.org/1799

Weiterlesen

FES: Heritage of the People´s Europe – HOPE

Die Bibliothek und das Archiv der sozialen Demokratie der Friedrich-Ebert-Stiftung präsentieren ihre digitalisierten Bestände in einem EU-Projekt: Heritage of the People´s Europe – HOPE. Das HOPE-Projekt (2010-1013) vernetzt 13 europäische Institutionen zur Geschichte der Arbeiterbewegung und Sozialgeschichte mit sehr bedeutenden aber zum Teil auch weit verstreuten Sammlungen mit über 3 Millionen digitalen Elementen. HOPE wird [...]

Quelle: http://www.einsichten-online.de/2011/11/2052/

Weiterlesen

Deutsches Kulturerbe auf dem Weg in die Europeana

Die im Netz weit verstreuten digitalen Kulturschätze mit einer ordnenden Struktur zu verankern, ist eine Vision der Europeana. Eine Konferenz am 4. und 5. Oktober in der Staatsbibliothek zu Berlin bringt Museen, Archive und Bibliotheken mit Aggregations- und Infrastrukturprojekten zusammen. weitere Informationen http://www.armubi.de/tagung2010/

Quelle: http://digiversity.net/2010/deutsches-kulturerbe-auf-dem-weg-in-die-europeana/

Weiterlesen