Workshop “Korpusbildung” der DHd-AG Zeitungen & Zeitschriften – ein Rückblick

Von Matthias Arnold, Nanette Rißler-Pipka und Torsten Roeder

In unserer Workshopreihe zu Methoden der Forschung zu digitalisierten historischen Zeitungen und Zeitschriften haben wir im letzten November – nach mehreren Workshops zu OCR und zu Metadaten (Ankündigungen und Berichte dazu auf der AG-Seite) – die Veranstaltungsreihe mit einem Workshop zur Korpusbildung fortgesetzt.

Der Workshop begann mit einer Vorstellung des im Oktober 2021 gestarteten Deutschen Zeitungsportals der Deutschen Digitalen Bibliothek durch Lisa Landes (Videoaufzeichnung des Vortrags). Sie stellte das Frontend vor und demonstrierte an einer Reihe von Suchbeispielen die besonderen Funktionalitäten des Portals, deren vier Schwerpunkte die Volltextsuche, der integrierte Viewer, verschiedene browsende Zugänge sowie eine stabile Referenzierbarkeit darstellen.

Im Zeitungsportal werden historische Bestände und Sammlungen aus den letzten vier Jahrhunderten zusammengeführt und frei zur Verfügung gestellt. Dort sind 247 Zeitungen, 591.837 Zeitungsausgaben und zusammen 4.464.

[...]

Quelle: https://dhd-blog.org/?p=18534

Weiterlesen

Korpusbildung-Workshop der AG Zeitungen und Zeitschriften

Die DHd-AG Zeitungen & Zeitschriften (https://dhd-ag-zz.github.io/) bietet am 11. und 12. November 2021 jeweils von 9:00-13:00 Uhr einen virtuellen Workshop an, um anhand digitaler Zeitungs- und Zeitschriftenbestände zu zeigen, wie die für viele Forschende notwendige, individuelle Korpusbildung in Zeitungsportalen selbst sowie mittels NLP-Methoden unterstützt werden kann. 

Geisteswissenschaftliche Forschung basiert häufig auf themenspezifischen Forschungsfragen, weshalb die Korpusbildung einen wesentlichen Aspekt in der Arbeit mit digitalen Quellen einnimmt. Solche Korpora müssen jedoch nicht selten in zeitaufwändigen und komplexen Prozessen erstellt werden, weil Suchstrategien nicht ausreichen oder weil fehlende Layout- Segmentierung den Zugriff erschwert. Insbesondere bei retro-digitalisierten Zeitungen hängt die Korpusbildung stark von der Qualität der Digitalisate (OCR und Artikelsegmentierung) ab. 



[...]

Quelle: https://dhd-blog.org/?p=16557

Weiterlesen

Workshop “Metadaten Analysieren” der DHd-AG Zeitungen & Zeitschriften

von Nanette Rißler-Pipka, Harald Lordick und Torsten Roeder

Während viele Millionen Zeitungs- und Zeitschriftenseiten in Portalen wie Europeana oder der Deutschen Digitalen Bibliothek am Bildschirm lesbar sind, steht maschinenlesbarer Text nur in kleinen Mengen der Forschung zur Verfügung. Schade, denkt man: Damit kann man ja nur begrenzt etwas anfangen. Doch all diese Digitalisate sind katalogisiert und manchmal sogar zu einem Anteil bis auf die Inhaltsverzeichnisse jeder Ausgabe, also bis auf Artikelebene erfasst. Für Zeitungen und Zeitschriften sind diese zusätzlichen Informationen schon durch die Struktur des Mediums besonders reichhaltig und wichtig.

Diese Informationen nennen wir “Metadaten”.[1] Und es ist gut, dass es sie gibt: Sie verraten uns zum einen in systematischer Form das, was aus den Digitalisaten explizit hervorgeht, wie etwa  den Namen der Zeitung/Zeitschrift, den Druckort, das Erscheinungsdatum. Zum anderen enthalten sie beispielsweise auch die Regelmäßigkeit des Erscheinens, die Anzahl der gescannten und der gedruckten Exemplare, die Autorinnen und Autoren sowie weitere Akteure, die Anzahl der Seiten und der Artikel oder die Sprache, in der die Artikel verfasst wurden. All dies kann viel Recherche erfordern.

[...]

Quelle: https://dhd-blog.org/?p=14457

Weiterlesen