Korpusbildung-Workshop der AG Zeitungen und Zeitschriften

Die DHd-AG Zeitungen & Zeitschriften (https://dhd-ag-zz.github.io/) bietet am 11. und 12. November 2021 jeweils von 9:00-13:00 Uhr einen virtuellen Workshop an, um anhand digitaler Zeitungs- und Zeitschriftenbestände zu zeigen, wie die für viele Forschende notwendige, individuelle Korpusbildung in Zeitungsportalen selbst sowie mittels NLP-Methoden unterstützt werden kann. 

Geisteswissenschaftliche Forschung basiert häufig auf themenspezifischen Forschungsfragen, weshalb die Korpusbildung einen wesentlichen Aspekt in der Arbeit mit digitalen Quellen einnimmt. Solche Korpora müssen jedoch nicht selten in zeitaufwändigen und komplexen Prozessen erstellt werden, weil Suchstrategien nicht ausreichen oder weil fehlende Layout- Segmentierung den Zugriff erschwert. Insbesondere bei retro-digitalisierten Zeitungen hängt die Korpusbildung stark von der Qualität der Digitalisate (OCR und Artikelsegmentierung) ab. 



[...]

Quelle: https://dhd-blog.org/?p=16557

Weiterlesen

Workshop “Metadaten Analysieren” der DHd-AG Zeitungen & Zeitschriften

von Nanette Rißler-Pipka, Harald Lordick und Torsten Roeder

Während viele Millionen Zeitungs- und Zeitschriftenseiten in Portalen wie Europeana oder der Deutschen Digitalen Bibliothek am Bildschirm lesbar sind, steht maschinenlesbarer Text nur in kleinen Mengen der Forschung zur Verfügung. Schade, denkt man: Damit kann man ja nur begrenzt etwas anfangen. Doch all diese Digitalisate sind katalogisiert und manchmal sogar zu einem Anteil bis auf die Inhaltsverzeichnisse jeder Ausgabe, also bis auf Artikelebene erfasst. Für Zeitungen und Zeitschriften sind diese zusätzlichen Informationen schon durch die Struktur des Mediums besonders reichhaltig und wichtig.

Diese Informationen nennen wir “Metadaten”.[1] Und es ist gut, dass es sie gibt: Sie verraten uns zum einen in systematischer Form das, was aus den Digitalisaten explizit hervorgeht, wie etwa  den Namen der Zeitung/Zeitschrift, den Druckort, das Erscheinungsdatum. Zum anderen enthalten sie beispielsweise auch die Regelmäßigkeit des Erscheinens, die Anzahl der gescannten und der gedruckten Exemplare, die Autorinnen und Autoren sowie weitere Akteure, die Anzahl der Seiten und der Artikel oder die Sprache, in der die Artikel verfasst wurden. All dies kann viel Recherche erfordern.

[...]

Quelle: https://dhd-blog.org/?p=14457

Weiterlesen