Workshop “Korpusbildung” der DHd-AG Zeitungen & Zeitschriften – ein Rückblick

Von Matthias Arnold, Nanette Rißler-Pipka und Torsten Roeder

In unserer Workshopreihe zu Methoden der Forschung zu digitalisierten historischen Zeitungen und Zeitschriften haben wir im letzten November – nach mehreren Workshops zu OCR und zu Metadaten (Ankündigungen und Berichte dazu auf der AG-Seite) – die Veranstaltungsreihe mit einem Workshop zur Korpusbildung fortgesetzt.

Der Workshop begann mit einer Vorstellung des im Oktober 2021 gestarteten Deutschen Zeitungsportals der Deutschen Digitalen Bibliothek durch Lisa Landes (Videoaufzeichnung des Vortrags). Sie stellte das Frontend vor und demonstrierte an einer Reihe von Suchbeispielen die besonderen Funktionalitäten des Portals, deren vier Schwerpunkte die Volltextsuche, der integrierte Viewer, verschiedene browsende Zugänge sowie eine stabile Referenzierbarkeit darstellen.

Im Zeitungsportal werden historische Bestände und Sammlungen aus den letzten vier Jahrhunderten zusammengeführt und frei zur Verfügung gestellt. Dort sind 247 Zeitungen, 591.837 Zeitungsausgaben und zusammen 4.464.

[...]

Quelle: https://dhd-blog.org/?p=18534

Weiterlesen

Workshop “Metadaten Analysieren” der DHd-AG Zeitungen & Zeitschriften

von Nanette Rißler-Pipka, Harald Lordick und Torsten Roeder

Während viele Millionen Zeitungs- und Zeitschriftenseiten in Portalen wie Europeana oder der Deutschen Digitalen Bibliothek am Bildschirm lesbar sind, steht maschinenlesbarer Text nur in kleinen Mengen der Forschung zur Verfügung. Schade, denkt man: Damit kann man ja nur begrenzt etwas anfangen. Doch all diese Digitalisate sind katalogisiert und manchmal sogar zu einem Anteil bis auf die Inhaltsverzeichnisse jeder Ausgabe, also bis auf Artikelebene erfasst. Für Zeitungen und Zeitschriften sind diese zusätzlichen Informationen schon durch die Struktur des Mediums besonders reichhaltig und wichtig.

Diese Informationen nennen wir “Metadaten”.[1] Und es ist gut, dass es sie gibt: Sie verraten uns zum einen in systematischer Form das, was aus den Digitalisaten explizit hervorgeht, wie etwa  den Namen der Zeitung/Zeitschrift, den Druckort, das Erscheinungsdatum. Zum anderen enthalten sie beispielsweise auch die Regelmäßigkeit des Erscheinens, die Anzahl der gescannten und der gedruckten Exemplare, die Autorinnen und Autoren sowie weitere Akteure, die Anzahl der Seiten und der Artikel oder die Sprache, in der die Artikel verfasst wurden. All dies kann viel Recherche erfordern.

[...]

Quelle: https://dhd-blog.org/?p=14457

Weiterlesen

CfP: Digital Hermeneutics – From Research to Dissemination: 4th Annual GHI Conference on Digital Humanities and Digital History

Digital Hermeneutics: From Research to Dissemination

October 10-12, 2019
International Conference and Workshop at the GHI
Organized in collaboration with the Luxembourg Centre for Contemporary and Digital History (C²DH) and the Roy Rosenzweig Center for History and New Media (RRCHNM)
Conveners: Andreas Fickers (C²DH), Gerben Zaagsma (C²DH), Sean Takats (RRCHNM), Simone Lässig (GHI), Jens Pohlmann (GHI), Daniel Burckhardt (GHI)

Call for Papers

The radical impact of the digital turn on the practice of all stages of historical research (archiving, research, analysis, interpretation and narrative) requires critical reflection on the methodological and epistemological consequences of digital technologies for historical scholarship. The Fourth Annual GHI Conference on Digital Humanities and Digital History will revolve around the concept of “digital hermeneutics,” defined as the critical and self-reflexive use of digital tools and technologies for the development of new research questions, the testing of analytical assumptions, and the production of sophisticated scholarly interpretations. At the same time, we wish to extend this concept to the realm of dissemination and storytelling. The conference thus aims to critically discuss tools and practices of digital historiography, on the one hand, and to focus on how the digital engenders new forms of public engagement and online dissemination of research results, on the other.

Digital History as first described by Edward L. Ayers in 1999 deals with “historical issues relating to digital or digitized source collections, which should (must) be carried out using interdisciplinary means of digital analysis or visualization.” (Föhr, Historische Quellenkritik im Digitalen Zeitalter, p. 8).

[...]

Quelle: https://dhd-blog.org/?p=11318

Weiterlesen

Geschichtsunterricht – auf’s Spiel gesetzt? Das Repositorium HistoGames

Digitale Spiele: ein Fenster zur Geschichtskultur – hier eine Szene aus dem Steinzeit-Abenteue...

Quelle: https://gespielt.hypotheses.org/2059

Weiterlesen

Raketenstart 2016: Der Jahresbericht

Mit der Energie eines Raketentriebwerks drang der Arbeitskreis 2016 in viele Arbeitsfelder vor. Diese Anfänge lassen auf eine nachhaltige, aktive Zukunft hoffen. (Abb. Auszug Screenshot, Civilization 6 PC, Nolden)

Wenn man nicht mehr weiter weiß…

In aller Munde ist zurzeit, wie fürchterlich doch das Jahr 2016 gewesen sei. Wer die außenpolitischen Krisen beobachtet, schwelende Kriege und Konflikte oder die Schärfe religiös und politischer motivierter Gewalt, der kommt nicht umhin, aus den Erfahrungen von 2016 wenig erfreut nach 2017 zu blicken. Auch im akademischen Bereichgibt es große Probleme, insbesondere für den wissenschaftlichen Nachwuchs. Ist die Stellenlage grundsätzlich schon desolat, (be)fristen Wissenschaftlerinnen und Wissenschafler in den meisten Fällen ihr Dasein auf Stellen, die nur selten langfristige Perspektiven bieten. Diese Struktur ist nicht nur für die persönliche Lebensplanung bedauerlich.

[...]

Quelle: http://gespielt.hypotheses.org/1068

Weiterlesen

Der „echte Mann“ im Männermagazin „Wiener“ – oder doch nicht?

Vor der Universität Wien wurden heute allerhand Semesterstart Goodies ausgeteilt, so auch eine Ausgabe des Österreichischen Männermagazins „Wiener“. Die Headline erregte sofort meine Aufmerksamkeit: „Werte Männer, Männerwerte!“. Kritisch blätterte ich durch das Magazin und stieß auf einen besonderen Artikel von Manfred Rebhandl betitelt „Eiertanz“. Der Untertitel liest: „Männer sollen ihre weibliche Seite zulassen. Bullshit! Männer sollen Männer sein. Blöderweise weiß keiner mehr so genau, wie das richtig geht.“ Nach intensiver Auseinandersetzung im Feld der Masculinity Studies schreit solch ein Untertitel bereits laut „Vorsicht – … Der „echte Mann“ im Männermagazin „Wiener“ – oder doch nicht? weiterlesen



[...]

Quelle: https://maskulin.hypotheses.org/42

Weiterlesen

Der „echte Mann“ im Männermagazin „Wiener“ – oder doch nicht?

Vor der Universität Wien wurden heute allerhand Semesterstart Goodies ausgeteilt, so auch eine Ausgabe des Österreichischen Männermagazins „Wiener“. Die Headline erregte sofort meine Aufmerksamkeit: „Werte Männer, Männerwerte!“. Kritisch blätterte ich durch das Magazin und stieß auf einen besonderen Artikel von Manfred Rebhandl betitelt „Eiertanz“. Der Untertitel liest: „Männer sollen ihre weibliche Seite zulassen. Bullshit! Männer sollen Männer sein. Blöderweise weiß keiner mehr so genau, wie das richtig geht.“ Nach intensiver Auseinandersetzung im Feld der Masculinity Studies schreit solch ein Untertitel bereits laut „Vorsicht – … Der „echte Mann“ im Männermagazin „Wiener“ – oder doch nicht? weiterlesen



[...]

Quelle: https://maskulin.hypotheses.org/42

Weiterlesen

Der „echte Mann“ im Männermagazin „Wiener“ – oder doch nicht?

Vor der Universität Wien wurden heute allerhand Semesterstart Goodies ausgeteilt, so auch eine Ausgabe des Österreichischen Männermagazins „Wiener“. Die Headline erregte sofort meine Aufmerksamkeit: „Werte Männer, Männerwerte!“. Kritisch blätterte ich durch das Magazin und stieß auf einen besonderen Artikel von Manfred Rebhandl betitelt „Eiertanz“. Der Untertitel liest: „Männer sollen ihre weibliche Seite zulassen. Bullshit! Männer sollen Männer sein. Blöderweise weiß keiner mehr so genau, wie das richtig geht.“ Nach intensiver Auseinandersetzung im Feld der Masculinity Studies schreit solch ein Untertitel bereits laut „Vorsicht – … Der „echte Mann“ im Männermagazin „Wiener“ – oder doch nicht? weiterlesen



[...]

Quelle: https://maskulin.hypotheses.org/42

Weiterlesen

“Und was kann man jetzt mit Tesla machen?”

Eine der am häufigsten gestellten Fragen an uns ist ohne Zweifel die nach den Verwendungsmöglichkeiten für Tesla. Die Frage kam bereits in den Kommentaren dieses Blogs auf, sie wird uns auf den Konferenzen gestellt, auf denen wir Tesla vorstellen, sie war sowohl Teil meiner Disputation, als auch der meines Kollegen Stephan Schwiebert.

Die Antwort auf die Frage ist relativ einfach: Mit Tesla kann man eigentlich alles machen, was auf maschinellen Annotationen oder einer automatischen Analyse von Texten beruht. Wie das mit einfachen Antworten so ist, ergibt sich aus ihnen meist eine ganze Reihe weiterer Fragen. So auch hier:

  1. Was fällt denn alles unter den Begriff Texte?
  2. Was kann man sich konkret unter maschinellen Annotationen vorstellen?
  3. Und was unter automatischen Analysen?
  4. Was bedeutet man kann eigentlich alles machen?
  5. Gibt es denn Dinge, für die sich Tesla nicht eignet?
  6. Aber es gibt doch auch das System XYZ, kann das nicht genau das Gleiche?

Versuche ich mal, diese Fragen zu beantworten, ohne dass allzu viele Folgefragen aufgeworfen werden (weswegen ich auch versuche, möglichst ohne sprachwissenschaftliche und informatische Fachbegriffe auszukommen):

(1) Wir verwenden den Begriff Text relativ weit gefasst. Texte sind für uns einfach alle Daten, die sich in einer linearen, eindimensionalen Abfolge von Zeichen aus einem definierten Alphabet repräsentieren lassen. Das gilt zunächst einmal für alle Daten, die sich irgendwie in einem herkömmlichen Computer speichern und verarbeiten lassen, letztlich arbeitet dieser ja mit Sequenzen von Nullen und Einsen. Wir meinen hier aber vor allem diejenigen Daten, die sich durch ihre eindimensionale Struktur auszeichnen. Darunter fallen vor allem natürlichsprachliche Texte, aber auch Text-Repräsentationen von DNA, RNA, Proteinen und auch von Musikstücken. Die Entscheidung, möglichst viele unterschiedliche Daten in Tesla verarbeiten zu können, wurde bewusst getroffen.  Auf diese Weise können unterschiedliche Verfahren für spezifische Daten entwickelt werden, die dann gegebenenfalls auf andere Daten übertragen werden können. Tesla stellt außerdem keinerlei Anforderungen an das Format der Texte.

(2) Sprache ist zwar letztlich (spätestens beim Verlassen unseres Sprechorgans bzw. als Buchstabenfolge eines Textes) eindimensional organisiert: Mündliche Sprachmitteilungen bestehen etwa aus einer Folge von Lauten, schriftliche Texte aus einer Folge von Buchstaben. Über diesen mehr oder weniger grundlegenden Einheiten sprachlicher Kommunikation existieren jedoch weitere Organisationseinheiten wie Wörter oder Sätze, dabei gibt es unterschiedliche Wortklassen (z.B. Substantive, Verben) und Funktionen (z.B. Objekt, Prädikat). Alle diese Einheiten, Klassen und Funktionen sind implizit im Sprachsignal enthalten, um sie auswerten zu können, müssen die Sprachdaten explizit mit ihnen ausgezeichnet (annotiert) werden. Das kann man entweder manuell machen (was gewisse Vor-, aber auch Nachteile hat) oder bestimmte dafür programmierte Werkzeuge machen lassen. Dazu gehören z.B. Tokenizer, die Wortgrenzen bestimmen, Tagger, die Wörter Wortklassen zuordnen und Parser, welche die Funktion von Wörtern oder Wortgruppen erkennen. Tesla besitzt eine ganze Reihe solcher Werkzeuge, mit denen sich Daten maschinell annotieren lassen.

(3) Annotationen wie in (2) beschrieben,  sind meist eine Vorstufe zur Daten-Analyse, die man auch innerhalb von Tesla betreiben kann. Aus der unüberschaubaren Menge möglicher Analysen wähle ich hier ein Beispiel aus dem Bereich Informationsextraktion (IE). IE ist eine Art Oberbegriff für Verfahren, die aus unstrukturierten Daten (z.B. Texten) strukturierte Daten (z.B. Tabellen in einer Datenbank) ableiten. Ein Anwendungsfall für IE-Verfahren ist die sogenannte Sentiment Analysis (zu deutsch etwa “Stimmungserkennung”), wo Texte z.B. nach positiven und negativen Einstellungen hinsichtlich eines Untersuchungsgegenstandes (Mobiltelefon, Hotel, Fluggesellschaft oder was auch immer) klassifiziert werden. Soll eine solche Klassifikation automatisch erfolgen, so benötigt man einerseits annotierte Texte, um Wörter und Wortgruppen ausfindig zu machen, von denen die Wertung des Textes abhängt, so wie spezielle Adjektive, Gradpartikel, Negationen etc. Man spricht davon, dass bestimmte Merkmale in Texten ausfindig gemacht werden. Mit diesen Merkmalen wird dann ein Klassifikationsmechanismus gefüttert, welcher auf dieser Basis die Texte in Klassen einteilt (also z.B. in gute und schlechte Bewertungen). Die beschriebene Sentiment-Analyse ist nur ein mögliches Verfahren, das in Tesla realisiert werden kann. Inzwischen haben wir eine ganze Bandbreite verschiedener Verfahren in Tesla realisiert, ich etwa habe das Voynich Manuskript damit analysiert, meine Kollegen arbeiten zu den Themen Extraktion syntaktischer Strukturen und Bedeutungskonstitution in natürlichsprachlichen Daten. Innerhalb eines Projekts wurden außerdem Vorarbeiten zur beschriebenen Sentiment-Analyse und der Extraktion temporaler Ausdrücke sowie von Gen-Bezeichnungen durchgeführt.

(4) Tesla ist ein Framework, in dem Werkzeuge zur Annotation und Analyse von Texten sowohl programmiert wie auch genutzt werden können. Was genau zu einem bestimmten Zeitpunkt in Tesla umgesetzt werden kann, hängt von der Ausstattung des Systems zu diesem Zeitpunkt ab. Zur Zeit umfasst das Inventar etwas mehr als 60 verschiedene Komponenten, manche Funktionalität ist gleich durch mehrere Werkzeuge abgedeckt (so gibt es z.B. zwei Tokenizer – einen, der sehr einfach zu bedienen ist, einer der sehr umfassend konfiguriert werden kann). Eine Übersicht zu den vorhandenen Komponenten findet sich auf der Tesla-Entwicklerseite. Prinzipiell (also eigentlich) kann man mit Tesla also alles machen, was in den Bereich der automatischen Prozessierung von Texten fällt. De facto beschränkt aber die aktuelle Ausstattung die momentan mögliche Anwendung – wobei man jederzeit die fehlende Funktionalität selbst implementieren kann.

(5) Man kann in Tesla nicht alles mit Texten machen, man kann nur alles machen, was sich automatisieren lässt. Alles, was mit manueller Auszeichnung zu tun hat, muss damit außerhalb von Tesla erfolgen – das bedeutet z.B., dass man nicht einfach in einem Editor die automatisch erzeugten Ergebnisse korrigieren kann. Hinter dieser Einschränkung steht die Überlegung, dass wir ein System haben wollten, in dem Analysen durchgeführt werden können, die absolut nachvollziehbar sind. Solange man lediglich Software-Algorithmen (die deterministisch sind, also keinen nicht reproduzierbaren Zufalls-Effekt enthalten) arbeiten lässt, hat man die Möglichkeit – so denn die geeigneten Vorkehrungen getroffen wurden – die Analysen jederzeit zu wiederholen und weiterzugeben, auf dass sie woanders reproduziert werden können. Ließe man manuelle Eingriffe in diesem Prozess zu, verlöre man diese Möglichkeit. Ich habe schon mehrere Posts zu diesem Thema geschrieben, etwa diese Parabel, so dass ich es jetzt hier mal dabei belasse. Nebenbei – Tesla ist kein absolut fertiges System (wir haben es mehr oder weniger zu zweit gebaut), so ist etwa die Umsetzung von Maschinellen Lernverfahren, für die Trainingsphasen durchgeführt werden müssen, noch verbesserungsfähig.

(6) Ja, es gibt eine Reihe von Systemen, die ähnlich wie Tesla angelegt sind und auf manchen Gebieten tatsächlich mit unserem System konkurrieren. Dazu zählen Gate, Apache UIMA und TextGrid. Zu den Unterschieden komm ich aber mal ein andermal. Ungeduldigen sei diese Monographie empfohlen.

Ich hoffe, dass ich mit diesem Post ein wenig aufklären konnte, was Tesla tatsächlich ist. Was man damit so alles machen kann, konnte nur bruchstückhaft dargestellt werden (auf Visualisierungen, wie z.B. das Titelbild oben, bin ich noch gar nicht eingegangen). Dafür brauche ich wohl ein paar mehr Posts. Damit man sich aber schonmal ein  Bild machen kann, wie Tesla aussieht, habe ich unten noch einmal einen Screenshot der Tesla-Benutzeroberfläche angehangen.


Ansicht der Benutzeroberfläche von Tesla für Anwender. Groß im Bild der graphische Editor, in dem man seine Analysen zusammenstellt.

Quelle: http://texperimentales.hypotheses.org/125

Weiterlesen