Einführung in Topic Modeling mit Python

Melanie Althage, Martin Dröge, Professur für Digital History, Humboldt-Universität zu Berlin

Termin: Dienstag, 15.11.2022, 10:00-16:00 Uhr

Beschreibung:

Umfangreiche Textkopora inhaltlich strukturieren und auswerten ohne die Dokumente im Einzelnen gelesen zu haben – geht das? Das geht! Topic Modeling ist eine in den digitalen Geisteswissenschaften etablierte Methode, wenn es etwa darum geht, größere Textsammlungen inhaltlich-thematisch zu klassifizieren oder die Entwicklung von Publikationstrends und Diskursen nachzuvollziehen. Der Workshop bietet eine einsteigerfreundliche Einführung in ihre methodischen Grundlagen sowie die Implementierung mittels der Programmiersprache Python. Anhand eines konkreten Anwendungsfalls wird der Topic-Modeling-Workflow von der Vorbereitung der Textdaten bis zur Visualisierung und ersten Auswertung der Modellierungsergebnisse Schritt für Schritt durchgegangen.

[...]

Quelle: https://digigw.hypotheses.org/4090

Weiterlesen

[Praxislabor] Python Basics und erste Anwendungsbeispiele im Bereich Web Scraping und Text Mining

Martin Dröge

Es ist zwar nicht eingetreten, was der französische Historiker Emmanuel Le Roy Ladurie 1968 in der Wochenschrift ‘Le Nouvel Observateur’ schrieb: „Der Historiker von morgen wird Programmierer sein oder es wird ihn nicht mehr geben“.((König, Mareike (2015): „Digitale Geschichtswissenschaft – Einleitung #dguw15“. http://dguw.hypotheses.org/84.)) Dennoch erleichtern Kenntnisse im Programmieren auf vielfältige Weise die Arbeit von Historiker*innen, nicht zuletzt angesichts einer immer weiter ansteigenden digitalen Datenflut. Große Korpora von Texten, Bildern und anderen Digitalisaten lassen sich mithilfe kurzer Skripte erfassen, aufbereiten und weiterverarbeiten, sei es im Rahmen der Heuristik, Quellenkritik, Interpretation oder Darstellung.

Das Ziel des Workshops ist es, noch nicht digital arbeitende Historiker*innen ganz praktisch an neue, digitale Methoden heranzuführen und deren Potentiale für weitere Forschungsansätze zu zeigen.

[...]

Quelle: https://digigw.hypotheses.org/3781

Weiterlesen

[Praxislabor] Digitale Quellenkritik: Ein neues Kapitel

Jonathan D. Geiger, Aline Deicke, Marina Lemaire, Stefan Schmunk

Insbesondere in den historisch forschenden Fachdisziplinen spielen Quellen eine zentrale Rolle. Quellen können allerdings subjektiv, fehlerhaft, verfälscht oder auch nur in Teilen erhalten sein. Die wesentliche Funktion der Methode der Quellenkritik besteht darin, Quellen auf eine konkrete historische Fragestellung hin zu analysieren, ihre Aussagekraft zu beurteilen und für die Forschung nutzbar zu machen. Mit der Digitalisierung eröffnen sich für die historisch forschenden Wissenschaften neue Möglichkeiten und Herausforderungen. Da es keine eindeutige Abbildung “analoger” zu “digitalen” Quellen gibt, das Digitale eine andere ontologische Struktur aufweist, sowie die Analysemöglichkeiten geisteswissenschaftlicher Forschungsdaten im Digitalen stark erweitert und formalisierbarer sind, müssen letztendlich auch die Geschichtswissenschaften und mit ihnen die Methode der Quellenkritik überarbeitet bzw. weiterentwickelt werden, wobei die digitale Transformation und Repräsentation von Quellen mit den damit einhergehenden Grenzen und Möglichkeiten adäquat berücksichtigt werden müssen. In jüngster Zeit wurden schon einige gewinnbringende Ansätze zu einer digitalen Quellenkritik geliefert, doch die Thematik ist noch längst nicht erschöpfend thematisiert worden und es bedarf neben weiteren theoretischen und praktischen Betrachtungsweisen auch einer zu verstetigenden (inter-)disziplinären Diskussion, nicht nur um die verstreuten Ansätze zu bündeln, sondern auch, um auf die sich stetig wandelnden Technologien reagieren zu können. 



[...]

Quelle: https://digigw.hypotheses.org/3769

Weiterlesen

[Praxislabor] Gelehrte Journale und Zeitungen als Netzwerke des Wissens im Zeitalter der Aufklärung

Dr. Maja Eilhammer, Veronika Hausler, Sylvia Memmleb (BSB München), Reinhard Spiekermann, Jenny Standke, (Akademie der Wissenschaften zu Göttingen)

Deutungskämpfe in den Gelehrten Journalen

GJZ 18 stellt ein effektives Navigationsinstrument für die Rezensionszeitschriften der gesamten Aufklärungsepoche dar. Das Projekt arbeitet seit dem Jahr 2011 unter der Trägerschaft der Akademie der Wissenschaften zu Göttingen in enger Kooperation mit der SUB Leipzig und der BSB München. Insgesamt 65 deutschsprachige Periodika des 18. Jahrhunderts werden erschlossen und in einer Datenbank der Forschung zur Europäischen Aufklärung zur Verfügung gestellt. Bis 2025 wird das gesamte Zeitschriftenkorpus (mit zwei Vorgängerprojekten) insgesamt 323 Zeitschriften umfassen, bestehend aus ca. 2.775 Bänden.

[...]

Quelle: https://digigw.hypotheses.org/3673

Weiterlesen

[Praxislabor] Geovistory – eine virtuelle Forschungsplattform für Geisteswissenschaften

Francesco Beretta: francesco.beretta@cnrs.fr und David Knecht: knecht@kleiolab.ch

Geovistory ist eine von Projekten in der Schweiz, Frankreich und Holland genutzte Webplattform für geistes- und  – spezifisch – geschichtswissenschaftliche Forschungsprojekte. Geovistory soll Forscher/innen als einfach zugängliches, digitales Werkzeug unterstützen und deren Forschung auf attraktive Weise Geschichtsinteressierten zugänglich machen. Dafür bildet Geovistory den gesamten Forschungsprozess digital ab: Von der Erfassung der Quellen, über die Annotation von Texten, die Verwaltung von projektspezifische Vokabularen, den Aufbau eines Informationsnetzes und die (räumliche) Analyse der Forschungsdaten bis hin zur Publikation der Ergebnisse. Um offene und wiederverwertbare Daten nach den FAIR-Kriterien zu produzieren, ist das CIDOC-CRM-basierte Datenmodell mit dem kollaborativen Ontology Management Environment OntoME verknüpft, das vom Laboratoire de recherche historique Rhône-Alpes (Lyon) betrieben wird.

Im Workshop geben wir Interessierten die Möglichkeit, hands-on einen Einblick in die Forschung mit Geovistory zu erhalten.

[...]

Quelle: https://digigw.hypotheses.org/3679

Weiterlesen

[Praxislabor] Arbeiten mit (vielen) retrodigitialisierten Quellen: Texterkennung und Metadatenextraktion in PDF-Dateien mit freier Software

Moritz Mähr (wiss. Mitarbeiter an der Professur für Technikgeschichte, Zürich)

Lernen Sie in PDF-Dateien Texterkennung (OCR) und Textextraktion mit kostenlosen Befehlszeilenwerkzeugen wie Tesseract und Poppler durchzuführen und sich schnell einen Überblick über eine grosse Anzahl von PDF-Dokumenten zu verschaffen.

Zielpublikum

Wenn Sie eines oder mehrere der folgenden Kriterien erfüllen, wird diese Lektion für Sie lehrreich sein:

  • Sie arbeiten mit textbasierten Quellen und müssen den Inhalt der Quellen extrahieren.
  • Ihre Dateien liegen im PDF-Format vor oder können in dieses Dateiformat konvertiert werden.


  • [...]

Quelle: https://digigw.hypotheses.org/3683

Weiterlesen

[Praxislabor] Historische Karten mit Qgis erstellen und publizieren. Digitaler Workshop

Katrin Moeller

Webservices und Geodatenportale bieten mittlerweile gute Grundlagen zur Nachnutzung von meist modernen räumlichen Daten. Sie basieren auf freien Lizenzen und ermöglichen damit einen effektiven Zugriff und die schnelle digital-grafische Umsetzung darauf basierender räumlicher Informationen. Daher nimmt auch innerhalb der Digital Humanities-Community das Interesse an der Verarbeitung von räumlichen Informationen und Analysen erheblich zu. Mittlerweile gibt es mehrere große Projekte, die sich mit der Georeferenzierung historischer Karten und der Erzeugung und Verarbeitung von Normdaten für historische Raumbeziehungen beschäftigen. Allerdings bieten längst nicht alle Projekte auch offene, nachnutzbare Daten mit freien Lizenzen an, sondern bilden letztlich neue geschlossene Systeme oder kostenpflichtige Services. Mit QGis steht allerdings seit 2002 eine Freeware zur Verfügung, die zwar auf den ersten Blick etwas komplex wirkt, tatsächlich aber schnelle Möglichkeiten bietet, um räumliche Informationen selbst zu präsentieren und zu verarbeiten.

Im Workshop soll ein Einblick in die Software erfolgen und anhand eines Beispiels die Georeferenzierung historischer Karten sowie die Erstellung von Karten, die Anbindung von Daten sowie die Analyse nachvollziehbar demonstriert und mit den Teilnehmer*innen ausprobiert werden. Anhand kleinerer Projekte werden eigene Kartenschichten erzeugt (Layer) und Forschungsdaten aus historischen Projekten visualisiert.

[...]

Quelle: https://digigw.hypotheses.org/3692

Weiterlesen

[Praxislabor] Daten kollaborativ handhaben: FactGrid, eine Wikibase Plattform für Historiker*innen

Olaf Simons

Kaum eine Software zieht in den Digital Humanities derzeit ein so großes Interesse auf sich wie Wikibase, die Datenbank-Erweiterung für Mediawikis, die Wikimedia Deutschland federführend für das Wikidata-Projekt entwickelte.
Das hat zum einen mit dem Wikidata Projekt selbst zu tun, das sich in den letzten Jahren zum Brückenkopf zwischen den verschiedensten Datenbankprojekten entwickelte. Das hat im selben Moment damit zu tun, dass die größeren Bibliothekskonsortien diese Software soeben im Interesse an einem in Zukunft globalen Normdatenaustausch evaluieren.
Vor allem die konzeptionelle Offenheit und Transparenz der Software besticht: Konsequent Trippel-basiert meidet Wikibase die Einengungen herkömmlicher relationaler Datenbanken. Beliebige Datenbankobjekte lassen sich in beliebige Beziehungen zueinander setzen, ohne dass Nutzer vorab wissen müssen, welcherart Statements sie mit der Zeit generieren werden. Standard-Visualisierungen sind mit dem SPARQL-Endpoint im Angebot der freien open source Software. Datenein- und -Ausgabe sind unkompliziert gestaltet. Vor allem aber frappiert die mehrsprachige Nutzbarkeit: Daten lassen sich in beliebigen Sprachen ein- und in andern auslesen – die ideale Voraussetzung für international vernetzte Projekte.



[...]

Quelle: https://digigw.hypotheses.org/3721

Weiterlesen

[Praxislabor] Datendokumentation für eine digitale Edition

Welche Informationen über die Daten brauchen Datennachnutzer:innen?

Marina Lemaire

Es braucht mehr als nur die Forschungsdaten selbst, um sie nachnutzen zu können. Doch WAS ist das MEHR? Und WIE kann man diese Informationen erzeugen und später zur Verfügung stellen? Dies adressiert viel weniger technische Aspekte als die meisten meinen, sondern betreffen vorwiegend inhaltliche Fragen zur wissenschaftlichen Praxis und Methode. D.h. es ist eine breite Diskussion in den geisteswissenschaftlichen Disziplinen dazu notwendig, um die Forschungsprozesse an die digitalen Anforderungen zu adaptieren, um die Forschungsdaten FAIR zu machen.

[...]

Quelle: https://digigw.hypotheses.org/3698

Weiterlesen