[Praxislabor] Python Basics und erste Anwendungsbeispiele im Bereich Web Scraping und Text Mining

Martin Dröge

Es ist zwar nicht eingetreten, was der französische Historiker Emmanuel Le Roy Ladurie 1968 in der Wochenschrift ‘Le Nouvel Observateur’ schrieb: „Der Historiker von morgen wird Programmierer sein oder es wird ihn nicht mehr geben“.((König, Mareike (2015): „Digitale Geschichtswissenschaft – Einleitung #dguw15“. http://dguw.hypotheses.org/84.)) Dennoch erleichtern Kenntnisse im Programmieren auf vielfältige Weise die Arbeit von Historiker*innen, nicht zuletzt angesichts einer immer weiter ansteigenden digitalen Datenflut. Große Korpora von Texten, Bildern und anderen Digitalisaten lassen sich mithilfe kurzer Skripte erfassen, aufbereiten und weiterverarbeiten, sei es im Rahmen der Heuristik, Quellenkritik, Interpretation oder Darstellung.

Das Ziel des Workshops ist es, noch nicht digital arbeitende Historiker*innen ganz praktisch an neue, digitale Methoden heranzuführen und deren Potentiale für weitere Forschungsansätze zu zeigen.

[...]

Quelle: https://digigw.hypotheses.org/3781

Weiterlesen

Workshop “Metadaten Analysieren” der DHd-AG Zeitungen & Zeitschriften

von Nanette Rißler-Pipka, Harald Lordick und Torsten Roeder

Während viele Millionen Zeitungs- und Zeitschriftenseiten in Portalen wie Europeana oder der Deutschen Digitalen Bibliothek am Bildschirm lesbar sind, steht maschinenlesbarer Text nur in kleinen Mengen der Forschung zur Verfügung. Schade, denkt man: Damit kann man ja nur begrenzt etwas anfangen. Doch all diese Digitalisate sind katalogisiert und manchmal sogar zu einem Anteil bis auf die Inhaltsverzeichnisse jeder Ausgabe, also bis auf Artikelebene erfasst. Für Zeitungen und Zeitschriften sind diese zusätzlichen Informationen schon durch die Struktur des Mediums besonders reichhaltig und wichtig.

Diese Informationen nennen wir “Metadaten”.[1] Und es ist gut, dass es sie gibt: Sie verraten uns zum einen in systematischer Form das, was aus den Digitalisaten explizit hervorgeht, wie etwa  den Namen der Zeitung/Zeitschrift, den Druckort, das Erscheinungsdatum. Zum anderen enthalten sie beispielsweise auch die Regelmäßigkeit des Erscheinens, die Anzahl der gescannten und der gedruckten Exemplare, die Autorinnen und Autoren sowie weitere Akteure, die Anzahl der Seiten und der Artikel oder die Sprache, in der die Artikel verfasst wurden. All dies kann viel Recherche erfordern.

[...]

Quelle: https://dhd-blog.org/?p=14457

Weiterlesen

SHK-Stelle mit Schwerpunkt Textmining und Analyse literarischer Textkorpora im Projekt „Digital Literacy in den Geisteswissenschaften“ an der FU Berlin

Der Exzellenzcluster 2020 „Temporal Communities – Doing Literature in a Global Perspective“ der Freien Universität Berlin sucht die Unterstützung von studentischen Mitarbeiter*innen bei der Handhabung und Analyse literarischer Textkorpora. Auf die Stelleninhaber*innen warten u.a. spannende Programmieraufgaben wie Textmining mit R und/oder Python (z.B. Frequenz-, Netzwerk-, Sentiment- und Clusteranalysen), sowie auch Unterstützung bei der Datenaggregation und der Vorverarbeitung textbasierter Daten.

Mehr Informationen finden Sie im Stellenanzeiger der Freien Universität Berlin. Bewerbungsschluss ist der 19.07.

[...]

Quelle: https://dhd-blog.org/?p=14039

Weiterlesen

Job: Wissenschaftlicher Mitarbeiter (m/w/d) 50% TV-L 13 Digital Humanities (Berlin – DHI Rom) – verlängerte Bewerbungsfrist (8.3.2020)


Das Deutsche Historische Institut in Rom  sucht für das von der DFG geförderte digitale Editionsprojekt „Ferdinand Gregorovius: Poesie und Wissenschaft. Gesammelte deutsche und italienische Briefe„, das in Zusammenarbeit mit der Arbeitsgruppe TELOTA der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) entwickelt wird, schnellstmöglich, zunächst für einen befristeten Zeitraum von einem halben Jahr

eine/-n wissenschaftliche/-n Mitarbeiter/-in (w/m/d) für Digital Humanities in Teilzeit zu 50% der tariflichen Arbeitszeit.  

Im Falle der vorgesehenen Verlängerung des Projekts besteht die Möglichkeit der Vertragsverlängerung um ein weiteres Jahr. Möglich ist auch eine Vollzeitbeschäftigung in den ersten drei Monaten.

Das Deutsche Historische Institut in Rom ist ein Forschungsinstitut der Max Weber Stiftung – Deutsche Geisteswissenschaftliche Institute im Ausland. Das 1888 gegründete Institut dient der Erforschung der italienischen und deutschen Geschichte und Musikgeschichte in europäischen Zusammenhängen, vom frühen Mittelalter bis zur jüngsten Vergangenheit.  



[...]

Quelle: https://dhd-blog.org/?p=12963

Weiterlesen

Stellenausschreibung: Software-Entwickler/in am MPI für Wissenschaftsgeschichte

Liebe Kolleginnen und Kollegen,
das Max-Planck-Institut für Wissenschaftsgeschichte (MPIWG) in Berlin sucht ab Februar für die Dauer von 18 Monaten eine/n Software-Entwickler/in (TVöD (Bund) E13, Stellenumfang 100%) für die BMBF-geförderte Mitarbeit an der Weiterentwicklung der Publikationsplattform Edition Open Access.

Den vollständigen Ausschreibungstext sowie Kontaktinformationen erhalten Sie auf http://www.mpiwg-berlin.mpg.de/en/news/jobs#16245.

Beste Grüße,
Klaus Thoden

Quelle: http://dhd-blog.org/?p=8857

Weiterlesen

Workshop „Advanced Methods in Stylometry“ (CLiGS, Würzburg)

The junior research group „Computational Literary Genre Stylistics“ (CLiGS) is organizing a hands-on workshop on „Advanced Methods in Stylometry“ which will take place at Würzburg University, Germany, on December 9-11. (For future updates, see the workshop page.)

The workshop targets doctoral students in literary studies already familiar with computational text analysis and interested in using specific, advanced methods for their use-cases and research questions. The aims of the workshop are to help participants move beyond out-of-the-box functionality in stylo, either using advanced functionality in stylo or using specific Python packages. Participants are encouraged to bring their own datasets to the workshop.

The workshop will be taught by Maciej Eder (Paedagogical University, Kraków, Poland), Mike Kestemont (University of Antwerp, Belgium), and Jeremi Ochab (Jagiellonian University, Kraków, Poland), three experts in stylometry. It is being coordinated by Christof Schöch. The workshop will have three parts, adresssing the following issues:



[...]

Quelle: http://dhd-blog.org/?p=5853

Weiterlesen

TAToM, oder: Text Analysis with Topic Models (Tutorial)

Eine "topic heatmap" für die Tragödien von Jean Racine

Eine “topic heatmap” für die Tragödien von Jean Racine

Die Schulungsmaterialien “TAToM – Text Analysis with Topic Models for the Humanities and Social Sciences“, die von Allen Riddell im Rahmen von DARIAH-DE erstellt wurden, sind soeben erschienen.

Sie bestehen aus einer Serie von Tutorials, die grundlegende Verfahren der quantitativen Textanalyse abdecken. Sie thematisieren die Vorbereitung eines Textkorpus für die Analyse sowie die Exploration von Textsammlungen mit Verfahren wie Topic Modeling und Maschinellem Lernen. Besonderes Augenmerk liegt darauf, dass NutzerInnen weitestgehende Kontrolle über die Vorgänge der Textprozessierung behalten können. Wichtig war bei der Entwicklung der Materialien darüber hinaus, den Aspekt der Visualisierung von Topic Models mit in das Verfahren einzubeziehen.

Die Tutorials behandeln sowohl einige grundlegende als auch fortgeschrittene Themen und bauen in gewisser Weise auf den Materialien zu Python Programming for the Humanities von Folgert Kastorp und Maarten van Gompel auf bzw. setzen diese teilweise voraus. Die Tutorials nutzen in erster Linie die beliebte Skriptsprache Python, um mit den Textdaten umzugehen.

Die Inhalte in der Übersicht:
- Preliminaries & Getting started
- Working with text
- Preprocessing
- Feature selection: finding distinctive words
- Topic modeling with MALLET
- Topic modeling in Python
- Visualizing topic models
- Classification, Machine Learning, and Logistic Regression
- Case Study: Racine’s early and late tragedies

Die Tutorials wurden von Allen Riddell für DARIAH-DE verfasst und im März 2014 in Version 1.0 veröffentlicht. Die Koordination lag bei Christof Schöch am Lehrstuhl für Computerphilologie der Universität Würzburg. Rückmeldung zu den Tutorials ist immer willkommen, ebenso wie Hinweise auf Fehler. Bitte nutzen Sie hierfür den issue tracker auf GitHub. Die Tutorials werden unter der Lizenz Creative Commons Attribution 4.0 International zur Verfügung gestellt.

Quelle: http://dhd-blog.org/?p=3275

Weiterlesen

2013 DARIAH Sommerschule ein Großer Erfolg

Die 2013 DARIAH-DE International Digital Humanities Summer School, die vom 19. bis 23. August am Göttingen Centre for Digital Humanities stattfand, war ein voller Erfolg. Die Sommerschule, die sich auf die Verarbeitung natürlicher Sprache mit der Programmiersprache Python konzentrierte, wurde von Mike Kestemont von der Universität Antwerpen in Belgien und Lars Wieneke vom CVCE in Luxemburg geleitet. Die Schule brachte 20 Teilnehmer aus 10 verschiedenen Ländern, von denen die meisten noch nie eine Zeile Programmcode geschrieben hatten, zusammen und förderte sie soweit, dass sie in Teamarbeit Antworten auf komplexe Fragestellungen erarbeiten konnten. Aufgrund der großzügigen Unterstützung durch DARIAH-DE konnten wir Mike und Lars für eine Woche nach Göttingen holen und die Übernachtungen der studentischen Teilnehmer voll fördern. Dies hat es uns ermöglicht, eine neue Generation von Wissenschaftlern zu erreichen, die ohne diese Unterstützung nicht in der Lage gewesen wäre, die Sommerschule zu besuchen.
Zwei Hauptgründe für den Erfolg unserer Sommerschule waren zum einen die fantastischen Lehrer und zum anderen die hochmotivierten Teilnehmer. Mike und Lars konnten ihre Begeisterung für die Möglichkeiten von Python so gut an die Teilnehmer vermitteln, dass sie intensiv mitarbeiteten und oft Kaffee- und Mittagspausen nutzten, um Probleme zu diskutieren und gemeinsam zu lösen. In der Tat war die häufigste Kritik der Teilnehmer, dass die Sommerschule zu kurz gewesen sei. Sie hätten gerne noch eine Woche rangehängt, um die Informationen weiter zu verarbeiten und mehr über die Bearbeitung von Texten mit Python zu lernen.
Unsere Erfahrungen mit der Sommerschule zeigen, dass es eine Reihe von Wissenschaftlern gibt, die mehr als nur Mark-up und Text Encoding lernen wollen. Sie möchten Methoden der Datenmanipulation erlernen, Datenanalyse betreiben, und die Freiheit und Flexibilität einer Programmiersprache voll nutzen statt durch vorgefertigte Suites von Tools sowie AntConc oder IBM LanguageWare eingeschränkt zu sein. Die Göttinger Sommerschule hat darüberhinaus die Effektivität dieses intensiven Schulungsformats gezeigt, das Wissenschaftlern die benötigten Kenntnisse für das Einsetzen digitaler Methoden in ihrer Forschung erfolgreich vermittelt.

Quelle: http://dhd-blog.org/?p=2212

Weiterlesen

2013 DARIAH-DE International DH Summer School

Vom 19. bis zum 25. August 2013 findet die erste internationale DARIAH-DE DH Summer School in Göttingen, Deutschland, statt. Die einwöchige Veranstaltung wird vom Göttingen Centre for Digital Humanities angeboten; Hauptthema wird die digitale Textanalyse mit der Programmiersprache Python sein. Der Hauptseminarleiter wird Mike Kestemont von der Universität Antwerpen sein. Eine kurze englische Zusammenfassung der Veranstaltungsinhalte befindet sich hier: Mike Kestemont – Plan for 2013 Summer School.
Die Sommerschule richtet sich primär an Doktoranden und Post-Doktoranden. Aber auch andere Interessierte mit fortgeschrittenen Kenntnissen der geisteswissenschaftlichen Forschung sind herzlich willkommen. Die Veranstaltungssprache ist Englisch.

Quelle: http://dhd-blog.org/?p=1543

Weiterlesen