DH- Workshops in Tübingen: Publishing Data und Topic Modeling

Am 8. und 9. Februar veranstaltet der Lehrstuhl für Romanische Philologie der Universität Tübingen zwei Workshops zum Thema „Publishing Data using GitHub“ von José Calvo Tello und „Einführung in Topic Modeling“ von Ulrike Henny-Krahmer (beide Universität Würzburg).

Die Teilnehmeranzahl ist beschränkt, um Anmeldung wird bis zum 1. Februar gebeten, per mail an Frau Ehrt: monika.ehrt@uni-tuebingen.de

„Publishing Data using GitHub“ (8.

[...]

Quelle: http://dhd-blog.org/?p=8936

Weiterlesen

Textkomplexität als Stilmerkmal – Ein Veranstaltungsbericht

Was macht einen Roman „komplex“? Kann man die „Komplexität“ eines literarischen Textes messen, und ist Komplixität ein Merkmal, daß bestimmte Autoren, oder bestimmte Literaturgattungen von anderen unterscheidet?

Um diesen und ähnlichen Fragen nachzugehen fand am 07. und 08. Dezember 2015 am Lehrstuhl für Computerphilologie der Universität Würzburg der DARIAH-DE Expertenworkshop „Complexity Measures in Stylometry statt. Ziel der Veranstaltung war es, innerhalb der quantitativ arbeitenden Literaturwissenschaft eine Diskussion über das Thema „Textkomplexität“ anzuregen und in gemeinsamen Gesprächen auszuloten, welche Rolle Indikatoren der Textkomplexität in der Stilometrie spielen könnten. Dabei sollte zudem demonstriert werden, wie der in DARIAH-DE entwicklte DARIAH-DKPro-Wrapper dazu beitragen kann, die Berechnung solcher Indikatoren wesentlich zu vereinfachen.

Geladen waren Maciej Eder (Institute of Polish Studies, Pedagogical University of Krakow), Jeremi Ochab (Department of Theory of Complex Systems, Jagiellonian University, Krakow), Allan Riddell (Leslie Center for the Humanities, Dartmouth College) und Nils Reiter (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart).

[...]

Quelle: http://dhd-blog.org/?p=6471

Weiterlesen

TAToM, oder: Text Analysis with Topic Models (Tutorial)

Eine "topic heatmap" für die Tragödien von Jean Racine

Eine “topic heatmap” für die Tragödien von Jean Racine

Die Schulungsmaterialien “TAToM – Text Analysis with Topic Models for the Humanities and Social Sciences“, die von Allen Riddell im Rahmen von DARIAH-DE erstellt wurden, sind soeben erschienen.

Sie bestehen aus einer Serie von Tutorials, die grundlegende Verfahren der quantitativen Textanalyse abdecken. Sie thematisieren die Vorbereitung eines Textkorpus für die Analyse sowie die Exploration von Textsammlungen mit Verfahren wie Topic Modeling und Maschinellem Lernen. Besonderes Augenmerk liegt darauf, dass NutzerInnen weitestgehende Kontrolle über die Vorgänge der Textprozessierung behalten können. Wichtig war bei der Entwicklung der Materialien darüber hinaus, den Aspekt der Visualisierung von Topic Models mit in das Verfahren einzubeziehen.

Die Tutorials behandeln sowohl einige grundlegende als auch fortgeschrittene Themen und bauen in gewisser Weise auf den Materialien zu Python Programming for the Humanities von Folgert Kastorp und Maarten van Gompel auf bzw. setzen diese teilweise voraus. Die Tutorials nutzen in erster Linie die beliebte Skriptsprache Python, um mit den Textdaten umzugehen.

Die Inhalte in der Übersicht:
- Preliminaries & Getting started
- Working with text
- Preprocessing
- Feature selection: finding distinctive words
- Topic modeling with MALLET
- Topic modeling in Python
- Visualizing topic models
- Classification, Machine Learning, and Logistic Regression
- Case Study: Racine’s early and late tragedies

Die Tutorials wurden von Allen Riddell für DARIAH-DE verfasst und im März 2014 in Version 1.0 veröffentlicht. Die Koordination lag bei Christof Schöch am Lehrstuhl für Computerphilologie der Universität Würzburg. Rückmeldung zu den Tutorials ist immer willkommen, ebenso wie Hinweise auf Fehler. Bitte nutzen Sie hierfür den issue tracker auf GitHub. Die Tutorials werden unter der Lizenz Creative Commons Attribution 4.0 International zur Verfügung gestellt.

Quelle: http://dhd-blog.org/?p=3275

Weiterlesen