textmining – Planet Clio

Kerstin von der Krone (Universitätsbibliothek Frankfurt am Main), Kai Eckert und Benjamin Schnabel (Hochschule der Medien Stuttgart)
Montag, 4. Oktober 2021, 14:30-15:00 Uhr

JudaicaLink (http://judaicalink.org) ist ein Datenportal des Fachinformationsdienstes Jüdische Studien (http://jewishstudies.de), das verschiedenste Datenquellen zur jüdischen Geschichte zusammenführt und anreichert. Neben dem Ziel, die Angebote des FID zu optimieren, werden die Daten den digitalen Geisteswissenschaften zur weiteren Nutzung zur Verfügung gestellt. Ein besonderes Augenmerk liegt derzeit auf dem Presse-Portal “Compact Memory” (http://compactmemory.de), das durch Textmining-Verfahren weiter erschlossen wird und einem breiteren Nutzerkreis zugänglich gemacht werden soll.

In dieser Präsentation zeigen wir, wie die Workflows in JudaicaLink konzipiert wurden, um mit wenig Aufwand Daten aus unterschiedlichsten Quellen mit voller Datenprovenienz verwalten zu können.

[...]

Quelle: https://digigw.hypotheses.org/3935

Ich bin gerade dabei, die ARTigo-Datenbank auf Epochen hin zu analysieren. In einem ersten Schritt möchte ich feststellen, welche von den Spielern eingegebenen Begriffe, also welche Tags, mit dem Begriff „Klassizismus“ und welche mit dem Begriff „Expressionismus“ korrelieren, d.h. welche Begriffe dazu im Zusammenhang stehen.

Folgende Vorgehensweise ist hierzu nötig:

Erstellung von Abfragen auf die ARTigo-Datenbank, in welcher die Bilder mit allen Taggings (nicht nur die gematchten Tags, nein alles, also auch jeder Quatsch der eingegeben wurde) selektiert werden. Das mache ich mit Access. Für die Epoche des Klassizismus habe ich den Entstehungszeitpunkt der Bilder auf 1770 bis 1830 begrenzt, für die Epoche des Expressionismus auf 1900 bis 1920.
Export der Daten in jeweils eine csv-Datei für Expressionismus (250.064 Datensätze) und eine csv-Datei für Klassizismus (527.440 Datensätze) .
Für die weitere Verarbeitung der Daten in R mit dem TM-Package (Textmining) benötige ich mehrere Dateien. Die Aufgabe, die großen aus Access exportierten Dateien aufzuteilen, erledigt ein Script. Als Gruppierungsmerkmal habe ich das Entstehungsjahr der Bilder gesetzt. D.h. pro verschiedenen Zeitbereich wird eine Datei erzeugt. Somit wurden aus der Expressionismus-Datei 203 und aus der Klassizismus-Datei 616 kleinere Dateien erzeugt. Es entsteht deshalb pro Jahr nicht eine Datei, weil der Entstehungszeitpunkt von Bildern verschiedene Formate aufweist, z.B. 1770 oder 1770/1777 oder 1770/1775 etc.. Jeder verschiedene Zeitbereich ergibt eine neue Datei.
Danach werden die Daten in R eingelesen. Zunächst die 203 Expressionismus-Dateien. Ich lasse eine Dokument-Term-Matrix erstellen und wende zunächst den Befehl removeSparseTerms an. Er schmeißt Begriffe, die nicht häufig vorkommen, raus (an dieser Stelle wird möglicher Quatsch entfernt, allerdings auch Fachbegriffe, die sich im Long Tail befinden). Beispiel:
von 45.310 Begriffen bleiben nach Verwendung des Befehls removeSparseTerms(dtm, 0.99) noch 6.411 übrig.
Würde ich einen anderen Wert eingeben, z.B. removeSparseTerms(dtm, 0.8) blieben noch 385 Begriffe übrig.
Dann lasse ich mir anzeigen, mit welchen Begriffen das Tag „Expressionismus“ korreliert. Also welche anderen Begriffe kommen im Zusammenhang mit dem Begriff „Expressionismus“ vor? Je größer der Wert (z.B. 0.98 sh. Tabelle unten, desto eher kommen diese beiden Begriffe im Zusammenhang vor).
Der Befehl hierzu lautet findAssocs(dtm, “expressionismus”, 0.8). Der Wert 0.8 gibt die Korrelation an (1 ist der höchste Wert, bei 0 gibt es keine Korrelation). Setzt man den Wert höher an, korrelieren weniger Begriffe miteinander und die Liste ist kürzer. Das Ergebnis für „Expressionismus“ sieht folgendermaßen aus:
findAssocs(dtm,“expressionismus“, 8.0) ergibt eine Menge von 350 korrelierenden Begriffen (ich liste hier nur die ersten 30 Begriffe auf, die vollständige Liste sh. anhängendes PDF):

Bewegung 0,98
bunt      0,98
tier         0,97
farbe     0,96
farben 0,96
tiere      0,96
auge      0,95
kopf      0,95
mensch 0,95
orange 0,95
rot          0,95
striche 0,95
wild       0,95
aquarell 0,94
beine    0,94
blau       0,94
blauer   0,94
gelb       0,94
grün      0,94
hund     0,94
moderne 0,94
pferd    0,94
reiter    0,94
rosa       0,94
studie   0,94
violett   0,94
expressionistisch 0,93
farbig    0,93
franz     0,93

Dann wiederhole ich die Schritte 4 und 5 für die Epoche des Klassizismus. Das Ergebnis von findAssocs (dtm, „klassizismus“, 0.6) ergibt eine Menge von 170 korrelierenden Begriffen. Hierbei ist zu beachten, dass die Datenbasis zwar größer ist, aber wesentlich weniger Begriffe hoch korrelieren. Deshalb habe ich hier einen Wert von 0.6 eingegeben. Damit gebe ich an, dass auch Begriffe mit einer geringeren Korrelation ausgegeben werden. Trotzdem erhalte ich als Ergebnis eine geringere Menge höher korrelierender Begriffe als zuvor bei den Expressionismus-Daten.

Auch hier sind nur die ersten 30 Begriffe angegeben, die vollständige Liste ist als PDF angefügt:

antike   0,8
säule     0,8
tempel 0,79
sockel   0,77
architektur 0,76
schloss 0,76
antik      0,75
gebäude 0,75
grau       0,74
licht       0,74
säulen 0,74
schatten 0,74
weiß      0,74
bogen   0,73
fries       0,72
hell        0,72
klassik   0,72
mann    0,72
mauer 0,72
schwarz 0,72
wand    0,72
ansicht 0,71
eingang               0,71
haus      0,71
renaissance 0,71
rom       0,71
stein      0,71
tor          0,71
braun    0,7

Aufgrund der auffällig größeren Anzahl von höheren Korrelationen bei einer kleineren Anzahl von Daten scheint der Expressionismus für Spieler im Vergleich zum Klassizismus besser erkennbar, bzw. charakteristischer. Das würde ich zumindest so deuten. Was meinen Sie? Was fällt Ihnen auf?

Insgesamt ist der Ansatz, den ich hier vorstelle, diskussionsbedürftig. Über Hinweise und Anregungen freue ich mich.

Expressionismus.pdf

Klassizismus.pdf

Quelle: http://games.hypotheses.org/1146

Spotlight JudaicaLink und FID Jüdische Studien

Social Tagging bei ARTigo: Welche Tags stehen in Zusammenhang mit “Klassizismus”, welche mit “Expressionismus”?