Anlässlich mehrerer Tagungen, auf denen wir Tesla präsentieren dürfen, haben wir ein wenig an der Visualisierung von Experiment-Ergebnissen gearbeitet, v.a hat Stephan die neueste Version seines WordCloud-Erzeugers Cloudio in den Client von Tesla integriert. Damit können jetzt Wortwolken, wie die oben im Titelbild meines Blogs, innerhalb von Tesla erzeugt werden.
Ich möchte die Gelegenheit nutzen, die bisher implementierten Tesla-Visualisierer hier im Blog vorzustellen, bevor wir heute das nachmittag ab 15:15 Uhr live im TextGrid-Café tun. Visualisierung wird vor allem da benötigt, wo die automatische Evaluation von Ergebnissen zu kurz greift und die Forscherin/der Forscher, der experimentell arbeitet, ihre/seine Ergebnisse mittels ihres/seines Intellektes überprüfen will. Wie es das Thema verlangt, werden hier mehr Screenshots denn Texte im Vordergrund stehen.
Alle folgenden Visualisierungen basieren auf den Ergebnissen eines einzigen Experiments, [das irgendwann im Laufe der Woche von Alena bei der Plattform MyExperiment geshart wird, ich binde den Link dann ein]. Dabei geht es eigentlich nur um eine Studie zu einer Methode, temporale Ausdrücke aus Texten zu extrahieren. Der zugehörige Workflow sieht im Editor wie folgt aus:
Oben im Workflow finden sich Wikipedia-Texte, deren temporale Ausdrücke vorausgezeichnet wurden. Auf der linken Seite befindet sich die Komponenten, deren Zusammenspiel diese temporalen Ausdrücke (ohne die Kenntnis der Vorauszeichnungen) ermitteln soll. Auf der rechten Seite steht, relativ allein, die Evaluationskomponente, welche die Menge der vorausgezeichneten Ausdrücke mit der Menge der experimentell ermittelten vergleicht.
Nach der Ausführung des Experiments steht zunächst eine Ergebnis-Übersicht zur Verfügung, in der Informationen zu den einzelnen Komponenten abrufbar sind, hier schreibt z.B. die Evaluationskomponente ihre ermittelten Werte zur Precision, Recall und F1-Wert hinein:
Möglicherweise ist am aber nicht nur an den Evaluationsmaßen interessiert, sondern auch daran, welche der vorausgezeichneten Ausdrücke denn nun gefunden wurden und welche nicht. Dabei möchte man vielleicht auch direkt den Kontext sehen, in dem sich die (nicht) gefundenen Ausdrücke befinden. Hierfür bietet sich z.B. ein farblich unterlegter Text an:
In dieser Visualisierung sind die vorausgezeichneten (rot) und die ermittelten (gelb) temporalen Ausdrücke markiert. Überlappen sich beide, so werden sie mit der Mischfarbe (orange) markiert. Hier sieht man, dass der Versuchsaufbau für Datums-Angaben verschiedenen Formats recht gut funktioniert und noch Verbesserungen hinsichtlich von zeitbezogenen Wörtern eingebracht werden könnten (etwa durch Erweiterung der Gazetteer-Listen).
Vielleicht möchte man aber auch eine Aufstellung allerermittelten temporalen Ausdrücke haben. Dafür hat Tesla eine Tabellen-Visualisierung (Tabellen können auch direkt in ein csv-Format exporiert werden, um sie woanders weiter zu verarbeiten):
Außerdem verfügt Tesla noch über eine Visualisierung in Klammerstruktur (um etwa Dominanzbeziehungen zwischen Elementen im Text auszudrücken, den Sceenshot spare ich mir ausnahmsweise mal) und eben über die WordCloud, die zumindest visuell momentan der Höhepunkt jeder Tesla-Präsentation ist, auch wenn es nicht für jedes Datum Sinn macht, es in einer Cloud darzustellen. In der folgenden Abbildung sind etwa alle temporalen Ausdrücke nach ihrer Häufigkeit aufgetragen. Kann man nicht unbedingt für Interpretationszwecke nutzen, schön aussehen tut es dennoch:
Soweit meine kurzen Ausführungen zu den bereits in Tesla integrierten Visualisieren. Wir wissen selbst, dass es noch eine Menge von Möglichkeiten gibt, die zu integrieren sich wirklich lohnen würde, etwa einen Datenplotter und Darstellungsmöglichkeiten für statistische Auswertungen. Auch die allen Visualisierungen zugrundeliegende Datenstruktur ist historisch gewachsen und inzwischen überarbeitungsbedüftig. Ist auf der Liste der nice-to-haves. Ob wir wirklich noch mehr realisieren können hängt aber vor allem von potentiellen Geldgebern ab (sonst haben wir soviel anderes zu tun). Wir hoffen mal das Beste.