Am Anfang des Sommersemesters berichtete ich hier von einer Übung zum Thema Information Extraction, für die ich als Inhalt die Verarbeitung von Daten (eine Chronologie des Alexander von Humboldt von 1766-1859) vorgesehen hatte, die mir von der Berlin-Brandenburgischen Akademie der der Wissenschaften (BBAW) zur Verfügung gestellt wurden. Die BBAW nutzt die Daten selbst für ihr Akademievorhaben „Alexander von Humboldt auf Reisen – Wissenschaft aus der Bewegung“. Dieser Follow-up-Blogpost ist der Bericht, wie die Übung gelaufen ist und welche Ergebnisse sie erbracht hat.
Da es sich um eine Übung für ein Aufbaumodul des Bachelorstudiengangs Informationsverarbeitung handelte, wollte ich nicht zuviel, vor allem aber keine erweiterten Programmierkenntnisse voraussetzen. Stattdessen habe ich im Unterricht verschiedene Tools zur Verarbeitung und Ausbeutung (Mining lässt sich hier schlecht ins Deutsche übertragen) von Textdaten vorgestellt, welche die Teilnehmer|innen über Webservices nutzen konnten. Um die verschiedenen Services miteinander verknüpfen zu können, habe ich außerdem eine eigene Java-basierte Software geschrieben, welche die Daten entsprechend aufbereiten kann. Dabei wurden die aus den Webservices bekannten Tools über ihre API (Abstract Programming Interface) in ein von mir erstelltes Programmgerüst integriert. Ich hätte hier auf bestehende Workflow-Management-Ansätze wie Tesla, UIMA oder dkpro zurückgreifen können, zog es aber vor, eine sehr einfach gehaltene Eigenimplementation zu erstellen, an der Studierende nachvollziehen können, was wo im Programmcode geschieht – denn selbst wenn sie noch keine weitergehende Programmiererfahrung haben, müssen sie diese bis zum Abschluss des BA erwerben. Der Code ist für den Gebrauch im Unterricht erst nach und nach entstanden und müsste für eine Nachnutzung noch einmal gründlich überarbeitet werden.
[...]
Quelle: http://texperimentales.hypotheses.org/2069