information extraction

Artikel, Bericht, Digital Humanities, information extraction, Lehre, Projekte

Neu: Alex von Humboldt auf Twitter!

17. August 2017 Keine Kommentare

Am Anfang des Sommersemesters berichtete ich hier von einer Übung zum Thema Information Extraction, für die ich als Inhalt die Verarbeitung von Daten (eine Chronologie des Alexander von Humboldt von 1766-1859) vorgesehen hatte, die mir von der Berlin-Brandenburgischen Akademie der der Wissenschaften (BBAW) zur Verfügung gestellt wurden. Die BBAW nutzt die Daten selbst für ihr Akademievorhaben „Alexander von Humboldt auf Reisen – Wissenschaft aus der Bewegung“. Dieser Follow-up-Blogpost ist der Bericht, wie die Übung gelaufen ist und welche Ergebnisse sie erbracht hat.

Da es sich um eine Übung für ein Aufbaumodul des Bachelorstudiengangs Informationsverarbeitung handelte, wollte ich nicht zuviel, vor allem aber keine erweiterten Programmierkenntnisse voraussetzen. Stattdessen habe ich im Unterricht verschiedene Tools zur Verarbeitung und Ausbeutung (Mining lässt sich hier schlecht ins Deutsche übertragen) von Textdaten vorgestellt, welche die Teilnehmer|innen über Webservices nutzen konnten. Um die verschiedenen Services miteinander verknüpfen zu können, habe ich außerdem eine eigene Java-basierte Software geschrieben, welche die Daten entsprechend aufbereiten kann. Dabei wurden die aus den Webservices bekannten Tools über ihre API (Abstract Programming Interface) in ein von mir erstelltes Programmgerüst integriert. Ich hätte hier auf bestehende Workflow-Management-Ansätze wie Tesla, UIMA oder dkpro zurückgreifen können, zog es aber vor, eine sehr einfach gehaltene Eigenimplementation zu erstellen, an der Studierende nachvollziehen können, was wo im Programmcode geschieht – denn selbst wenn sie noch keine weitergehende Programmiererfahrung haben, müssen sie diese bis zum Abschluss des BA erwerben. Der Code ist für den Gebrauch im Unterricht erst nach und nach entstanden und müsste für eine Nachnutzung noch einmal gründlich überarbeitet werden.

[...]

Quelle: http://texperimentales.hypotheses.org/2069

Artikel, Digital Humanities, information extraction, Lehre, Projekte

Übung: Spuren des Alexander von Humboldt

24. April 2017 Keine Kommentare

In diesem Semester biete ich neben meinem Dauerseminar Computerlinguistik und dem gemeinschaftlich ausgerichteten dhc-Kolloquium noch eine Übung zur Informationsextraktion (IE) an. IE ist ein Thema, das in mehreren von mir betreuten Projekten eine Rolle spielt, über die ich hier auch schon berichtet habe – dazu zählen das Projekt zu den Stellenanzeigen und die Informationserschließung in der Bilddatenbank Prometheus.

Beide Projekte würden sich auch als Themen für die Übung anbieten. Vor ein paar Wochen hat sich allerdings mein Kollege Alex Czmiel von der Berlin Brandenburgischen Akademie der Wissenschaften (BBAW) bei mir gemeldet und gefragt, ob wir vielleicht Lust hätten, auf chronologischen Daten zu Alexander von Humboldts Reisen zu arbeiten. Die BBAW könnte uns diese zur Verfügung stellen und im besten Fall könnten wir diese ein wenig aufbereiten, Personen/Orte annotieren und diese Informationen wiederum zugänglich machen. Eine kleine Beispieldatei überzeugte mich davon, dass dies tatsächlich ein erfolgversprechendes Vorhaben wäre, zumal die Daten in sauberem XML und sogar TEI-codiert vorliegen:

Was mir an den Daten außerdem gut gefällt, ist, dass sie aus relativ kurzen Textschnipseln bestehen und datiert sind (hier: 1. Januar 1800). Das ließ mich natürlich sofort an die Möglichkeiten des Reentweetments denken.

[...]

Quelle: http://texperimentales.hypotheses.org/2048

Artikel, Digital Humanities, information extraction, Lehre, Projekte

Übung: Spuren des Alexander von Humboldt

24. April 2017 Keine Kommentare

In diesem Semester biete ich neben meinem Dauerseminar Computerlinguistik und dem gemeinschaftlich ausgerichteten dhc-Kolloquium noch eine Übung zur Informationsextraktion (IE) an. IE ist ein Thema, das in mehreren von mir betreuten Projekten eine Rolle spielt, über die ich hier auch schon berichtet habe – dazu zählen das Projekt zu den Stellenanzeigen und die Informationserschließung in der Bilddatenbank Prometheus.

Beide Projekte würden sich auch als Themen für die Übung anbieten. Vor ein paar Wochen hat sich allerdings mein Kollege Alex Czmiel von der Berlin Brandenburgischen Akademie der Wissenschaften (BBAW) bei mir gemeldet und gefragt, ob wir vielleicht Lust hätten, auf chronologischen Daten zu Alexander von Humboldts Reisen zu arbeiten. Die BBAW könnte uns diese zur Verfügung stellen und im besten Fall könnten wir diese ein wenig aufbereiten, Personen/Orte annotieren und diese Informationen wiederum zugänglich machen. Eine kleine Beispieldatei überzeugte mich davon, dass dies tatsächlich ein erfolgversprechendes Vorhaben wäre, zumal die Daten in sauberem XML und sogar TEI-codiert vorliegen:

Was mir an den Daten außerdem gut gefällt, ist, dass sie aus relativ kurzen Textschnipseln bestehen und datiert sind (hier: 1. Januar 1800). Das ließ mich natürlich sofort an die Möglichkeiten des Reentweetments denken.

[...]

Quelle: http://texperimentales.hypotheses.org/2048