In diesem Semester biete ich neben meinem Dauerseminar Computerlinguistik und dem gemeinschaftlich ausgerichteten dhc-Kolloquium noch eine Übung zur Informationsextraktion (IE) an. IE ist ein Thema, das in mehreren von mir betreuten Projekten eine Rolle spielt, über die ich hier auch schon berichtet habe – dazu zählen das Projekt zu den Stellenanzeigen und die Informationserschließung in der Bilddatenbank Prometheus.
Beide Projekte würden sich auch als Themen für die Übung anbieten. Vor ein paar Wochen hat sich allerdings mein Kollege Alex Czmiel von der Berlin Brandenburgischen Akademie der Wissenschaften (BBAW) bei mir gemeldet und gefragt, ob wir vielleicht Lust hätten, auf chronologischen Daten zu Alexander von Humboldts Reisen zu arbeiten. Die BBAW könnte uns diese zur Verfügung stellen und im besten Fall könnten wir diese ein wenig aufbereiten, Personen/Orte annotieren und diese Informationen wiederum zugänglich machen. Eine kleine Beispieldatei überzeugte mich davon, dass dies tatsächlich ein erfolgversprechendes Vorhaben wäre, zumal die Daten in sauberem XML und sogar TEI-codiert vorliegen:
Was mir an den Daten außerdem gut gefällt, ist, dass sie aus relativ kurzen Textschnipseln bestehen und datiert sind (hier: 1. Januar 1800). Das ließ mich natürlich sofort an die Möglichkeiten des Reentweetments denken.
[...]