FAS-Interview mit Joseph Vogl zur Demokratie
(via FB)
Digitalisierte Landkarten der Sammlung Moll an der MZK / Wienplan von Joseph Anton…

Robert Knight: Kritik am Historiker Stefan Karner
Ob es um Kosaken oder Kärntner Slowenen geht, Karners Pudding riecht stark nach der Bereitschaft, der Macht und den Mächtigen die Reverenz zu erweisen. Unangenehme Fakten ob über Kroatien 1943/44 oder Kärnten 1958 gehören jedenfalls nicht dazu.
Ungezählt, unbekannt, unerforscht. Sechs Jahrzehnte Flugblattsammlung in der Hamburger Arbeitsstelle für Universitätsgeschichte
Anton F. Guhl und Alexandra Jaeger Studierende schreiben. Das haben sie schon immer getan – zumeist jedoch nur in Form von Hausarbeiten oder Klausuren für ihre Lehrenden. Seltener richten sich Studierende an eine Öffentlichkeit und häufig gelangt das, was Studierende … Weiterlesen
aussichten Nr. 30 [30.11.2012]: Neue Einträge bei aussichten-online.net; Digest 01.11.2012-30.11.2012
aventinus antiqua Nr. 20 [30.11.2012]: Gewaltdarstellung bei Thukydides
aventinus specialia Nr. 44 [30.11.2012]: Studentisches Publizieren — eine leichte Kunst? Zu den technischen Hintergründen von »aventinus«
Scheitern als Chance – Testen durch Fehler
Momentan experimentiere ich mit Marcos Zampieri zu Eigenschaften von brasilianisch-portugiesischen Internettexten. Dabei geht es unter anderem darum, spezifisches Vokabular aus diesen zu extrahieren und anhand dieses Vokabulars die Texte wiederum nach ihrer Internetness zu klassifizieren. Die Studie erscheint demnächst als Paper, hier will ich deswegen nicht über die Ergebnisse schreiben, sondern nur eine (zumindest für uns) lehrreiche Begebenheit aus der Entwicklungsphase schildern.
Aus wissenschaftlichen Veröffentlichungen lässt sich nur in den seltensten Fällen herauslesen, welche Fehlschläge auf dem Weg zu den letztlich öffentlich gemachten Versuchsaufbauten und Ergebnissen die Autoren hinnehmen mussten. Um zu zeigen, dass solche Fehlschläge durchaus fruchtbar sein können, muss ich zunächst etwas weiter ausholen und bei den drei Gütekriterien empirischer Studien beginnen, die ja, wie allgemein bekannt, die folgenden sind:
- Validität – Misst das gewählte Verfahren tatsächlich das, was es messen soll?
- Reliabilität – Funktioniert die Messung zuverlässig, sind die Ergebnisse im Wiederholungsfall stabil?
- Objektivität – Wurden die Ergebnisse unabhängig vom Prüfer erzielt?
Auch wenn man – wie wir – ein Labor gebaut hat, in dem alles, was man experimentell anstellt, protokolliert wird, so dass die Ergebnisse im Normalfall (d.h., wenn man die Ausgangsdaten und die Werkzeuge in den entsprechenden Versionen nicht verlegt) jederzeit reproduziert werden können, sind diese drei Kriterien natürlich nicht automatisch erfüllt.
Wir (Computer)Linguisten wollen z.B. Aussagen über Sprache treffen und analysieren dafür Sprachdaten. Diese Aussagen sind natürlich immer abhängig von der Auswahl der Sprachdaten, die wir getroffen haben. Natürliche Sprachen sind ja leider kein abgeschlossenes System (im Gegensatz z.B. zum Text aus dem Voynich Manuskript, jedenfalls solange dessen fehlende Seiten nicht irgendwo auftauchen). Die Auswahl betrifft vor allem die beiden letzten oben genannten Gütekriterien, die Reliabilität (bleiben die Aussagen gleich, wenn ich eine andere Auswahl treffe) und Objektivität (bleiben die Aussagen gleich, auch wenn jemand anders die Auswahl trifft).
Die Validität betrifft mehr die Werkzeuge, die im Analyseprozess verwendet werden – zunächst einmal müssen sie korrekt funktionieren (wer selbst einmal Algorithmen implementiert hat, weiß wahrscheinlich sehr gut, welche Fehler dabei auftreten können). Darüber hinaus muss aber auch irgendwie festgestellt werden, ob sich die Messungen der gewählten Werkzeuge wirklich dazu eignen, darauf die zu treffenden Aussagen zu gründen.
Im kombinierten Programmier/Experimentier-Prozess, in dem man sich befindet, wenn man neue Werkzeuge erstellt, die dann auch umgehend für empirische Studien eingesetzt werden, muss man sich überlegen, wie man die Validität denn am besten testen kann. Und um jetzt endlich zum Punkt dieses Artikels zu kommen: Ich möchte hier einen solchen Test beschreiben, der in der Form gar nicht geplant war und nur durch einen Fehler zustande kam.
Um, wie wir das vorhatten, die Internetness von Texten bzw. Dokumenten zu ermitteln, kann man sie z.B. mit einem Referenzkorpus vergleichen und schauen, inwieweit sich Spezifika in Abgrenzung zu diesem ermitteln lassen. Es gibt unterschiedliche Methoden, die Keywordness von einzelnen Termen (Wörtern) zu berechnen, im Bereich des Information Retrieval (also im Umfeld von Suchmaschinen) wird häufig der Quotient aus Termfrequenz und inverser Dokumentfrequenz (TF/IDF) hinzugezogen. Für den Vergleich von Korpora eignet sich unserer Meinung nach die Berechnung der Log-Likelihood-Ratio (LLR) für einzelne Termes besser. Um es ganz simpel zu erklären: Das Vorzeichen der LLR gibt für jeden Term an, ob er stärker mit dem Untersuchungskorpus oder mit dem Referenzkorpus assoziiert ist. Noch einfacher: In welchem Korpus er häufiger vorkommt. Allerdings zählen dabei nicht die absoluten Häufigkeitsunterschiede (welche die frequentesten Wörter, also {und, der, die, das} usw. aufweisen würden), die LLR relativiert diese stattdessen (wie sie das tut, passt gerade nicht hier rein). Summiert man nun die LLR-Werte der Token jedes Korpus-Dokumentes und teilt diese Summe durch die Länge des entsprechenden Dokuments, so erhält man vergleichbare Internetness-Werte für jedes Dokument.

Ein Experiment, das den im Text beschriebenen Workflow über einzelne Komponenten realisiert. Von oben nach unten: Korpora, Tokenizer, Frequenz-Zähler, LLR-Berechner, Ranker für Dokumente (die hier in Paragraphen repräsentiert sind) nach den LLR-Werten ihres Vokabulars.
Auf den ersten Blick war fatal, dass uns der Fehler unterlief, unsere Korpora mit Texten unterschiedlicher Encodings zu bestücken. Das ist für Tesla normalerweise kein Problem, wenn nicht gerade alle zusammen in einem Archiv hochgeladen werden, was wir aber getan haben. Das Resultat war, dass alle Wörter mit Umlauten im Internet-Korpus korrekt dargestellt wurden, diese aber im Referenz-Korpus nie auftauchten, weil dessen Encoding zerschossen war. Resultat war, dass não (portugiesisch für nein, falsch encodiert não), offenbar in unserem Korpus das frequenteste Wort mit Sonderzeichen, den höchsten LLR-Wert erhielt. Texte, die lediglich aus não bestanden, bekamen deshalb den höchsten Wert für ihre Internetness.
Das Ergebnis entsprach natürlich keinesfalls dem, das wir erhalten wollten, dennoch hatte die Tatsache, dass wir einen so blöden Fehler gemacht hatten, auch einen gewichtigen Vorteil: Dadurch, dass wir ein so falsches, aber absolut nachvollziehbares Ergebnis erhielten, konnten wir Rückschlüsse bezüglich der Validität des Verfahrens bzw. die Richtigkeit der Algorithmen-Implementationen innerhalb der Komponenten ziehen: Wir hatten genau das gemessen, was aufgrund unseres Fehlers gemessen werden musste. Den Fehler konnten wir einfach korrigieren, die Ergebnisse veränderten sich dementsprechend – auch wenn sie weiterhin bemerkenswerte, durch die Korporaauswahl bedingte, Artefakte enthalten (da muss ich allerdings auf die wissenschaftliche Veröffentlichung vertrösten). Wir waren in einem ersten Versuch gescheitert, aber gerade dieses Scheitern hatte uns einen relativ starken Hinweis auf die Validität unseres Verfahrens gegeben. Und ich finde, das ist schon einen Blogpost wert, zumal solche produktiven Fehlschläge nur sehr selten Platz in wissenschaftlichen Veröffentlichungen finden.
Vor Google-Band erschienen

Brandstetter, Thomas/Hübel, Thomas/Tantner, Anton (Hg.): Vor Google. Eine Mediengeschichte der Suchmaschine im analogen Zeitalter. Bielefeld: Transcript, 2012. 262 S., ISBN 978-3-8376-1875-4, Euro 29,70 (A) [Verlags-Info mit Kurz-Interview, Buchhandel.de, Amazon]
Das Buch in einem Satz:
Das digitale Zeitalter beginnt seine Vorgeschichte zu schreiben: Kammerdiener, Zeitungskomptoire, Kanontafeln, Staatshandbücher, Zettelkästen und Zitationsindizes werden zu den neuen Helden der Historiographie.
Die Verlagsankündigung:
Ein Alltag ohne digitale Suchmaschinen ist heute nur noch schwer vorstellbar. Dabei lassen sich zahlreiche Einrichtungen, Personen und Techniken ausmachen, die lange vor Google und Co. ähnliche Funktionen übernommen haben - Staatshandbücher und Diener etwa, aber auch Bibliothekskataloge, Fragebögen oder Zeitungskomptoire.
Welche strukturellen Ähnlichkeiten gibt es zwischen diesen früheren und den heutigen Suchmaschinen? Welche Utopien knüpften sich an die Suchmaschinen des analogen Zeitalters? Welche Formen von Kontrolle ermöglichten sie? Das Buch widmet sich diesen und weiteren Fragen und liefert damit nicht nur neue Erkenntnisse über die Medien der Vergangenheit, sondern vertieft auch die Analysen der gegenwärtigen medialen Lage.
Das Inhaltsverzeichnis:
Einleitung (PDF)
Thomas Brandstetter, Thomas Hübel, Anton Tantner
Ordnung ist das halbe Leben. Zur Ökonomie von Benamung und Suche
Stefan Rieger
»Wende sie um und um, denn alles ist in ihr.« Über das Suchen in heiligen Texten
Daniel Weidner
Fragen ohne Antworten. Die Suche nach lokalen Informationen in der frühen Aufklärung
Alix Cooper
Herrschaftsordnung, Datenordnung, Suchoptionen. Recherchemöglichkeiten in Staatskalendern und Staatshandbüchern des 18. Jahrhunderts
Volker Bauer
Das Zeitungskomptoir als Informationsdrehscheibe. Michael Hermann Ambros und seine Grazer Anzeigenblätter
Andreas Golob
Ask Jeeves. Der Diener als Informationszentrale
Markus Krajewski
Suchen und Finden. Notizführung und Grammatik bei Theodor Nöldeke
Henning Trüper
Vannevar Bush und die Technikutopie Memex. Visionen einer effizienten Speicherung und Verfügbarmachung von Information
Martin Schreiber
Zentralität und Sichtbarkeit. Mathematik als Hierarchisierungsinstrument am Beispiel der frühen Bibliometrie
Bernhard Rieder
Einen Preis für Gendergerechtigkeit werden wir bei genau einer im Band vertretenen Autorin dafür leider nicht bekommen, aber wir können für uns anführen, dass wir uns um manche Autorinnen persönlich bemüht haben, diese dann aber doch abgesprungen sind.
Digital verfügbar ist die Leseprobe (PDF) mit Inhaltsverzeichnis und Vorwort, vielleicht wird ja die Zukunft zeigen, welche weiteren elektronischen Versionen Transcript noch anbieten wird.