Darf man Kommunisten wählen?

Ich erzittere: Der scharfsinnige Analytiker Christian Rainer, Herausgeber des österreichischen Nachrichtenmagazins Profil, erwägt im Titel seines aktuellen Leitartikels das Undenkbare und sinniert über die demokratischen und humanistischen Werte des Jahrs 2012, ruft sogar eine ganze "Weltregion" an, um dann nach langem, ernsthaften Abwägen angesichts der von Graz dräuenden Weltrevolution eine Antwort zu finden, die ohne Stalin und Pol Pot nicht auskommt: "Nein, darf man nicht." Ich bin beruhigt, wobei eine kleine Unsicherheit bleibt: Denn Rainer relativiert seine Absage als nur "tendenziell negativ". Ein KP-Wahlerfolg noch, und Profil fordert die Vergesellschaftung von Raiffeisen.

Quelle: http://adresscomptoir.twoday.net/stories/219046431/

Weiterlesen

Digitalisierte Landkarten der Sammlung Moll an der MZK / Wienplan von Joseph Anton…

Andreas Praefcke verdanke ich den Hinweis auf das bei Wikisource Wikimedia Commons abgelegte hochauflösende Digitalisat des Wienplans von Joseph Anton Nagel von 1770; dieser ist - zusammen mit Hubers Vogelschauansicht (vgl. 1, 2) - der erste Plan von Wien, der die damals vergebenen Konskriptionsnummern zeigt. Der vorliegende Plan entstammt der an der Moravská zemská knihovna (Brno) digitalisierten Sammlung Moll, die eine ganze Reihe frühneuzeitlicher Wienkarten (und viel anderes) enthält; er umfasst allerdings nur die heutige Innenstadt, die umfangreichere Version, die auch die Wiener Vorstädte enthält, ist in nicht zufriedenstellender Qualität auf der DVD Wien. Stadtpläne und Ansichten ab dem 15. Jahrhundert (vgl.) vorhanden.

Nagel_1770-1773_Versatzamt_MZK

Quelle: http://adresscomptoir.twoday.net/stories/219046159/

Weiterlesen

Robert Knight: Kritik am Historiker Stefan Karner

In seinem Gastkommentar für die Presse steigt Robert Knight in die Niederungen österreichischer Historiographie herab und kommt nach einer Lektüre der Hervorbringungen des ÖVP-Historikers Stefan Karner zum Schluss:
Ob es um Kosaken oder Kärntner Slowenen geht, Karners Pudding riecht stark nach der Bereitschaft, der Macht und den Mächtigen die Reverenz zu erweisen. Unangenehme Fakten – ob über Kroatien 1943/44 oder Kärnten 1958 – gehören jedenfalls nicht dazu.

Quelle: http://adresscomptoir.twoday.net/stories/219045786/

Weiterlesen

Ungezählt, unbekannt, unerforscht. Sechs Jahrzehnte Flugblattsammlung in der Hamburger Arbeitsstelle für Universitätsgeschichte

Anton F. Guhl und Alexandra Jaeger Studierende schreiben. Das haben sie schon immer getan – zumeist jedoch nur in Form von Hausarbeiten oder Klausuren für ihre Lehrenden. Seltener richten sich Studierende an eine Öffentlichkeit und häufig gelangt das, was Studierende … Weiterlesen

Quelle: http://netzwerk.hypotheses.org/1536

Weiterlesen

aussichten Nr. 30 [30.11.2012]: Neue Einträge bei aussichten-online.net; Digest 01.11.2012-30.11.2012

Web 0.0: XML-Print. Ein ergonomisches Satzsystem für komplexe Textstrukturen http://www.aussichten-online.net/2012/11/3204/ www.xmlprint.eu Unter Federführung des Kompetenzzentrums für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften der Universität Trier entstand mit Förderung der Deutschen Forschungsgemeinschaft ein Programm zum Textsatz von XML-Dateien. Das Tool bietet verschiedene Formatierungsmöglichkeiten an, welche über eine XPATH-Anweisung einzelnen Teilen des XML-Baums zugewiesen werden können. […]

Quelle: http://www.einsichten-online.de/2012/11/3644/

Weiterlesen

aventinus antiqua Nr. 20 [30.11.2012]: Gewaltdarstellung bei Thukydides

http://www.aventinus-online.de/altertum/klassik-5087-338-vchr/art/Gewaltdarstellu/html/ca/view Die Schilderung expliziter Gewalt ist ein starkes Stilmittel, das auf die Erzeugung von Affekten beim Leser abzielt. Die Meinung des Rezipienten soll nicht mehr auf logischer, sondern auf der Ebene der Gefühle beeinflusst werden. Im Falle Thukydides’ ist das ereignis- und geistesgeschichtliche Umfeld wichtig.

Quelle: http://www.einsichten-online.de/2012/11/3638/

Weiterlesen

aventinus specialia Nr. 44 [30.11.2012]: Studentisches Publizieren — eine leichte Kunst? Zu den technischen Hintergründen von »aventinus«

http://www.uni-stuttgart.de/hi/edv/Tagungen/2012_AGE.html In einem Vortrag bei der Jahrestagung der Arbeitsgemeinschaft Geschichte und EDV in Stuttgart erläuterte der Geschäftsführende Herausgeber Andreas C. Hofmann die bei der Redaktionsarbeit verwendeten technischen Instanzen von »aventinus. Studentische Publikations­plattform Geschichte«.

Quelle: http://www.einsichten-online.de/2012/11/3630/

Weiterlesen

Scheitern als Chance – Testen durch Fehler

Momentan experimentiere ich mit Marcos Zampieri zu Eigenschaften von brasilianisch-portugiesischen Internettexten. Dabei geht es unter anderem darum, spezifisches Vokabular aus diesen zu extrahieren und anhand dieses Vokabulars die Texte wiederum nach ihrer Internetness zu klassifizieren. Die Studie erscheint demnächst als Paper, hier will ich deswegen nicht über die Ergebnisse schreiben, sondern nur eine (zumindest für uns) lehrreiche Begebenheit aus der Entwicklungsphase schildern.

Aus wissenschaftlichen Veröffentlichungen lässt sich nur in den seltensten Fällen herauslesen, welche Fehlschläge auf dem Weg zu den letztlich öffentlich gemachten Versuchsaufbauten und Ergebnissen die Autoren hinnehmen mussten. Um zu zeigen, dass solche Fehlschläge durchaus fruchtbar sein können, muss ich zunächst etwas weiter ausholen und bei den drei Gütekriterien empirischer Studien beginnen, die ja, wie allgemein bekannt, die folgenden sind:

  • Validität – Misst das gewählte Verfahren tatsächlich das, was es messen soll?
  • Reliabilität – Funktioniert die Messung zuverlässig, sind die Ergebnisse im Wiederholungsfall stabil?
  • Objektivität – Wurden die Ergebnisse unabhängig vom Prüfer erzielt?

Auch wenn man – wie wir – ein Labor gebaut hat, in dem alles, was man experimentell anstellt, protokolliert wird, so dass die Ergebnisse im Normalfall (d.h., wenn man die Ausgangsdaten und die Werkzeuge in den entsprechenden Versionen nicht verlegt) jederzeit reproduziert werden können, sind diese drei Kriterien natürlich nicht automatisch erfüllt.

Wir (Computer)Linguisten wollen z.B. Aussagen über Sprache treffen und analysieren dafür Sprachdaten. Diese Aussagen sind natürlich immer abhängig von der Auswahl der Sprachdaten, die wir getroffen haben. Natürliche Sprachen sind ja leider kein abgeschlossenes System (im Gegensatz z.B. zum Text aus dem Voynich Manuskript, jedenfalls solange dessen fehlende Seiten nicht irgendwo auftauchen). Die Auswahl betrifft vor allem die beiden letzten oben genannten Gütekriterien, die Reliabilität (bleiben die Aussagen gleich, wenn ich eine andere Auswahl treffe) und Objektivität (bleiben die Aussagen gleich, auch wenn jemand anders die Auswahl trifft).

Die Validität betrifft mehr die Werkzeuge, die im Analyseprozess verwendet werden – zunächst einmal müssen sie korrekt funktionieren (wer selbst einmal Algorithmen implementiert hat, weiß wahrscheinlich sehr gut, welche Fehler dabei auftreten können). Darüber hinaus muss aber auch irgendwie festgestellt werden, ob sich die Messungen der gewählten Werkzeuge wirklich dazu eignen, darauf die zu treffenden Aussagen zu gründen.

Im  kombinierten Programmier/Experimentier-Prozess, in dem man sich befindet, wenn man neue Werkzeuge erstellt, die dann auch umgehend für empirische Studien eingesetzt werden, muss man sich überlegen, wie man die Validität denn am besten testen kann. Und um jetzt endlich zum Punkt dieses Artikels zu kommen: Ich möchte hier einen solchen Test beschreiben, der in der Form gar nicht geplant war und nur durch einen Fehler zustande kam.

Um, wie wir das vorhatten, die Internetness von Texten bzw. Dokumenten zu ermitteln, kann man sie z.B. mit einem Referenzkorpus vergleichen und schauen, inwieweit sich Spezifika in Abgrenzung zu diesem ermitteln lassen. Es gibt unterschiedliche Methoden, die Keywordness von einzelnen Termen (Wörtern) zu berechnen, im Bereich des Information Retrieval (also im Umfeld von Suchmaschinen) wird häufig der Quotient aus Termfrequenz und inverser Dokumentfrequenz (TF/IDF) hinzugezogen. Für den Vergleich von Korpora eignet sich unserer Meinung nach die Berechnung der Log-Likelihood-Ratio (LLR) für einzelne Termes besser. Um es ganz simpel zu erklären: Das Vorzeichen der LLR gibt für jeden Term an, ob er stärker mit dem Untersuchungskorpus oder mit dem Referenzkorpus assoziiert ist. Noch einfacher: In welchem Korpus er häufiger vorkommt. Allerdings zählen dabei nicht die absoluten Häufigkeitsunterschiede (welche die frequentesten Wörter, also {und, der, die, das} usw. aufweisen würden), die LLR relativiert diese stattdessen (wie sie das tut, passt gerade nicht hier rein). Summiert man nun die LLR-Werte der Token jedes Korpus-Dokumentes und teilt diese Summe durch die Länge des entsprechenden Dokuments, so erhält man vergleichbare Internetness-Werte für jedes Dokument.


Ein Experiment, das den im Text beschriebenen Workflow über einzelne Komponenten realisiert. Von oben nach unten: Korpora, Tokenizer, Frequenz-Zähler, LLR-Berechner, Ranker für Dokumente (die hier in Paragraphen repräsentiert sind) nach den LLR-Werten ihres Vokabulars.

Auf den ersten Blick war fatal, dass uns der Fehler unterlief, unsere Korpora mit Texten unterschiedlicher Encodings zu bestücken. Das ist für Tesla normalerweise kein Problem, wenn nicht gerade alle zusammen in einem Archiv hochgeladen werden, was wir aber getan haben. Das Resultat war, dass alle Wörter mit Umlauten im Internet-Korpus korrekt dargestellt wurden, diese aber im Referenz-Korpus nie auftauchten, weil dessen Encoding zerschossen war. Resultat war, dass não (portugiesisch für nein, falsch encodiert não), offenbar in unserem Korpus das frequenteste Wort mit Sonderzeichen, den höchsten LLR-Wert erhielt. Texte, die lediglich aus não bestanden, bekamen deshalb den höchsten Wert für ihre Internetness.

Das Ergebnis entsprach natürlich keinesfalls dem, das wir erhalten wollten, dennoch hatte die Tatsache, dass wir einen so blöden Fehler gemacht hatten, auch einen gewichtigen Vorteil: Dadurch, dass wir ein so falsches, aber absolut nachvollziehbares Ergebnis erhielten, konnten wir Rückschlüsse bezüglich der Validität des Verfahrens bzw. die Richtigkeit der Algorithmen-Implementationen innerhalb der Komponenten ziehen: Wir hatten genau das gemessen, was aufgrund unseres Fehlers gemessen werden musste. Den Fehler konnten wir einfach korrigieren, die Ergebnisse veränderten sich dementsprechend – auch wenn sie weiterhin bemerkenswerte, durch die Korporaauswahl bedingte, Artefakte enthalten (da muss ich allerdings auf die wissenschaftliche Veröffentlichung vertrösten). Wir waren in einem ersten Versuch gescheitert, aber gerade dieses Scheitern hatte uns einen relativ starken Hinweis auf die Validität unseres Verfahrens gegeben. Und ich finde, das ist schon einen Blogpost wert, zumal solche produktiven Fehlschläge nur sehr selten Platz in wissenschaftlichen Veröffentlichungen finden.

 

 

Quelle: http://texperimentales.hypotheses.org/620

Weiterlesen

Vor Google-Band erschienen

vorgoogleIch frohlocke, denn das Papieruniversum ist um ein Buch reicher geworden. Seit heute vormittag halte ich in den Händen:

Brandstetter, Thomas/Hübel, Thomas/Tantner, Anton (Hg.): Vor Google. Eine Mediengeschichte der Suchmaschine im analogen Zeitalter. Bielefeld: Transcript, 2012. 262 S., ISBN 978-3-8376-1875-4, Euro 29,70 (A) [Verlags-Info mit Kurz-Interview, Buchhandel.de, Amazon]

Das Buch in einem Satz:
Das digitale Zeitalter beginnt seine Vorgeschichte zu schreiben: Kammerdiener, Zeitungskomptoire, Kanontafeln, Staatshandbücher, Zettelkästen und Zitationsindizes werden zu den neuen Helden der Historiographie.

Die Verlagsankündigung:
Ein Alltag ohne digitale Suchmaschinen ist heute nur noch schwer vorstellbar. Dabei lassen sich zahlreiche Einrichtungen, Personen und Techniken ausmachen, die lange vor Google und Co. ähnliche Funktionen übernommen haben - Staatshandbücher und Diener etwa, aber auch Bibliothekskataloge, Fragebögen oder Zeitungskomptoire.
Welche strukturellen Ähnlichkeiten gibt es zwischen diesen früheren und den heutigen Suchmaschinen? Welche Utopien knüpften sich an die Suchmaschinen des analogen Zeitalters? Welche Formen von Kontrolle ermöglichten sie? Das Buch widmet sich diesen und weiteren Fragen und liefert damit nicht nur neue Erkenntnisse über die Medien der Vergangenheit, sondern vertieft auch die Analysen der gegenwärtigen medialen Lage.


Das Inhaltsverzeichnis:

Einleitung (PDF)
Thomas Brandstetter, Thomas Hübel, Anton Tantner

Ordnung ist das halbe Leben. Zur Ökonomie von Benamung und Suche
Stefan Rieger

»Wende sie um und um, denn alles ist in ihr.« Über das Suchen in heiligen Texten
Daniel Weidner

Fragen ohne Antworten. Die Suche nach lokalen Informationen in der frühen Aufklärung
Alix Cooper

Herrschaftsordnung, Datenordnung, Suchoptionen. Recherchemöglichkeiten in Staatskalendern und Staatshandbüchern des 18. Jahrhunderts
Volker Bauer

Das Zeitungskomptoir als Informationsdrehscheibe. Michael Hermann Ambros und seine Grazer Anzeigenblätter
Andreas Golob

Ask Jeeves. Der Diener als Informationszentrale
Markus Krajewski

Suchen und Finden. Notizführung und Grammatik bei Theodor Nöldeke
Henning Trüper

Vannevar Bush und die Technikutopie Memex. Visionen einer effizienten Speicherung und Verfügbarmachung von Information
Martin Schreiber

Zentralität und Sichtbarkeit. Mathematik als Hierarchisierungsinstrument am Beispiel der frühen Bibliometrie
Bernhard Rieder

Einen Preis für Gendergerechtigkeit werden wir bei genau einer im Band vertretenen Autorin dafür leider nicht bekommen, aber wir können für uns anführen, dass wir uns um manche Autorinnen persönlich bemüht haben, diese dann aber doch abgesprungen sind.

Digital verfügbar ist die Leseprobe (PDF) mit Inhaltsverzeichnis und Vorwort, vielleicht wird ja die Zukunft zeigen, welche weiteren elektronischen Versionen Transcript noch anbieten wird.

Quelle: http://adresscomptoir.twoday.net/stories/219045203/

Weiterlesen