Scheitern als Chance – Testen durch Fehler

Momentan experimentiere ich mit Marcos Zampieri zu Eigenschaften von brasilianisch-portugiesischen Internettexten. Dabei geht es unter anderem darum, spezifisches Vokabular aus diesen zu extrahieren und anhand dieses Vokabulars die Texte wiederum nach ihrer Internetness zu klassifizieren. Die Studie erscheint demnächst als Paper, hier will ich deswegen nicht über die Ergebnisse schreiben, sondern nur eine (zumindest für uns) lehrreiche Begebenheit aus der Entwicklungsphase schildern.

Aus wissenschaftlichen Veröffentlichungen lässt sich nur in den seltensten Fällen herauslesen, welche Fehlschläge auf dem Weg zu den letztlich öffentlich gemachten Versuchsaufbauten und Ergebnissen die Autoren hinnehmen mussten. Um zu zeigen, dass solche Fehlschläge durchaus fruchtbar sein können, muss ich zunächst etwas weiter ausholen und bei den drei Gütekriterien empirischer Studien beginnen, die ja, wie allgemein bekannt, die folgenden sind:

  • Validität – Misst das gewählte Verfahren tatsächlich das, was es messen soll?
  • Reliabilität – Funktioniert die Messung zuverlässig, sind die Ergebnisse im Wiederholungsfall stabil?
  • Objektivität – Wurden die Ergebnisse unabhängig vom Prüfer erzielt?

Auch wenn man – wie wir – ein Labor gebaut hat, in dem alles, was man experimentell anstellt, protokolliert wird, so dass die Ergebnisse im Normalfall (d.h., wenn man die Ausgangsdaten und die Werkzeuge in den entsprechenden Versionen nicht verlegt) jederzeit reproduziert werden können, sind diese drei Kriterien natürlich nicht automatisch erfüllt.

Wir (Computer)Linguisten wollen z.B. Aussagen über Sprache treffen und analysieren dafür Sprachdaten. Diese Aussagen sind natürlich immer abhängig von der Auswahl der Sprachdaten, die wir getroffen haben. Natürliche Sprachen sind ja leider kein abgeschlossenes System (im Gegensatz z.B. zum Text aus dem Voynich Manuskript, jedenfalls solange dessen fehlende Seiten nicht irgendwo auftauchen). Die Auswahl betrifft vor allem die beiden letzten oben genannten Gütekriterien, die Reliabilität (bleiben die Aussagen gleich, wenn ich eine andere Auswahl treffe) und Objektivität (bleiben die Aussagen gleich, auch wenn jemand anders die Auswahl trifft).

Die Validität betrifft mehr die Werkzeuge, die im Analyseprozess verwendet werden – zunächst einmal müssen sie korrekt funktionieren (wer selbst einmal Algorithmen implementiert hat, weiß wahrscheinlich sehr gut, welche Fehler dabei auftreten können). Darüber hinaus muss aber auch irgendwie festgestellt werden, ob sich die Messungen der gewählten Werkzeuge wirklich dazu eignen, darauf die zu treffenden Aussagen zu gründen.

Im  kombinierten Programmier/Experimentier-Prozess, in dem man sich befindet, wenn man neue Werkzeuge erstellt, die dann auch umgehend für empirische Studien eingesetzt werden, muss man sich überlegen, wie man die Validität denn am besten testen kann. Und um jetzt endlich zum Punkt dieses Artikels zu kommen: Ich möchte hier einen solchen Test beschreiben, der in der Form gar nicht geplant war und nur durch einen Fehler zustande kam.

Um, wie wir das vorhatten, die Internetness von Texten bzw. Dokumenten zu ermitteln, kann man sie z.B. mit einem Referenzkorpus vergleichen und schauen, inwieweit sich Spezifika in Abgrenzung zu diesem ermitteln lassen. Es gibt unterschiedliche Methoden, die Keywordness von einzelnen Termen (Wörtern) zu berechnen, im Bereich des Information Retrieval (also im Umfeld von Suchmaschinen) wird häufig der Quotient aus Termfrequenz und inverser Dokumentfrequenz (TF/IDF) hinzugezogen. Für den Vergleich von Korpora eignet sich unserer Meinung nach die Berechnung der Log-Likelihood-Ratio (LLR) für einzelne Termes besser. Um es ganz simpel zu erklären: Das Vorzeichen der LLR gibt für jeden Term an, ob er stärker mit dem Untersuchungskorpus oder mit dem Referenzkorpus assoziiert ist. Noch einfacher: In welchem Korpus er häufiger vorkommt. Allerdings zählen dabei nicht die absoluten Häufigkeitsunterschiede (welche die frequentesten Wörter, also {und, der, die, das} usw. aufweisen würden), die LLR relativiert diese stattdessen (wie sie das tut, passt gerade nicht hier rein). Summiert man nun die LLR-Werte der Token jedes Korpus-Dokumentes und teilt diese Summe durch die Länge des entsprechenden Dokuments, so erhält man vergleichbare Internetness-Werte für jedes Dokument.


Ein Experiment, das den im Text beschriebenen Workflow über einzelne Komponenten realisiert. Von oben nach unten: Korpora, Tokenizer, Frequenz-Zähler, LLR-Berechner, Ranker für Dokumente (die hier in Paragraphen repräsentiert sind) nach den LLR-Werten ihres Vokabulars.

Auf den ersten Blick war fatal, dass uns der Fehler unterlief, unsere Korpora mit Texten unterschiedlicher Encodings zu bestücken. Das ist für Tesla normalerweise kein Problem, wenn nicht gerade alle zusammen in einem Archiv hochgeladen werden, was wir aber getan haben. Das Resultat war, dass alle Wörter mit Umlauten im Internet-Korpus korrekt dargestellt wurden, diese aber im Referenz-Korpus nie auftauchten, weil dessen Encoding zerschossen war. Resultat war, dass não (portugiesisch für nein, falsch encodiert não), offenbar in unserem Korpus das frequenteste Wort mit Sonderzeichen, den höchsten LLR-Wert erhielt. Texte, die lediglich aus não bestanden, bekamen deshalb den höchsten Wert für ihre Internetness.

Das Ergebnis entsprach natürlich keinesfalls dem, das wir erhalten wollten, dennoch hatte die Tatsache, dass wir einen so blöden Fehler gemacht hatten, auch einen gewichtigen Vorteil: Dadurch, dass wir ein so falsches, aber absolut nachvollziehbares Ergebnis erhielten, konnten wir Rückschlüsse bezüglich der Validität des Verfahrens bzw. die Richtigkeit der Algorithmen-Implementationen innerhalb der Komponenten ziehen: Wir hatten genau das gemessen, was aufgrund unseres Fehlers gemessen werden musste. Den Fehler konnten wir einfach korrigieren, die Ergebnisse veränderten sich dementsprechend – auch wenn sie weiterhin bemerkenswerte, durch die Korporaauswahl bedingte, Artefakte enthalten (da muss ich allerdings auf die wissenschaftliche Veröffentlichung vertrösten). Wir waren in einem ersten Versuch gescheitert, aber gerade dieses Scheitern hatte uns einen relativ starken Hinweis auf die Validität unseres Verfahrens gegeben. Und ich finde, das ist schon einen Blogpost wert, zumal solche produktiven Fehlschläge nur sehr selten Platz in wissenschaftlichen Veröffentlichungen finden.

 

 

Quelle: http://texperimentales.hypotheses.org/620

Weiterlesen

Ein Jahr Blogger

Vor etwas mehr als einem Jahr, am 26.10.2011, habe ich – damals noch auf der Plattform Posterous - meinen ersten wissenschaftlichen Blogpost geschrieben. Wie ich genau darauf gekommen bin, mit dem Bloggen anzufangen, weiß ich bis heute nicht genau. Vielleicht lag es vor allem daran, dass ich kurz vorher meine Dissertation abgegeben hatte und irgendeine Form von Kompensation brauchte, meine Schreiblücke aufzufüllen. Ein weiterer Grund war sicherlich, dass ich Werbung machen wollte für Tesla, also die Software, die wir im Zug zweier paralleler Dissertationen an unserem Lehrstuhl entwickelt hatten. Zwar hatten wir das System schon auf diversen Konferenzen vorgestellt, Artikel verfasst und eine verhältnismäßig gut dokumentierte Webseite [just heute migrieren wir auf einen neuen Server, sorry, Link schalte ich morgen wieder frei] angelegt, irgendwie hatte ich aber das Gefühl, dass ich mehr Leute von unserem Konzept, empirisch-experimentelle Wissenschaft über Textdaten zu betreiben, erreichen könnte, würde ich nur neue Kommunikationskanäle nutzen (fast genau ein Jahr vorher bin ich zum Twitterer geworden, aber die Geschichte erzähle ich demnächst woanders).

Tatsächlich bloggte ich anfangs wohl vor allem für mich und vielleicht für ein paar Student|inn|en, die daran interessiert waren, was ihr Dozent so treibt, wenn er sie nicht gerade mit Unterricht belästigt (mit, ich habe mit geschrieben). Allerdings ist es mir aber nach und nach gelungen (da hat sicher auch mein Twitter-Profil viel beigetragen), mehr Interessenten auf die Seite zu locken und teilweise wurde gar kommentiert, u.a. auch von Mareike König, die ja bekanntermaßen das Sprachrohr dieser Plattform hier ist. Als de.hypotheses dann im Frühjahr diesen Jahres an den Start ging, bekam ich das (Twitter) mit und fand das Konzept einer geisteswissenschaftlichen Blogplattform so stimmig, dass ich mich fast umgehend darum bewarb, dorthin wechseln zu dürfen.

Ich habe diesen Entschluss bisher noch zu keinem Zeitpunkt bereut – die Plattform ist phantastisch betreut, bei Problemen erhält man umgehend Rückmeldung (Twitter) und Hilfe und man muss nicht mehr ganz allein die Werbetrommel für seinen Blog rühren (Twitter), tatsächlich bekommt man auch eine Menge Laufkundschaft dadurch, dass die eigenen Artikel auf der Protalseite verlinkt sind. Nicht zu unterschätzen ist auch, dass man weiß, dass das, was man so im Blog verbricht, zumindest von der hypotheses-Redaktion gelesen wird. Bei Gefallen bekommt man einen prominenten Platz auf der Portalseite, was zumindest mich zusätzlich anspornt (mit meinem ersten Artikel hier bin ich sogar Headliner mit unterlegtem Bild geworden; ich schiebe es mal darauf, dass es da noch nicht viele Blogs gab…). Ein weiterer Vorteil wäre die Vernetzung mit anderen Bloggern aus der Linguistik/Computerlinguistik-Szene, wenn es die hier denn geben würde. Noch bin ich vor allem von Historikern umgeben, aber vielleicht ändert sich das ja noch (Und ja, das ist ein Aufruf!).

Die Vergrößerung der Reichweite meines Blogs über die letzten Monate kann ich mir über das Analysetool von WordPress selbst anschauen, allerdings ist immer schwer zu ermitteln, ob sich gerade wirkliche Besucher auf meine Seite verirrt haben, oder ob sich lediglich ein paar Bots austoben. Wichtiger sind da Retweets meiner Werbetweets von anderen Twitter-Nutzern, Likes bei Facebook, +1en bei Google+, vor allem aber Pingbacks aus anderen Blogs, Empfehlungen auf anderen Plattformen (Webwatch auf spektrum.de) und – nicht zu vergessen – Leser-Kommentare, die mir zeigen, dass sich tatsächlich echte Menschen mit den von mir geäußerten Gedanken befassen. Wirklich geadelt fühlte ich mich, als ein Beitrag für gut genug befunden wurde, um bei den Scilogs zu erscheinen.

Inzwischen nutze ich Links auf einzelne Blogposts oft dazu, potentiell an unserer Software Tesla Interessenten einen ersten Eindruck zu geben, was genau die Vorteile sind, wenn man sich darauf einlässt, unser virtuelles Labor zu nutzen. Oder um meine Theorie zur Entstehung des Textes im Voynich-Manuskript knapp zu erläutern. Oft – wie gerade jetzt – verfalle ich auch ins Meta-Bloggen, also in die bloggende Betrachtung des Bloggens selbst. Ich verspreche aber, dass ich mich in nächster Zeit wieder um Sachthemen aus meinem angestammten Wissenschaftsbereich kümmern werde. Bloggen macht Spaß, darf aber nicht zum Selbstzweck werden…

Quelle: http://texperimentales.hypotheses.org/572

Weiterlesen

Plagiatsverwirrung leichtgemacht

Ich bin mir immer noch nicht sicher, wie ich mich zum Plagiatsfall der Bundesministerin für Bildung und Forschung, Annette Schavan, stellen soll. Als der Fall öffentlich wurde, habe ich mir ungefähr die Hälfte der damals angezeigten Fundstellen für Plagiate angeschaut und nichts besonders Weltbewegendes gefunden. Deshalb hatte ich der Bundesministerin vorerst abgenommen, dass sich die “Unsauberkeiten”, zu denen etwa Zitate aus zweiter Hand gehörten, durch die damalige Arbeitsweise mit Zettelkasten statt Rechnerunterstützung ergaben. Auch wenn ich mir jetzt einzelne Fundstellen im eigens für die Untersuchung dieser Dissertation eingerichteten Schavanplag ansehe, finde ich vor allem Grenzfälle zum Plagiat, die mit Sicherheit in jeder wissenschaftlichen Arbeit vorkommen, die aber bei gehäuften Auftreten gewiss auf die ein oder andere Art sanktioniert werden müssten.

Der Fall Schavan ist kein Fall Guttenberg, heißt es immer wieder und das ist natürlich richtig. Das ist allerdings auch eine Nullaussage – kein Fall, der auf der Plattform Vroniplag untersucht wurde, kommt auch nur in die Nähe der phantastischen Arbeit des ehemaligen Verteidigungsministers, die ich nach wie vor eher für ein Kollagenkunstwerk denn für irgend etwas anderes halte. Das wird besonders deutlich, wenn man die Daten auf eine geeignete Weise visualisiert bekommt, wie das etwa der “User 8″ im Guttenplagwiki gemacht hat:


Visualisierung der Fundstellen in Guttenbergs Dissertation, Quelle: http://images2.wikia.nocookie.net/__cb20110403154536/guttenplag/de/images/8/86/Thumb_xxl.png

Visualisierungen sind natürlich immer nur Abstraktionen der eigentlichen Daten, die uns aber bei der Interpretation helfen können (auch Tesla, unser Programm zur Textprozessierung, verfügt deswegen über eine Reihe von Visualisieren, die ich hier schon einmal vorgestellt habe).

Solche Vereinfachungen der Datenlage sind aber auch gefährlich, wie ein aktuelles Beispiel aus der Online-Ausgabe der Süddeutschen zeigt: Offenbar völlig losgelöst von der Arbeit, die bei Schavanplag öffentlich und nachvollziehbar geleistet wurde, verlinkt der betreffende Artikel eine anscheinend in Eigenregie erstellte “Interaktive Grafik”, die im guten Fall nur Naivität der Onlineredaktion ausdrückt, im schlechten Fall dazu dienen soll, die Öffentlichkeit über den Fall Schavan bewusst irrezuführen.

Insgesamt werden 10 Seiten der Dissertation von Frau Schavan “Originalquellen” gegenübergestellt. Durch gelbe und graue Unterlegungen sollen dabei “textidentische” und “geringfügig abweichende Entsprechungen” kenntlich gemacht werden. Betrachtet man die erste der aufgeführten Seiten näher, wird einem bewusst, was für einen Bock die Süddeutsche hier geschossen hat:

“Interaktive” Gegenüberstellung der Dissertation von Schavan mit “Originalquellen”, Seite 62 auf sueddeutsche.de

Bemerkenswert ist zunächst, dass die Seite 62 im Schavanplag überhaupt nicht als Seite auftaucht, die ein mögliches Plagiat enthält. Haben da die investigativen Süddeutsche-Leute etwa präziser gearbeitet als das Wiki-Kollektiv? Mitnichten – wenn man einen genaueren Blick auf die Gegenüberstellung wirft, fällt einem auf, dass die Originalquellen hier zwei Texte von Luhmann sind, die gleich mehrfach von Frau Schavan referenziert werden, sowohl im Text (“will Niklas Luhmann”, “Luhmann äußert”), als auch in Fußnoten (genaue Angaben der Werke inkl. Seitenzahlen; nicht im Bild). Die Übernahme bzw. Klärung von Luhmanns Schlüsselbegriffen (einzelne Wörter!) als Plagiat zu kennzeichnen ist genauso lächerlich wie gefährlich – was sollen denn die armen jungen Menschen denken, die wissenschaftliche Arbeiten verfassen müssen und dann mit sowas konfrontiert werden?

Ich weiß nicht, was die Süddeutsche in dem Fall geritten hat – wie geschrieben basiert das Ganze im besseren Fall auf einem Versehen, im weniger verzeihlichen Fall auf Ahnungslosigkeit. Im Kontext des einbettenden Artikels könnte man auch auf die Idee kommen, dass die Süddeutsche hier die Öffentlichkeit bewusst verwirren will, um den Fall Schavan mit unlauteren Mitteln zu verharmlosen.

Über die Reaktion der Süddeutschen berichtet ein Update-Artikel, außerdem wurde die chronologische Entwicklung in einem Storify zusammengestellt.

 

Quelle: http://texperimentales.hypotheses.org/543

Weiterlesen

Traut euch!

Wer hier öfter mal reinschaut, wird mitbekommen haben, dass mein letzter größerer Post nicht hier veröffentlicht wurde, sondern Ende letzter Woche als Gastbeitrag im Fischblog, dem Blog von Lars Fischer bei den Scilogs erschien. Hintergrund der Aktion war, dass Lars über Twitter Geisteswissenschaftler dazu aufgerufen hatte, Gastbeiträge einzureichen, um damit ihr Fachgebiet einem größeren (und vorwiegend naturwissenschaftlich orientierten) Publikum näherzubringen.

Ich habe diese Aufforderung gerne angenommen, auch weil ich ein regelmäßiger Leser des Fischblogs bin (Untertitel:”Wissenschaft für alle”), wo Themen aus den unterschiedlichsten Spektren unterhaltsam aufbereitet werden, aber zugleich so informativ sind, dass man nach der Lektüre zumindest glaubt, beim nächsten Gespräch darüber mitreden zu können. Als es noch Ranglisten zur Beliebtheit und Reichweite wissenschaftlicher Blogs gab (ich finde jedenfalls keine mehr, die nach September 2011 erschienen ist), war der Fischblog immer mit vorne dabei. Ich sah es daher als eine Herausforderung an, etwas für diesen Blog zu schreiben, und als eine Ehre, falls das dann auch angenommen würde.

Für mich bot sich durch die Aktion auch die Gelegenheit, noch einmal einen Bogen zu schlagen über die Posts, die ich hier vorher veröffentlicht hatte und dabei die Grundlagen darzustellen, auf denen ich meine wissenschaftliche Arbeit aufbaue. Das war nicht gerade einfach – ich hatte eben nur diesen einen Schuss (Gastbeitrag) frei, in dem das gelingen musste. Tatsächlich wurde es so auch der Artikel, an dem ich am längsten gearbeitet habe, als ich mich fertig wähnte, hat Lars noch einige Einwände gehabt, die allesamt berechtigt waren und deren Beherzigung den Artikel noch den letzten Schliff gaben. Letzten Freitag ging der Artikel dann online und ich durfte ihn selbst mitankündigen:

Was lange währt, spuckt endlich Blut – der @fischblog hat tatsächlich meinen Gastbeitrag veröffentlicht – scilogs.de/wblogs/blog/fi…

— jhermes (@spinfoCL) September 14, 2012

Ich bin wirklich froh, den Schritt auf die (für mich) großen Scilogs gegangen zu sein, obwohl ich mich hier, beim (noch) kleinen Schwesterportal de.hypotheses, weiterhin sehr wohl, weil gut betreut fühle.

Mit einem Mal hatte sich meine Reichweite vervielfacht. Während ich hier positiv geschätzt (wenn man das Grundrauschen abzieht) vielleicht 200 Leser bzw. Klicks pro Post habe, waren es jetzt auf den Scilogs mehr als 1500. Seit ich bei de.hypotheses bin, muss ich nicht mehr alleine auf meine Posts aufmerksam machen (was übrigens auch ein guter Grund ist, hierher zu wechseln), von 37 Tweets bzw. Retweets auf Twitter bin ich aber sonst weit entfernt. Zumal eine Reihe von Tweets auch mit lobenden Kommentaren versehen waren, habe ich mich sehr darüber gefreut.

Der Austausch mit Lars, der eine explizit naturwissenschaftliche Position in der Auseinandersetzung auf meinen Text eingenommen hat, war sehr fruchtbar. Sowohl für das Hinterfragen der eigenen Grundlagen, als auch in der Verteidigung unserer Art, Wissenschaft zu betreiben. Hier, bei de.hypotheses ist ein tolles Blogportal entstanden, in dem wir Geisteswissenschaftler in unseren schon sehr heterogenen Forschungsbereichen austauschen können und wo wir uns gegenseitig über die Schultern schauen lassen. Dort, bei den Scilogs, möchte der Fischblog uns die Möglichkeit bieten, unsere wissenschaftliche Arbeit einem größeren, eher naturwissenschaftlich geprägten Publikum, zugänglich zu machen. Ich habe meinen Gastbeitrag mit der Feststellung begonnen, dass Geisteswissenschaft bei vielen Naturwissenschaftlern einen schweren Stand hat und dass ich den gerne verbessern würde. Kann ich aber natürlich nicht alleine – wenn überhaupt (bin ja nur Computerlinguist) habe ich allenfalls eine kleine Stehhilfe bauen können, zumindest waren die ersten Reaktionen positiv. Deshalb fände ich es schön, wenn noch weitere Geisteswissenschaftler diesem Aufruf folgen würden:

Der Gastbeitrag von @spinfocl war ein voller Erfolg. scilogs.de/wblogs/blog/fi… Suche weiterhin Gastbeitrag-willige Geisteswissenschaftler. #blog

— Lars Fischer (@Fischblog) September 17, 2012

Wenn ich die Reaktionen meiner Redaktion hier richtig gedeutet habe, ist sie auch nicht böse, wenn man diese Plattform vorübergehend untreu wird. Schließlich ist ein Blogpost ja auch immer Werbung – für das Blogportal, für den eigenen Forschungsbereich, für den eigenen wissenschaftlichen Ansatz und – natürlich – auch für sich selbst. Also: Traut euch!

Lars Fischer ist ganz einfach über www.scilogs.de oder seinen Twitteraccount @Fischblog zu erreichen.

 

Quelle: http://texperimentales.hypotheses.org/506

Weiterlesen

Der virtuelle Selbstbedienungsladen

Bis zum Semesterstart bei uns ist es ja noch etwas hin, was jetzt sicher nicht jeden todtraurig macht. Während die Universität allmählich aus dem Sommerschlaf erwacht (naja, bei uns an der Uni Köln war nicht viel mit Ruhe, da momentan an jeder Ecke lautstark gebaut wird), beginnt für viele wahrscheinlich gerade die heiße Phase der abzugebenden oder zu korrigierenden Hausarbeiten und/oder Wiederholungsklausuren. Vielleicht besucht auch der eine oder die andere für das Studium vorgeschriebene Propädeutikveranstaltungen oder bildet sich über Ferienkurse weiter, wie sie z.B. von unserem Rechenzentrum angeboten werden.

Neben diesen Angeboten, die nur lokal verfügbar sind (und die man – zumindest offiziell nur nutzen kann, wenn man Angehörige|r der diese Kurse anbietenden Institution ist), bietet auch unsere vernetzte Welt inzwischen sehr lohnenswerte Möglichkeiten zum akademischen Zeitvertreib. Apple, stets bestrebt, den Austausch sämtlicher Medien über die iTunes-Plattform zu kontrollieren, bietet etwa mit iTunes U eine inzwischen fast unüberschaubare Fülle von universitären Veranstaltungen in den verschiedensten Formaten (Vorlesungsskript, Folienpräsentation, Audio- und Video-Podcasts) an. Auch die Universität zu Köln mischt da inzwischen mit, ihr Angebot ist allerdings noch ausbaufähig.

Was bei diesen Angeboten fehlt, ist eine interaktive Komponente, die Vermittlung von Wissen ist auf eine Art Fernsehschauen reduziert. Für bestimmte Arten von Veranstaltungen mag das ausreichend sein, andere leben aber davon, dass Fragen gestellt werden können, dass Lernfortschritte von beiden Seiten (Lehrende und Lernende) durch Hausaufgaben oder Klausuren überprüft werden und dass Teilnehmer|innen unter sich und mit der Dozentin bzw. dem Dozenten ins Gespräch kommen. Sehr interessant ist da z.B. der Ansatz, den Christian Spannagel mit seinem “inverted classroom” verfolgt: Er hat seine Mathevorlesung in einem früheren Semester aufgezeichnet, seitdem müssen sich die Teilnehmer|innen diese zu bestimmten Terminen anschauen und Aufgaben lösen, die den dort behandelten Stoff betreffen. Die gemeinsam verbrachte Zeit, die sonst für die Vermittlung des immer gleichen Stoffs draufgegangen ist, steht jetzt zur Verfügung, um Fragen zu den behandelten Themen zu klären und darüber zu diskutieren. Ich könnte mir gut vorstellen, etwas ähnliches irgendwann mal bei meiner Einführung in die Computerlinguistik oder bei unserem Java-Programmierkurs zu versuchen.

Worauf ich eigentlich hinauswollte (mal wieder gerät eine Hinführung zu meinem intendierten Blogthema länger als geplant) ist die Vorstellung zweier Plattformen, auf denen komplette (bisher lediglich englischsprachige) Online-Kurse besucht werden können: Udacity und Coursera. Während die Kurse bei Udacity momentan noch sehr auf technische Themen beschränkt sind, stellt sich Coursera bereits etwas breiter auf, insgesamt kann man Kurse aus 16 Kategorien belegen, die von (zufällig auch) 16 verschiedenen Universitäten angeboten werden.


Die 16 Universitäten, die bei Coursera mitmachen – auch die Ivy-League ist vertreten.

Ich selbst habe sehr gute Erfahrungen mit dem Kurs Natural Language Processing” von den beiden NLP-Koryphäen Dan Jurafsky und Christopher Manning (Stanford University) gemacht. Gut, ich war jetzt nicht die direkte Zielgruppe (schließlich bin ich kein Undergraduate mehr), dennoch hatte ich viel Freude bei der Sichtung der Videos mit den beiden Dozenten, der Lösung der Programmieraufgaben und der Mini-Klausuren, die jede Woche gestellt wurden. Eine starke Motivation, die Aufgaben möglichst gut und vor allem rechtzeitig einzureichen war, dass es ansonsten Punktabzüge setzte. Das wollte ich tunlichst vermeiden, weil es irgendwie meinen Sportsgeist herausgefordert hatte, den Kurs möglichst gut zu bestehen. Klar musste ich auch abwägen zwischen Aufwand und Ertrag, so dass ich nicht jede Programmieraufgabe bis zur 100%-Bewertung optimiert hatte, dennoch bin ich mit dem Ergebnis, das bei mir auf dem am Ende des Kurses verschickte Diplom steht, größtenteils zufrieden.

Um das Diplom ging es mir aber gar nicht, vielmehr wollte ich erstens die Möglichkeiten eines Online-Kurses einmal selbst an einem konkreten Beispiel testen, zweitens meine Vermittlungsmethoden und den Aufbau meines Kurses hinterfragen und eventuell neu ausrichten. Dass ich dafür ein Angebot von zwei der bekanntesten und didaktisch wirklich verdammt guten Computerlinguisten nutzen konnte, hätte ich vor einiger Zeit auch nicht gedacht – das ist eben eine Möglichkeit, die ich erst seit Coursera habe. Klar werde ich den Kurs nicht 1:1 übernehmen – nicht alle meine Studierenden können bereits programmieren, wenn sie meine Veranstaltung belegen, außerdem setzt der NLP-Kurs bereits die Kenntnis linguistischer Einheiten voraus, was bei mir nicht möglich ist. Aber einiges werde ich tatsächlich, v.a. in den zweiten Teil meiner Veranstaltung, einbauen können. Und ich werde allen, die bei uns die Basismodule zusammenhaben, empfehlen, die nächste Ausgabe des NLP-Kurses zu besuchen.

Die Frage ist natürlich, ob über solche Plattformen den Unis (und damit auch mir) das Wasser abgegraben wird, weil die Kundschaft (die Studierenden) ins Netz abwandern könnte, statt sich zur bisweilen nachtschlafender Uhrzeit in überfüllten und schlecht gelüfteten Seminarräumen mit weniger koryphäigen Dozent|inn|en herumzuschlagen. Ich würde diese Frage mit nein beantworten (klar, sonst hätte ich hier nicht so einen positiven Post drüber geschrieben). Nein, das Internet und seine Möglichkeiten werden natürlich nicht davor halt machen, auch die altehrwürdigen Universitäten umzukrempeln. Diese müssen einfach nur die Chancen ergreifen, die sich dadurch bieten – Die Vermittlung von Wissen kann tatsächlich zu einem (vielleicht sogar zum größten) Teil virtuell erfolgen. Was aber Jurafsky und Manning nicht leisten konnten, war, mit ihren (mehr als 3000 aktiven) Online-Studierenden ins Gespräch zu kommen, Abschnitte, die nicht verstanden wurden, auf eine andere Weise zu erklären, zu diskutieren, welche weitere Arten der Anwendung es für bestimmte Algorithmen geben könnte usw. usf. Solcherlei Dinge wurden zwar teilweise durch ein gut moderiertes Diskussionsforum aufgefangen, die meiner Meinung nach eine persönliche Betreuung nie ganz ersetzen können wird.

Wer sich jetzt fragt, warum ich hier über einen Kurs erzähle, der schon gelaufen ist und dessen nächster Termin noch gar nicht feststeht, dem sei gesagt, dass auf den beiden genannten Plattformen laufend neue Kurse starten, morgen z.B. eine – den Verlautbarungen in der Ankündigung nach zu urteilen – sehr grundlegende Einführung in die Statistik. Auch wenn ich auf dem Gebiet bereits über ein wenig Vorbildung verfüge, schaue ich dort mal hinein – irgendwie hab ich mir das meiste selbst beigebracht – eine strukturierte Einführung dürfte da nicht schaden, zumal für den Kurs auch nur überschaubare 6 Wochen angesetzt sind. Vielleicht trifft man sich ja dort im Forum. :)

 

 

 

Quelle: http://texperimentales.hypotheses.org/430

Weiterlesen

Wie man Äpfel mit Birnen vergleicht

Zur Abwechslung unternehme ich heute mal einen Ausflug in die Statistik. Ein Anlass dafür ist eine Diskussion auf Twitter, die ich kurz vor meinem Urlaub geführt habe (s.u.), ein anderer der, dass ich manchmal eine große Diskrepanz wahrnehme, zwischen der Rolle, die statistische Aussagen inzwischen in fast sämtlichen Forschungsbereichen spielen und dem Unverständnis, das dem Gebiet von weiten Teilen der Bevölkerung (darunter auch viele Wissenschaftler, die es eigentlich besser wissen müssten) entgegengebracht wird. Falsch angewendete quantitative Verfahren sind vielleicht auch mit ein Grund für Rants wie diesen, in dem statistischen Aussagen die potentielle Erklärkraft für die Geistes- und Sozialwissenschaften abgesprochen wird.

So tief will ich jetzt gar nicht in die Diskussion einsteigen (vielleicht mal in einem eigenen Post, der zoonpoliticon von den ScilogsenceBlogs ist auch schon darauf eingegangen). Vielmehr beschäftige ich mich mal mit dem geflügelten Wort, dass man Äpfel nicht mit Birnen vergleichen kann. Was ist, wenn man tatsächlich vor einem Problem steht, genau dies tun zu müssen? Wenn ich z.B. aus einer Sammlung von 50 Äpfeln und 33 Birnen, 10 Früchte auswählen darf und ich genau die besten Früchte erwischen will? Gibt es da nicht eine Methode, die mir die 10 besten Früchte ermittelt?

Nun ja, dazu benötigt man erst einmal ein Merkmal, das eine gute Frucht von schlechteren unterscheidet. Das ist in der Realität wahrscheinlich schlecht zu ermitteln, da dies hier ja nur ein Blogbeitrag ist (der mit der Realität also herzlich wenig zu tun hat) kann ich mir einfach ein solches Merkmal ausdenken. Möglich wäre z.B. ein schön ausgewogenes Verhältnis zwischen Fruchtumfang und Höhe. Oder eine besonders rothaltige Farbe. Oder eben ein möglichst hoher Fruchtzuckergehalt (abgekürzt FZG). Der Chefkoch auf der gleichnamigen Webseite (das ist die erste die meine Suchmaschine zu „Frauchtzuckergehalt Apfel Birne“ ausspuckte) behauptet, dass der durchschnittliche FZG von Äpfeln bei 5,7g/100g Frucht liegt, der von Birnen bei 6,7g/100g. Auf dieser Basis habe ich mir eine Verteilung für 50 Äpfel und 33 Birnen ausgedacht, die in folgender Abbildung visualisiert ist (x-Achse: FZG in mg/100g, y-Achse Anzahl der Früchte):
Ich habe hier ein wenig gepfuscht – der FZG-Gehalt wird wohl nicht durch eine stetige Variable dargestellt, sondern durch eine kontinuierliche. Um ein schönes Balkendiagramm hinzubekommen, musste ich die Werte also in Klassen einteilen. Beschriftet ist jeweils die Klassenmitte – unter 6000 finden sich also alle Früchte mit einem 5750 < FZG < 6249. Wenn ich mir jetzt einfach die Früchte mit dem höchsten FZG greife, dann bekomme ich ne Menge Birnen und nur wenige Äpfel, das liegt an der Natur, die Birnen mit mehr Süße ausgestattet hat (oder an den Züchtern, die genau dies forciert haben). Wenn ich aber irgendwie nur besonders (im Vergleich zu anderen) gute Birnen und besonders (in Vergleich zu anderen) gute Äpfel haben möchte, muss ich mir irgendwas überlegen, wie ich vergleichbare Werte bekomme.

Tatsächlich gibt es einen statistischen Kniff, den ich genau dafür anwenden kann – die sogenannte z-Transformation. Die funktioniert eigentlich ganz einfach – ich muss lediglich vom FZG jeder Frucht den FZG-Mittelwert abziehen und das Ergebnis durch die FZG-Standardabweichung teilen. Wenn ich verschiedene Populationen (hier z.B. Äpfel und Birnen) habe, dann errechne ich für jede den Mittelwert und die Standardabweichung getrennt. Am Ende habe ich dann vergleichbare Werte. Einfach, oder?

Vielleicht sollte ich noch kurz eine kleine Erläuterung zu den beiden Werten einstreuen. Der Begriff „Mittelwert“ (MW, Definition hier) sollte eigentlich jedem klar sein – es ist einfach der Durchschnitt über alle Einzelwerte. Für Äpfel ergibt sich im obigen Beispiel der MW 5500mg/100g Frucht, für Birnen der MW 6470. Der Begriff „Standardabweichung“ (SD, Definition hier) ist vielleicht nicht so geläufig. Er beschreibt die Streuung von Werten – hat eine Verteilung eine niedrige SD, so gruppieren sich die Werte enger um den MW, als bei Verteilung, die eine hohe SD haben – für das obige Beispiel habe ich die SDs 775 (für Äpfel) und 521 (für Birnen) ermittelt – Birnen haben durchschnittlich also einen höheren FZG, streuen aber weniger als Äpfel (d.h. ihre FZG-Verteilung ist homogener).

Was erreicht man jetzt genau damit, dass man von den ursprünglichen FZG-Werten den Mittelwert abzieht und dann das Ergebnis durch die Standardabweichung teilt? Man harmonisiert beide Verteilungen – beide haben fortan ihren MW bei 0 und auch ihre Streuung ist vergleichbar geworden (wenn Werte vorher zwischen -1000 und 1000 gestreut haben und die SD bei 500 lag, streuen sie jetzt zwischen -2 und 2. Gleiches gilt für Werte, die vorher zwischen -1 und 1 gestreut haben bei einer SD von 0,5). Für unser Beispiel ergibt sich nach der z-Tansformation folgendes Bild (und ja, ich habe aus Darstellungsgründen wieder unerlaubt klassifiziert und gerundet):

Man sieht direkt, dass die beiden Verteilungen jetzt voreinander liegen und ich nun wesentlicht mehr Äpfel als Birnen erhalte, wenn ich die Früchte auf der rechten Seite der Grafik (das sind die mit dem verhältnismäßig hohen Fruchtzuckergehalt) abgreife. Das liegt nun daran, dass die Apfel-Population auch ursprünglich größer war als die der Birnen. Man merke sich: Wenn beide Populationen hinsichtlich des gewählten Merkmals normalverteilt sind, dann entspricht das Verhältnis der Ergebnismenge im ungefähren dem der Ausgangsmengen.

Natürlich ist das ein an den Haaren herbeigezogenes Beispiel – niemand kommt auf die Idee, von jeder Frucht, die er/sie im Supermarkt auswählt, erstmal den Fruchtzucker zu messen. Allerdings wird genau dieses Verfahren von der Universität Wien angewendet, um ihre Medizinstudienplätze zu vergeben. Auf Twitter bat der @Fatmike182 darum, ob ihm jemand das z-Transformationsverfahren erklären könnte, was ich dann (auf Twitter kurz, hier länger) auch versucht habe. Später ging es dann auch noch darum, ob das Verfahren gerecht oder doch sexistisch ist. Schwierige Frage, ich halte es nicht unbedingt für gerecht – erstens sehe ich nicht ganz ein, weshalb man Männer und Frauen in unterschiedliche Populationen einteilt und damit für beide unterschiedliche SDs und MWs errechnet. Ja, es mag sein, dass Mädchen durch das (hier: österreichische) Schulsystem benachteiligt werden, so dass ihre Ergebnisse beim Eignungstest unter dem der (österr.) Buben liegen. Dann sollte man aber meiner Meinung nach an dem Punkt einhaken, wo diese Ungleichheit entsteht, nicht da, wo sie sich auswirkt. Zweitens ist ein solches Verfahren manipulierbar – man muss nur ne Menge Leute eines bestimmten Geschlechts überzeugen, auch (aber bitte erfolglos) beim  Test mitzumachen, um die geschlechtsspezifischen Bewerberquoten zu erhöhen. Das hat dann zur Folge, dass die gleichgeschlechtlichen Bewerber ihre Chancen auf einen Studienplatz erhöhen.

Der @Fatmike182 hatte noch eingewendet, dass man sich die Rechnerei sparen könnte, wenn man einfach vorher festlegt, in welcher Zahl man Frauen und Männer ins Studium aufnimmt. Für normalverteilte Daten hat er da tatsächlich recht, allerdings kann es ja tatsächlich auch  zu einer Verteilung wie dieser kommen: Nach der z-Transformation bleibt der kleine Hügel rechts in der Verteilung so bestehen. Um sicherzugehen, dass man überdurchschnittlich gute Bewerber/Äpfel auch tatsächlich berücksichtigt, kommt man also an ein wenig Rechnerei nicht vorbei.

Quelle: http://texperimentales.hypotheses.org/406

Weiterlesen

Heldensage im Reisetagebuch

Vor ungefähr drei Jahren war ich mit meiner Promotion an einen Punkt gelangt, an dem ich die Entscheidung treffen musste, in welche Richtung sich meine Dissertation weiterentwickeln sollte. Wir hatten unser System Tesla schon zu einem guten Teil realisiert, die Darlegung zur Motivation der Entwicklung eines eigenen Komponentensystems – die Idee wirklich reproduzierbarer Experimente auf Textdaten beliebigen Formats – lag auch bereits in einer Rohform vor. Was fehlte, war ein Anwendungsfall, an dem ich die Funktionalität des Systems bestmöglich demonstrieren konnte. Und die Suche nach einem solchen geeigneten Untersuchungsobjekts hatte mich schon eine ganze Zeit beschäftigt. Eher zufällig stöberte ich dabei nochmal in einem Buch, dessen Lektüre bei mir schon etwas weiter zurücklag: Im wirklich empfehlenswerten Lexikon des Unwissens von Kathrin Passig und Aleks Scholz.1

Dabei fiel mir auf, dass das Voynich-Mauskript (VMS), dem im Lexikon ein Eintrag gewidmet ist, ein durchaus geeignetes Thema wäre, um die Anwendbarkeit von Tesla zu demonstrieren:

  • Das VMS enthält einen Text. Mit unbekannten Zeichen  geschrieben, unbekannten Inhalts und unbekannter Herkunft. Aber einen Text. Und wir haben Tesla entwickelt, um sämtliche Texte analysieren zu können. Auch wenn der VMS-Text auf seine Art einzigartig ist, er sollte sich mit Tesla analysieren lassen.
  • Die Analysen zu VMS sind genauso zahlreich wie auch widersprüchlich. So gut wie alle denkbaren Theorien zur Herkunft oder Inhalt des Textes lassen sich irgendwo finden. Die glaubhaften Analysen einmal in einem System zu bündeln, in dem sie für die ganze Welt reproduzierbar sind, sollte nicht schaden.
  • Das VMS reizt natürlich auch durch seine geheimnisvolle Aura. Damals schon 97 Jahre zerbarsten daran die Theorien durchaus (bisweilen überaus) intelligenter Wissenschaftler und Nicht-Wissenschaftler, ohne dass jemand tatsächlich eine allgemein anerkannte Lösung zum Problem hatte liefern können.

Der Anspruch, den Text tatsächlich entschlüsseln zu können, wäre natürlich allzu vermessen gewesen. Das war auch von Anfang an nicht der Plan. Stattdessen wollte ich die Analysen, welche zu den seltsamen Eigenschaften des Manuskripttextes, die ich hier schon einmal thematisiert habe, in einer Umgebung zusammenführen, welche eine einfache Überprüfung der Analyse-Ergebnisse ermöglicht.


Eine aufgeschlagene Seite des Voynich Manuskripts - seltsame Zeichnungen, seltsamer Text. Quelle: en.wikipedia.org

Tatsächlich bin ich aber weiter gekommen, als ich anfangs annahm und wie es dazu kam, will ich hier kurz erzählen: Beim Studium der Literatur zum VMS – die nicht in allen Fällen wissenschaftlichen Ansprüchen genügt und wo sie dies tut, meist in Veröffentlichungen zu anderen Themen versteckt wurde – nahm ich als Grundtenor wahr, dass kein Chiffrierverfahren bekannt wäre, aus dessen Anwendung ein Text resultiert, der dem VMS-Text ähnlich wäre. Ebenso deuteten bestimmte statistische Eigenschaften darauf hin, dass es sich nicht um eine Transkription einer natürlichen Sprache handeln könne. Wenn es aber weder eine Chiffre noch eine unbekannte Transkription sein kann, so liegt die Vermutung nahe, der Text bestehe einfach aus einer sinnlosen Aneinanderreihung von Phantasiewörtern. Damit korrespondiert – semiotisch ausgedrückt – mit der Ausdrucksseite seiner Zeichen keine Inhaltsseite. Und weil ein Text ohne Inhalt auf gewisse Art ein Schwindel ist, wird die Hypothese, dass es sich beim VMS-Text um einen solchen handelt, auch Hoax-Hypothese genannt.

Irgendwie ist der Gedanke, das VMS sei nur ein Schwindel und es gäbe gar nichts zu entziffern, nicht besonders befriedigend. Mehr Charme hat da die Vermutung von William Friedman (einem der größten Kryptoanalytiker des 20. Jahrhunderts), der es für wahrscheinlich hielt, dass der VMS-Text ein früher Entwurf einer synthetischen Sprache a priori sei – ihm also eine Kunstsprache zugrundliege, die sich – im Gegensatz z.B. zum Esperanto – nicht an natürlichen Sprachen orientiert. Weil solche Sprachen aber scheinbar erst in der zweiten Hälfte 17. Jahrhundert entworfen wurden, das VMS aber relativ sicher schon Ende des 16. Jahrhunderts in Prag kursierte, ist diese These problematisch.

Mehr Charme ist jetzt nicht unbedingt ein wissenschaftliches Kriterium. Ich beschloss aber dennoch, Verschlüsselungsverfahren und Ansätze zu Universalsprachen im ausgehenden Mittelalter und der frühen Neuzeit zu recherchieren. Im Zuge dieser Recherchen zu stieß ich auf die Monographie von Gerhard Strasser2 zum Thema, in der dieser die Verbindung zwischen kryptographischen Verfahren und universell gedachten Sprachentwürfen beleuchtet. Ursprünglich wollte Strasser dabei auf die Universalsprachentwürfe des 17. Jahrhunderts eingehen, allgemein als die ersten ihrer Art angesehen. Er kann aber zeigen, dass schon viel früher – durch den Abt Johannes Trithemius (den ich u.a. schon hier für eine andere seiner Arbeiten gewürdigt habe) – eine Chiffre entworfen wurde, deren Anwendung etwas ergab, das wie das Resultat einer Kunstsprache aussieht, das aber ein verschlüsselter Text ist.

Konkret bezieht sich Strasser dabei auf die Teile III und IV der trithemischen Polygraphia. Die darin beschriebenen Verfahren funktionieren prinzipiell wie die aus den ersten beiden Teilen  (die ich hier auch schon vorgestellt habe): Einzelne Buchstaben werden gemäß einer Ersetzungstabelle durch ganze Wörter ersetzt. Während aber die Ersetzungschiffren in den ersten beiden Teilen lateinische Wörter sind und die resultierenden Geheimtexte wie lateinische Gebete anmuten, sind sie in den darauffolgenden Büchern von Trithemius erdachte Phantasiewörter, der resultierende Text sieht demnach aus wie eine Phantasiesprache. Der sehr regelmäßige Aufbau der Phantasiewörter – an einen Wortstamm sind unterschiedliche Endungen angehangen – gemahnt Strasser an die Universalsprachentwürfe von Wilkins und Dalgano, die erst viel später, um 1660, entworfen wurden.

Je zwei Zeilen von Ersetzungschiffren aus der Polygraphia III und IV. In der Spalte ganz links finden sich die zu ersetzenden Buchstaben.

Die Tatsache, dass nun doch um 1500 schon eine Möglichkeit beschrieben wurde, wie ein Text erzeugt werden kann, der wie das Produkt einer Kunstsprache aussieht, fesselte mich natürlich und ich beschloss, die Trithemischen Werke im Original zu konsultieren. Die Recherche führte mich in ein Mikrofichekabüffchen und den Lesesaal der historischen Sammlungen der hiesigen Universitätsbibliothek genauso wie in die Erzbischöfliche Buchsammlung zu Köln (womöglich wäre ich noch im Stadtarchiv gelandet, das aber gerade der Erdboden verschluckte) – alles spannende Orte, zu denen man als Computerlinguist unter normalen Umständen gar nicht vorstößt.

Ich werde nie vergessen, wie ich im Holzverschlag zur Mikrofichebetrachtung über das Lesegerät gebeugt stand, fieberhaft und ungelenk die kleine Folie weiterschob über die Tabellen der trithemischen Polygraphia, bis ich endlich im dritten Teil angekommen, überprüfen konnte, ob das, was ich mir auf Grundlage von Strassers Schilderung vorstellte, tatsächlich auch im historischen Werk zu finden war. Und wirklich hatte Trithemius einzelne Spalten mit Stamm-Endungs-Kombinationen versehen, die wie Flexionsparadigmen aussahen (auch die “Wörter” des VMS weisen ähnliche Eigenschaften auf). Noch phantastischer war, dass die manuelle Strichliste, die ich nebenbei über die Wortlängenverteilung der Ersetzungstabellen führte, eine Binomialverteilung ergab (ebenso wie die VMS-”Wörter”, siehe auch hier). Dank Patrick Sahle hatte ich dann bald auch die Möglichkeit, die Polygraphia an meinem Schreibtisch zu studieren, der sich als die langweiligere, aber effektivere Arbeits-Location erwies.

Dort konnte ich mich dann weiteren Überlegungen zur Operationalisierung der von mir ja erst per Augenmaß festgestellten Ähnlichkeiten zwischen den beiden Texten widmen. Dabei hatte ich stets die Warnung von Kennedy und Churchill3 vor Augen, dass das VMS ein Spiegel sei, in dem jeder nur seine eigenen Vorurteile und Hypothesen bestätigt sieht. Insbesondere musste ich erst einmal Werkzeuge entwickeln, die mir erlaubten, den VMS-Text einzulesen und Polygraphia-III-Texte zu erzeugen, diese in Analyseeinheiten zu unterteilen und schließlich statistische Eigenschaften, die ich nicht einfach per manueller Zählung ermitteln konnte, auszuwerten. Ich befand mich erst am Anfang eines langen Prozesses, an dessen Ende die Fertigstellung und Veröffentlichung meiner Dissertation und die der duchgeführten Experimente stand.

Irgendwann später las ich das Bonmot von Ortoli und Witkowski: “Zwischen der Wissenschaft, wie sie die Öffenlichkeit erträumt oder die Medien feiern, und der Wissenschaft, wie sie die Forscher täglich praktizieren, besteht dieselbe Diskrepanz wie zwischen Heldensage und Reisetagebuch.” Da dachte ich, dass -  zumindest bei mir im Kopf – genau diese Diskrepanz für einen kurzen Moment aufgehoben war.

1 Katrin Passig, Aleks Scholz: “Lexikon des Unwissens. Worauf es bisher keine Antwort gibt.” Rowohlt Berlin; Auflage: 7 (2007)

2 Gehard Strasser: “Lingua Universalis: Kryptologie und Theorie der Universalsprachen im 16. und 17. Jahrhundert” (Wolfenbütteler Forschungen 38) Harrassowitz, Wiesbaden (1988)

3 Gerry Kennedy und Rob Churchill: “Der Voynich-Code: Das Buch, das niemand lesen kann” Rogner & Bernhard bei Zweitausendeins (2005)

4  Sven Ortoli und Nicolas Witkowski: “Die Badewanne des Archimedes: Berühmte Legenden aus der Wissenschaft” Piper Taschenbuch (2007)

Anm: Drei der vier aufgeführten Bücher sind das, was gemeinhin und bisweilen abschätzig als populärwissenschaftliche Veröffentlichungen bezeichnet wird. Eine ganze Reihe meiner Links führen außerdem zur Wikipedia. Ich halte den Einbezug beider Arten von Quellen für durchaus legitim in einem Blog, der versucht, die eigene wissenschaftliche Tätigkeit etwas populärer zu machen. Dass manche das anders sehen, weiß ich inzwischen auch. Da kann man aber auch gerne mit mir diskutieren. Nebenbei: Untersuchungen zum Voynich Manuskript tragen im Wissenschaftsbetrieb nicht gerade zur Kredibilität bei, was wohl auch ein Grund dafür ist, dass sich so wenige wirkliche Spezialisten mit dem Thema beschäftigen oder aber ihre Ergebnisse in Unterkapiteln anderer Veröffentlichungen (z.B. in einer Einführung in die Programmiersprache BASIC, kein Witz) verstecken. Bei mir ist das ja auch irgendwie der Fall gewesen. :)

Quelle: http://texperimentales.hypotheses.org/278

Weiterlesen

Visualisierung von Ergebnissen

Anlässlich mehrerer Tagungen, auf denen wir Tesla präsentieren dürfen, haben wir ein wenig an der Visualisierung von Experiment-Ergebnissen gearbeitet, v.a hat Stephan die neueste Version seines WordCloud-Erzeugers Cloudio in den Client von Tesla integriert. Damit können jetzt Wortwolken, wie die oben im Titelbild meines Blogs, innerhalb von Tesla erzeugt werden.

Ich möchte die Gelegenheit nutzen, die bisher implementierten Tesla-Visualisierer hier im Blog vorzustellen, bevor wir heute das nachmittag ab 15:15 Uhr live im TextGrid-Café tun. Visualisierung wird vor allem da benötigt, wo die automatische Evaluation von Ergebnissen zu kurz greift und die Forscherin/der Forscher, der experimentell arbeitet, ihre/seine Ergebnisse mittels ihres/seines Intellektes überprüfen will. Wie es das Thema verlangt, werden hier mehr Screenshots denn Texte im Vordergrund stehen.

Alle folgenden Visualisierungen basieren auf den Ergebnissen eines einzigen Experiments, [das irgendwann im Laufe der Woche von Alena bei der Plattform MyExperiment geshart wird, ich binde den Link dann ein]. Dabei geht es eigentlich nur um eine Studie zu einer Methode, temporale Ausdrücke aus Texten zu extrahieren. Der zugehörige Workflow sieht im Editor wie folgt aus:

Oben im Workflow finden sich Wikipedia-Texte, deren temporale Ausdrücke vorausgezeichnet wurden. Auf der linken Seite befindet sich die Komponenten, deren Zusammenspiel diese temporalen Ausdrücke (ohne die Kenntnis der Vorauszeichnungen) ermitteln soll. Auf der rechten Seite steht, relativ allein, die Evaluationskomponente, welche die Menge der vorausgezeichneten Ausdrücke mit der Menge der experimentell ermittelten vergleicht.

Nach der Ausführung des Experiments steht zunächst eine Ergebnis-Übersicht zur Verfügung, in der Informationen zu den einzelnen Komponenten abrufbar sind, hier schreibt z.B. die Evaluationskomponente ihre ermittelten Werte zur Precision, Recall und F1-Wert hinein:


Möglicherweise ist am aber nicht nur an den Evaluationsmaßen interessiert, sondern auch daran, welche der vorausgezeichneten Ausdrücke denn nun gefunden wurden und welche nicht. Dabei möchte man vielleicht auch direkt den Kontext sehen, in dem sich die (nicht) gefundenen Ausdrücke befinden. Hierfür bietet sich z.B. ein farblich unterlegter Text an:

In dieser Visualisierung sind die vorausgezeichneten (rot) und die ermittelten (gelb) temporalen Ausdrücke markiert. Überlappen sich beide, so werden sie mit der Mischfarbe (orange) markiert. Hier sieht man, dass der Versuchsaufbau für Datums-Angaben verschiedenen Formats recht gut funktioniert und noch Verbesserungen hinsichtlich von zeitbezogenen Wörtern eingebracht werden könnten (etwa durch Erweiterung der Gazetteer-Listen).

Vielleicht möchte man aber auch eine Aufstellung allerermittelten temporalen Ausdrücke haben. Dafür hat Tesla eine Tabellen-Visualisierung (Tabellen können auch direkt in ein csv-Format exporiert werden, um sie woanders weiter zu verarbeiten):

Außerdem verfügt Tesla noch über eine Visualisierung in Klammerstruktur (um etwa Dominanzbeziehungen zwischen Elementen im Text auszudrücken, den Sceenshot spare ich mir ausnahmsweise mal) und eben über die WordCloud, die zumindest visuell momentan der Höhepunkt jeder Tesla-Präsentation ist, auch wenn es nicht für jedes Datum Sinn macht, es in einer Cloud darzustellen. In der folgenden Abbildung sind etwa alle temporalen Ausdrücke nach ihrer Häufigkeit aufgetragen. Kann man nicht unbedingt für Interpretationszwecke nutzen, schön aussehen tut es dennoch:

Soweit meine kurzen Ausführungen zu den bereits in Tesla integrierten Visualisieren. Wir wissen selbst, dass es noch eine Menge von Möglichkeiten gibt, die zu integrieren sich wirklich lohnen würde, etwa einen Datenplotter und Darstellungsmöglichkeiten für statistische Auswertungen. Auch die allen Visualisierungen zugrundeliegende Datenstruktur ist historisch gewachsen und inzwischen überarbeitungsbedüftig. Ist auf der Liste der nice-to-haves. Ob wir wirklich noch mehr realisieren können hängt aber vor allem von potentiellen Geldgebern ab (sonst haben wir soviel anderes zu tun). Wir hoffen mal das Beste.

 

 

Quelle: http://texperimentales.hypotheses.org/229

Weiterlesen

Neuigkeiten 1204

Nach einem abermaligen kurzen Ausflug in die historische Kryptographie komme ich nun wieder zum Kerngeschäft dieses Blogs zurück und berichte über die aktuellen Entwicklungen rund um Tesla, unserem Labor für Textwissenschaftler.

Momentan wird ein Großteil unserer Zeit davon beansprucht, abzuwägen, welche Weiterentwicklungen von Tesla wünschenswert und gleichzeitig förderungswürdig sind. Relativ sicher sind wir uns da hinsichtlich der Integration von Tesla in die Software, die innerhalb des Projekts TextGrid entstanden ist. Die ersten Gespräche haben dazu schon (mit sehr netten Leuten übrigens) stattgefunden, und wie es aussieht, sind beide Seiten der Meinung, dass die Systeme bisher relativ komplementäre Funktionalität bieten und dass eine Integration der beiden großen Gewinn für die geisteswissenschaftliche Community böte, auf die sowohl TextGrid wie auch Tesla ausgerichtet sind. Ich bin sehr gespannt, wie die weiteren Schritte diesbezüglich ausfallen, wenn wir uns im Rahmen des TextGrid Summit 2012 nochmal zusammensetzen.

Jenseits der TextGrid-Tesla-Integration gibt es aber auch noch eine Reihe weiterer Verbesserungen unseres Systems, die wir gerne in Angriff nehmen würden. Ich hatte ja bereits über die Möglichkeit gebloggt, Tesla-Experimente über das wissenschaftliche Social Network MyExperiment auszutauschen. Mit ein wenig Zeit könnte man die entsprechende Schnittstelle in einer Art ausbauen, dass der Upload aller relevanten Daten (Komponenten, Texte, Screenshot etc.) mit einem einzelnen Mausklick erfolgt. Weiterhin könnte beispielsweise die Unterstützung von Werkzeug-Entwicklern etwas komfortabler gestaltet werden, zur Zeit muss man noch viel zu Fuß erledigen, was eigentlich automatisierbar wäre. Unsere Überlegungen gehen auch dahin, Tesla Cloud-Computing-fähig zu machen, so dass wirklich komplexe Berechnungen auf wirklich großen Datenmengen in akzeptabler Zeit ermöglich werden. Stephan testet zur Zeit das Clustering von Vektoren auf Grafikkarten und erreicht damit eine schon jetzt beeindruckende Performance-Gewinne. Wenn man sich jetzt vorstellt, dass man nicht nur eine, sondern eine ganze Reihe von Grafikkarten nutzt (z.B. die unserer Computerpools zu Zeiten, in denen diese nicht öffentlich genutzt werden), so könnte man in ganz neue Sphären von Experiment-Setups in der Textprozessierung vorstoßen.

Abgesehen von dieser Zukunftsmusik (die wahrscheinlich auch nur gespielt wird, wenn wir Gutachter davon überzeugen können, dass es sich um wirklich förderungswürdige Vorhaben handelt) entwickeln wir Tesla gegenwärtig natürlich auch schon weiter. Zentral ist dabei momentan die vollständige Umstellung des Build-Prozesses auf Maven sowie der Umzug des Source-Codes auf GitHub. Im Rahmen einer Bachelorarbeit bei uns am Institut entstand vor kurzem auch ein Reader für TEI-codierte Dramen. Außerdem sind in letzter Zeit eine Reihe von Leuten auf uns zugekommen, die ihre Projekte mit Tesla bearbeiten wollen und die wir dabei gerne unterstützen. Daran, dass diese Anfragen aus sehr unterschiedlichen Fachbereichen kommen – Linguisten aus verschiedenen Philologien (Anglisten, Romanisten und Skandinavisten), Sprachtechnologen und sogar Geographen – kann man auch ersehen, dass Tesla keinesfalls nur auf Computerlinguisten ausgerichtet ist.

Wir stellen Tesla übrigens im nächsten Monat gleich zweimal vor, zuerst auf dem schon oben erwähnten TextGrid-Summit (Systemdemo/Postersession 15.5. an der TU Darmstadt), danach auf der TaCoS (Vortag 1.6. an der Uni Trier). Auf diesem Weg noch einmal herzlichen Dank für die beiden sehr netten Einladungen! Vielleicht sieht man sich ja.

 

 

Quelle: http://texperimentales.hypotheses.org/205

Weiterlesen

Eine geheime Aufforderung zum Karfreitagstanz

Im heutigen Post möchte ich eine der aufwendigsten Verschlüsselungsmethoden vorstellen, die aber – vor allem für kurze Texte und trotz ihres Alters von mehr als 500 Jahren – sehr sichere Geheimtexte erzeugt, die man im Zweifelsfall gar nicht als solche erkennt. Und da ich den Post am langen Osterwochenende schreibe und veröffentliche, verpacke ich die Darstellung in eine Rahmenhandlung, die zu diesem christlichen Fest (und gewissen Einschränkungen, die in seinem Rahmen bezüglich öffentlicher Vergnügungen gelten) passt. Stellen wir uns vor, wir bekämen am Karfreitag eine gedruckte Einladung zu einer Karfreitagsmesse in die Hand, auf der der folgende Leitspruch (oder wie man das auch immer nennt) abgedruckt wäre:

“Redemptor clemens stabiliens vitam iustis suis in paradiso amen.”

Wenn man sich an ein paar Bröckchen Latein erinnert (so wie ich), so könnte man sich vielleicht zusammen konstruieren, dass irgendwie von einem barmherzigen Erlöser und wahrscheinlich dem Garten Eden die Rede ist und sich dabei ein wenig über die getroffene Wortwahl wundern. Altphilologen würden wohl skeptischer werden ob der Holprigkeit des Ausdrucks. Niemand aber könnte wohl erahnen, dass es sich um eine versteckte Aufforderung handelt, das behördlicherseits streng kontrollierte Tanzverbot am stillen Feiertag zu ignorieren. Verschlüsselt wurde diese Aufforderung mit einer Methode, die beschrieben wird im ersten Buch der sechsteiligen Polygraphia von Johannes Trithemius. Leser dieses Blogs, die schon zu Posterous-Zeiten dabei waren oder über den Übersichts-Artikel den ersten und den zweiten Teil zur Entschlüsselung der Steganographia III gelesen haben, ist der Name Johannes Trithemius bereits ein Begriff. Ich habe ihn als Abt des Klosters Sponheim im Übergang vom 15. zum 16. Jahrhundert vorgestellt. Wegen einer unguten Geschichte hinsichtlich der Rezeption seines ersten Buchs zu Geheimschriften (eben der Steganographia) stellte er sein Amt dort zur Verfügung und war bei der Fertigstellung der Polygraphia bereits der Abt des Klosters Würzburg. Ich hatte den Ablauf der Ereignisse, die Trithemius zum Klosterwechsel veranlassten, bereits in den beiden erwähnten Posts thematisiert, das Problem lag in der explosiven Kombination einer großspurigen Vorankündigung des Werks, einer Menge arkanen Popanz im Buch sowie einem Abt, der lieber den überlegenen Geheimniskrämer gab, als glaubhaft darzulegen, dass das, was wie magischer Schnickschnack aussah, in Wirklichkeit durchdachte Chiffriermethoden waren. Trithemius wiederholt diese Fehler im Falle der Polygraphia nicht, dem Buch geht – zumindest oberflächlich betrachtet – jeder Anschein des Geheimnisvollen ab. Mit der Polygraphia wird aber etwas eingelöst, was schon für die Steganographia angekündigt war: Die Beschreibung eines Verfahren, mit dem – wie Trithemius behauptet – ein ungelehrter Mann innerhalb von zwei Stunden das Lateinische lesen, schreiben und verstehen können soll. Dieses Verfahren entpuppt sich bei näherem Hinsehen allerdings eher als eine raffinierte Chiffriermethode denn als tatsächliches Lernprogramm für die lateinische Sprache. Dessen ungeachtet wird der Ansatz später sowohl ins Französische (durch Gabriel des Collange 1561) als auch ins Tschechische (durch Raphael Mnishowsky, um 1628) übertragen, um es tatsächlich als Lernverfahren für das Französische bzw. Tschechische einzusetzen. Beides kann eigentlich nicht wirklich funktioniert haben. Bessere Aussichten hatte da die Entlehnung der Methode als Chiffre. Betrachten wir aber zunächst ihre Funktionsweise. Neben einer kurzen lateinischen Beschreibung zu Anfang finden sich in der Polygraphia I 383 Listen, die aus jeweils 24 untereinander platzierten Wörtern bestehen. Zusammengenommen ergeben diese Listen eine über mehr als 100 Seiten laufende Tabelle, die sich aus 24 Zeilen und 383 Spalten zusammensetzt. Die ersten sechs Spalten finden sich in der Tabelle unten.

Die ersten 6 Spalten der Polygraphia I. Vor der sechsten Spalte sieht Trithemius ein "suis in", dahinter ein "amen" vor.

Wie die Tabelle andeutet, stehen die 24 Zeilen der Tabelle für 24 Buchstaben des Alphabets (im Vergleich zu dem heute bei uns gebräuchlichen Alphabet fehlen die Buchstaben j und v). Für jeden dieser Buchstaben hat Trithemius 383 verschiedene Wörter zusammengestellt, welche diese ersetzen können. Insofern kann man hier von einer Substitutionschiffre sprechen, die für jeden Klartext-Buchstaben 383 Geheimtext-Homophone bereitstellt. Die Anordung der Wörter in der Tabelle aber ist auf eine beeindruckende Weise ausgeklügelt: Jede Spalte enthält nur Wörter mit gleichen morphosyntaktischen Merkmalen (die erste Spalte etwa nur maskuline Nomen im Nominativ). Benachbarte Spalten sind dabei so gewählt, dass sich sowohl ein syntaktischer wie auch ein semantischer Anschluss ergibt, egal welche Kombination von Wörtern (als Chiffren für eine Buchstabenkombination) auch ausgewählt werden. Ersetzt man mit Hilfe dieser Tabellen einen Klartext sukzessive Buchstaben für Buchstaben mit einem Wort der jeweils nächsten Spalte, so ergibt sich damit ein lateinischer Text, der an ein Gebet erinnert. Der Geheimtext ist damit nicht nur verschlüsselt, sondern zugleich auch maskiert, das heißt – zumindest für Laien – nicht als verschlüsselter Text erkennbar. Aus diesem Grund wurde das Verfahren später auch als Ave-Maria-Chiffre bezeichnet. Das Verfahren ist (wie eigentlich alle trithemischen) sehr innovativ und durch die Kombination von steganographischen (versteckenden) und kryptographischen (verschlüsselnden) Elementen auch doppelt sicher – man muss ja erst einmal darauf kommen, dass man es überhaupt mit einer verschlüsselten Botschaft zu tun hat. Selbst wenn man um diese weiß, dürfte es so gut wie unmöglich sein, den Klartext auf irgend eine Weise zu rekonstruieren, hat man nicht die Ersetzungstabelle (in diesem Fall eine Ausgabe der Polygraphia) zur Hand. Das Verfahren weist allerdings auch eine Reihe von Nachteilen bezüglich seiner Anwendung auf:
  • Der verschlüsselte Text ist um einiges länger als die ursprüngliche Nachricht – schließlich werden ja einzelne Buchstaben durch ganze Wörter ersetzt.
  • Nach 383 Klartextzeichen kommt man am Ende der Ersetzungsspalten an. Beginnt man einfach wieder von vorne, so öffnet man ein Einfallstor für einen kryptoanalytischen Angriff auf den Geheimtext, weil sich zwangsläufig Wörter häufig wiederholen werden, die hochfrequent vorkommende Buchstaben ersetzen.
  • Sender und Empfänger müssen beide über die gleiche Ersetzungstabelle verfügen. Niemand anderem sollte diese zur Verfügung stehen.
Diese Schwierigkeiten waren wohl auch der Grund dafür, dass sich kaum Belege dafür finden lassen, dass die Methode auch Anwendung fand. Lediglich Blaise de Vigenère, der sich später auch einen Namen als Kryptograph machen sollte (die Vigenère-Chiffre ist um einiges berühmter als jedes trithemische Verfahren), weiss zu berichten, dass sich die Türken vom venezianischen Botschafter in Konstantinopel durch eine Ave-Maria-Chiffre haben täuschen lassen. Herzog August der Jüngere (der auch für den legendären Ruf der nach ihm benannten Bibliothek verantwortlich ist) führt in dem von ihm unter dem Pseudonym Gustav Selenus verfassten Handbuch zur Kryptographie zwei Adaptionen der trithemischen Ave-Maria-Chiffre auf, eine weitere lateinische vom italienischen Kryptologen Giambattista della Porta, sowie eine deutsche von einem unbekannten Autor (möglicherweise von ihm selbst). Mit letzterer lassen sich Geheimtexte erzeugen, die in Inhalt, Metrik und Rhythmus dem Vater-unser-Gebet ähneln (leider habe ich über das Wochenende keinen Zugriff auf das entsprechende Buch, so dass ich hier leider kein Beispiel präsentieren kann). Oben erwähnt hatte ich ja auch schon die Übertragungen ins Tschechische und ins Französische, um damit Sprachunterricht durchführen zu können. Vielleicht fehlt mir die Phantasie, wie der Sprachunterricht anhand von Wortlisten vonstatten gehen könnte, jedenfalls kann ich mir einen solchen nicht erfolgreich vorstellen. Natürlich kann ein des Lateinischen unkundiger die Polygraphia I nutzen, um ohne Probleme einen Text in einer Sprache, die er beherrscht, zu verschlüsseln. Er kann sie genauso nutzen, um einen verschlüsselten Text zu dechiffrieren. Dabei erzeugt und liest er zwar einen lateinischen Text, er versteht aber nicht im Mindesten dessen Inhalt. Es passiert ungefähr genau das, was in  Searles chinesischem Zimmer vor sich geht – vorgetäuschtes Verständnis, ohne eine Sprache zu beherrschen. Insgesamt besteht die Polygraphia aus insgesamt sechs Teilen, von denen ich bisher lediglich den ersten erwähnt habe. Der zweite Teil unterscheidet sich vom vorherigen lediglich durch die auf die Tabelle verteilten lateinischen Wörter, auch Teil drei und vier sehen oberflächlich betrachtet aus, als würde das gleiche Prinzip weiter durchgehalten. Das stimmt aber nur zum Teil. Wie ich hier schon einmal kurz angedeutet habe, spreche ich dem Verfahren, welches in der Polygraphia III beschrieben wird, das Potential zu, einen Text zu erzeugen, der ähnliche statistische Eigenheiten wie der des Voynich Manuskripts aufweist. Dazu aber ein andermal mehr (wie immer – wer nicht abwarten kann, lese einfach hier weiter). Ach so – die versteckte Botschaft – die habt ihr euch doch aber schon längst selbst aus der Tabelle rekonstruiert, oder?

Quelle: http://texperimentales.hypotheses.org/156

Weiterlesen