Jürgen Hermes – Seite 11

Der virtuelle Selbstbedienungsladen

2. September 2012 Keine Kommentare

Bis zum Semesterstart bei uns ist es ja noch etwas hin, was jetzt sicher nicht jeden todtraurig macht. Während die Universität allmählich aus dem Sommerschlaf erwacht (naja, bei uns an der Uni Köln war nicht viel mit Ruhe, da momentan an jeder Ecke lautstark gebaut wird), beginnt für viele wahrscheinlich gerade die heiße Phase der abzugebenden oder zu korrigierenden Hausarbeiten und/oder Wiederholungsklausuren. Vielleicht besucht auch der eine oder die andere für das Studium vorgeschriebene Propädeutikveranstaltungen oder bildet sich über Ferienkurse weiter, wie sie z.B. von unserem Rechenzentrum angeboten werden.

Neben diesen Angeboten, die nur lokal verfügbar sind (und die man – zumindest offiziell nur nutzen kann, wenn man Angehörige|r der diese Kurse anbietenden Institution ist), bietet auch unsere vernetzte Welt inzwischen sehr lohnenswerte Möglichkeiten zum akademischen Zeitvertreib. Apple, stets bestrebt, den Austausch sämtlicher Medien über die iTunes-Plattform zu kontrollieren, bietet etwa mit iTunes U eine inzwischen fast unüberschaubare Fülle von universitären Veranstaltungen in den verschiedensten Formaten (Vorlesungsskript, Folienpräsentation, Audio- und Video-Podcasts) an. Auch die Universität zu Köln mischt da inzwischen mit, ihr Angebot ist allerdings noch ausbaufähig.

Was bei diesen Angeboten fehlt, ist eine interaktive Komponente, die Vermittlung von Wissen ist auf eine Art Fernsehschauen reduziert. Für bestimmte Arten von Veranstaltungen mag das ausreichend sein, andere leben aber davon, dass Fragen gestellt werden können, dass Lernfortschritte von beiden Seiten (Lehrende und Lernende) durch Hausaufgaben oder Klausuren überprüft werden und dass Teilnehmer|innen unter sich und mit der Dozentin bzw. dem Dozenten ins Gespräch kommen. Sehr interessant ist da z.B. der Ansatz, den Christian Spannagel mit seinem “inverted classroom” verfolgt: Er hat seine Mathevorlesung in einem früheren Semester aufgezeichnet, seitdem müssen sich die Teilnehmer|innen diese zu bestimmten Terminen anschauen und Aufgaben lösen, die den dort behandelten Stoff betreffen. Die gemeinsam verbrachte Zeit, die sonst für die Vermittlung des immer gleichen Stoffs draufgegangen ist, steht jetzt zur Verfügung, um Fragen zu den behandelten Themen zu klären und darüber zu diskutieren. Ich könnte mir gut vorstellen, etwas ähnliches irgendwann mal bei meiner Einführung in die Computerlinguistik oder bei unserem Java-Programmierkurs zu versuchen.

Worauf ich eigentlich hinauswollte (mal wieder gerät eine Hinführung zu meinem intendierten Blogthema länger als geplant) ist die Vorstellung zweier Plattformen, auf denen komplette (bisher lediglich englischsprachige) Online-Kurse besucht werden können: Udacity und Coursera. Während die Kurse bei Udacity momentan noch sehr auf technische Themen beschränkt sind, stellt sich Coursera bereits etwas breiter auf, insgesamt kann man Kurse aus 16 Kategorien belegen, die von (zufällig auch) 16 verschiedenen Universitäten angeboten werden.

Die 16 Universitäten, die bei Coursera mitmachen – auch die Ivy-League ist vertreten.

Ich selbst habe sehr gute Erfahrungen mit dem Kurs “Natural Language Processing” von den beiden NLP-Koryphäen Dan Jurafsky und Christopher Manning (Stanford University) gemacht. Gut, ich war jetzt nicht die direkte Zielgruppe (schließlich bin ich kein Undergraduate mehr), dennoch hatte ich viel Freude bei der Sichtung der Videos mit den beiden Dozenten, der Lösung der Programmieraufgaben und der Mini-Klausuren, die jede Woche gestellt wurden. Eine starke Motivation, die Aufgaben möglichst gut und vor allem rechtzeitig einzureichen war, dass es ansonsten Punktabzüge setzte. Das wollte ich tunlichst vermeiden, weil es irgendwie meinen Sportsgeist herausgefordert hatte, den Kurs möglichst gut zu bestehen. Klar musste ich auch abwägen zwischen Aufwand und Ertrag, so dass ich nicht jede Programmieraufgabe bis zur 100%-Bewertung optimiert hatte, dennoch bin ich mit dem Ergebnis, das bei mir auf dem am Ende des Kurses verschickte Diplom steht, größtenteils zufrieden.

Um das Diplom ging es mir aber gar nicht, vielmehr wollte ich erstens die Möglichkeiten eines Online-Kurses einmal selbst an einem konkreten Beispiel testen, zweitens meine Vermittlungsmethoden und den Aufbau meines Kurses hinterfragen und eventuell neu ausrichten. Dass ich dafür ein Angebot von zwei der bekanntesten und didaktisch wirklich verdammt guten Computerlinguisten nutzen konnte, hätte ich vor einiger Zeit auch nicht gedacht – das ist eben eine Möglichkeit, die ich erst seit Coursera habe. Klar werde ich den Kurs nicht 1:1 übernehmen – nicht alle meine Studierenden können bereits programmieren, wenn sie meine Veranstaltung belegen, außerdem setzt der NLP-Kurs bereits die Kenntnis linguistischer Einheiten voraus, was bei mir nicht möglich ist. Aber einiges werde ich tatsächlich, v.a. in den zweiten Teil meiner Veranstaltung, einbauen können. Und ich werde allen, die bei uns die Basismodule zusammenhaben, empfehlen, die nächste Ausgabe des NLP-Kurses zu besuchen.

Die Frage ist natürlich, ob über solche Plattformen den Unis (und damit auch mir) das Wasser abgegraben wird, weil die Kundschaft (die Studierenden) ins Netz abwandern könnte, statt sich zur bisweilen nachtschlafender Uhrzeit in überfüllten und schlecht gelüfteten Seminarräumen mit weniger koryphäigen Dozent|inn|en herumzuschlagen. Ich würde diese Frage mit nein beantworten (klar, sonst hätte ich hier nicht so einen positiven Post drüber geschrieben). Nein, das Internet und seine Möglichkeiten werden natürlich nicht davor halt machen, auch die altehrwürdigen Universitäten umzukrempeln. Diese müssen einfach nur die Chancen ergreifen, die sich dadurch bieten – Die Vermittlung von Wissen kann tatsächlich zu einem (vielleicht sogar zum größten) Teil virtuell erfolgen. Was aber Jurafsky und Manning nicht leisten konnten, war, mit ihren (mehr als 3000 aktiven) Online-Studierenden ins Gespräch zu kommen, Abschnitte, die nicht verstanden wurden, auf eine andere Weise zu erklären, zu diskutieren, welche weitere Arten der Anwendung es für bestimmte Algorithmen geben könnte usw. usf. Solcherlei Dinge wurden zwar teilweise durch ein gut moderiertes Diskussionsforum aufgefangen, die meiner Meinung nach eine persönliche Betreuung nie ganz ersetzen können wird.

Wer sich jetzt fragt, warum ich hier über einen Kurs erzähle, der schon gelaufen ist und dessen nächster Termin noch gar nicht feststeht, dem sei gesagt, dass auf den beiden genannten Plattformen laufend neue Kurse starten, morgen z.B. eine – den Verlautbarungen in der Ankündigung nach zu urteilen – sehr grundlegende Einführung in die Statistik. Auch wenn ich auf dem Gebiet bereits über ein wenig Vorbildung verfüge, schaue ich dort mal hinein – irgendwie hab ich mir das meiste selbst beigebracht – eine strukturierte Einführung dürfte da nicht schaden, zumal für den Kurs auch nur überschaubare 6 Wochen angesetzt sind. Vielleicht trifft man sich ja dort im Forum.

Quelle: http://texperimentales.hypotheses.org/430

Artikel, Statistik

Wie man Äpfel mit Birnen vergleicht

20. August 2012 Keine Kommentare

Zur Abwechslung unternehme ich heute mal einen Ausflug in die Statistik. Ein Anlass dafür ist eine Diskussion auf Twitter, die ich kurz vor meinem Urlaub geführt habe (s.u.), ein anderer der, dass ich manchmal eine große Diskrepanz wahrnehme, zwischen der Rolle, die statistische Aussagen inzwischen in fast sämtlichen Forschungsbereichen spielen und dem Unverständnis, das dem Gebiet von weiten Teilen der Bevölkerung (darunter auch viele Wissenschaftler, die es eigentlich besser wissen müssten) entgegengebracht wird. Falsch angewendete quantitative Verfahren sind vielleicht auch mit ein Grund für Rants wie diesen, in dem statistischen Aussagen die potentielle Erklärkraft für die Geistes- und Sozialwissenschaften abgesprochen wird.

So tief will ich jetzt gar nicht in die Diskussion einsteigen (vielleicht mal in einem eigenen Post, der zoonpoliticon von den ScilogsenceBlogs ist auch schon darauf eingegangen). Vielmehr beschäftige ich mich mal mit dem geflügelten Wort, dass man Äpfel nicht mit Birnen vergleichen kann. Was ist, wenn man tatsächlich vor einem Problem steht, genau dies tun zu müssen? Wenn ich z.B. aus einer Sammlung von 50 Äpfeln und 33 Birnen, 10 Früchte auswählen darf und ich genau die besten Früchte erwischen will? Gibt es da nicht eine Methode, die mir die 10 besten Früchte ermittelt?

Nun ja, dazu benötigt man erst einmal ein Merkmal, das eine gute Frucht von schlechteren unterscheidet. Das ist in der Realität wahrscheinlich schlecht zu ermitteln, da dies hier ja nur ein Blogbeitrag ist (der mit der Realität also herzlich wenig zu tun hat) kann ich mir einfach ein solches Merkmal ausdenken. Möglich wäre z.B. ein schön ausgewogenes Verhältnis zwischen Fruchtumfang und Höhe. Oder eine besonders rothaltige Farbe. Oder eben ein möglichst hoher Fruchtzuckergehalt (abgekürzt FZG). Der Chefkoch auf der gleichnamigen Webseite (das ist die erste die meine Suchmaschine zu „Frauchtzuckergehalt Apfel Birne“ ausspuckte) behauptet, dass der durchschnittliche FZG von Äpfeln bei 5,7g/100g Frucht liegt, der von Birnen bei 6,7g/100g. Auf dieser Basis habe ich mir eine Verteilung für 50 Äpfel und 33 Birnen ausgedacht, die in folgender Abbildung visualisiert ist (x-Achse: FZG in mg/100g, y-Achse Anzahl der Früchte):
Ich habe hier ein wenig gepfuscht – der FZG-Gehalt wird wohl nicht durch eine stetige Variable dargestellt, sondern durch eine kontinuierliche. Um ein schönes Balkendiagramm hinzubekommen, musste ich die Werte also in Klassen einteilen. Beschriftet ist jeweils die Klassenmitte – unter 6000 finden sich also alle Früchte mit einem 5750 < FZG < 6249. Wenn ich mir jetzt einfach die Früchte mit dem höchsten FZG greife, dann bekomme ich ne Menge Birnen und nur wenige Äpfel, das liegt an der Natur, die Birnen mit mehr Süße ausgestattet hat (oder an den Züchtern, die genau dies forciert haben). Wenn ich aber irgendwie nur besonders (im Vergleich zu anderen) gute Birnen und besonders (in Vergleich zu anderen) gute Äpfel haben möchte, muss ich mir irgendwas überlegen, wie ich vergleichbare Werte bekomme.

Tatsächlich gibt es einen statistischen Kniff, den ich genau dafür anwenden kann – die sogenannte z-Transformation. Die funktioniert eigentlich ganz einfach – ich muss lediglich vom FZG jeder Frucht den FZG-Mittelwert abziehen und das Ergebnis durch die FZG-Standardabweichung teilen. Wenn ich verschiedene Populationen (hier z.B. Äpfel und Birnen) habe, dann errechne ich für jede den Mittelwert und die Standardabweichung getrennt. Am Ende habe ich dann vergleichbare Werte. Einfach, oder?

Vielleicht sollte ich noch kurz eine kleine Erläuterung zu den beiden Werten einstreuen. Der Begriff „Mittelwert“ (MW, Definition hier) sollte eigentlich jedem klar sein – es ist einfach der Durchschnitt über alle Einzelwerte. Für Äpfel ergibt sich im obigen Beispiel der MW 5500mg/100g Frucht, für Birnen der MW 6470. Der Begriff „Standardabweichung“ (SD, Definition hier) ist vielleicht nicht so geläufig. Er beschreibt die Streuung von Werten – hat eine Verteilung eine niedrige SD, so gruppieren sich die Werte enger um den MW, als bei Verteilung, die eine hohe SD haben – für das obige Beispiel habe ich die SDs 775 (für Äpfel) und 521 (für Birnen) ermittelt – Birnen haben durchschnittlich also einen höheren FZG, streuen aber weniger als Äpfel (d.h. ihre FZG-Verteilung ist homogener).

Was erreicht man jetzt genau damit, dass man von den ursprünglichen FZG-Werten den Mittelwert abzieht und dann das Ergebnis durch die Standardabweichung teilt? Man harmonisiert beide Verteilungen – beide haben fortan ihren MW bei 0 und auch ihre Streuung ist vergleichbar geworden (wenn Werte vorher zwischen -1000 und 1000 gestreut haben und die SD bei 500 lag, streuen sie jetzt zwischen -2 und 2. Gleiches gilt für Werte, die vorher zwischen -1 und 1 gestreut haben bei einer SD von 0,5). Für unser Beispiel ergibt sich nach der z-Tansformation folgendes Bild (und ja, ich habe aus Darstellungsgründen wieder unerlaubt klassifiziert und gerundet):

Man sieht direkt, dass die beiden Verteilungen jetzt voreinander liegen und ich nun wesentlicht mehr Äpfel als Birnen erhalte, wenn ich die Früchte auf der rechten Seite der Grafik (das sind die mit dem verhältnismäßig hohen Fruchtzuckergehalt) abgreife. Das liegt nun daran, dass die Apfel-Population auch ursprünglich größer war als die der Birnen. Man merke sich: Wenn beide Populationen hinsichtlich des gewählten Merkmals normalverteilt sind, dann entspricht das Verhältnis der Ergebnismenge im ungefähren dem der Ausgangsmengen.

Natürlich ist das ein an den Haaren herbeigezogenes Beispiel – niemand kommt auf die Idee, von jeder Frucht, die er/sie im Supermarkt auswählt, erstmal den Fruchtzucker zu messen. Allerdings wird genau dieses Verfahren von der Universität Wien angewendet, um ihre Medizinstudienplätze zu vergeben. Auf Twitter bat der @Fatmike182 darum, ob ihm jemand das z-Transformationsverfahren erklären könnte, was ich dann (auf Twitter kurz, hier länger) auch versucht habe. Später ging es dann auch noch darum, ob das Verfahren gerecht oder doch sexistisch ist. Schwierige Frage, ich halte es nicht unbedingt für gerecht – erstens sehe ich nicht ganz ein, weshalb man Männer und Frauen in unterschiedliche Populationen einteilt und damit für beide unterschiedliche SDs und MWs errechnet. Ja, es mag sein, dass Mädchen durch das (hier: österreichische) Schulsystem benachteiligt werden, so dass ihre Ergebnisse beim Eignungstest unter dem der (österr.) Buben liegen. Dann sollte man aber meiner Meinung nach an dem Punkt einhaken, wo diese Ungleichheit entsteht, nicht da, wo sie sich auswirkt. Zweitens ist ein solches Verfahren manipulierbar – man muss nur ne Menge Leute eines bestimmten Geschlechts überzeugen, auch (aber bitte erfolglos) beim Test mitzumachen, um die geschlechtsspezifischen Bewerberquoten zu erhöhen. Das hat dann zur Folge, dass die gleichgeschlechtlichen Bewerber ihre Chancen auf einen Studienplatz erhöhen.

Der @Fatmike182 hatte noch eingewendet, dass man sich die Rechnerei sparen könnte, wenn man einfach vorher festlegt, in welcher Zahl man Frauen und Männer ins Studium aufnimmt. Für normalverteilte Daten hat er da tatsächlich recht, allerdings kann es ja tatsächlich auch zu einer Verteilung wie dieser kommen: Nach der z-Transformation bleibt der kleine Hügel rechts in der Verteilung so bestehen. Um sicherzugehen, dass man überdurchschnittlich gute Bewerber/Äpfel auch tatsächlich berücksichtigt, kommt man also an ein wenig Rechnerei nicht vorbei.

Quelle: http://texperimentales.hypotheses.org/406

Artikel, Kryptoanalyse, Kryptographie, Kryptologie, tesla, Textprozessierung, Trithemius, v, Voynich Manuskript

Heldensage im Reisetagebuch

28. Juni 2012 Keine Kommentare

Vor ungefähr drei Jahren war ich mit meiner Promotion an einen Punkt gelangt, an dem ich die Entscheidung treffen musste, in welche Richtung sich meine Dissertation weiterentwickeln sollte. Wir hatten unser System Tesla schon zu einem guten Teil realisiert, die Darlegung zur Motivation der Entwicklung eines eigenen Komponentensystems – die Idee wirklich reproduzierbarer Experimente auf Textdaten beliebigen Formats – lag auch bereits in einer Rohform vor. Was fehlte, war ein Anwendungsfall, an dem ich die Funktionalität des Systems bestmöglich demonstrieren konnte. Und die Suche nach einem solchen geeigneten Untersuchungsobjekts hatte mich schon eine ganze Zeit beschäftigt. Eher zufällig stöberte ich dabei nochmal in einem Buch, dessen Lektüre bei mir schon etwas weiter zurücklag: Im wirklich empfehlenswerten Lexikon des Unwissens von Kathrin Passig und Aleks Scholz.1

Dabei fiel mir auf, dass das Voynich-Mauskript (VMS), dem im Lexikon ein Eintrag gewidmet ist, ein durchaus geeignetes Thema wäre, um die Anwendbarkeit von Tesla zu demonstrieren:

Das VMS enthält einen Text. Mit unbekannten Zeichen geschrieben, unbekannten Inhalts und unbekannter Herkunft. Aber einen Text. Und wir haben Tesla entwickelt, um sämtliche Texte analysieren zu können. Auch wenn der VMS-Text auf seine Art einzigartig ist, er sollte sich mit Tesla analysieren lassen.
Die Analysen zu VMS sind genauso zahlreich wie auch widersprüchlich. So gut wie alle denkbaren Theorien zur Herkunft oder Inhalt des Textes lassen sich irgendwo finden. Die glaubhaften Analysen einmal in einem System zu bündeln, in dem sie für die ganze Welt reproduzierbar sind, sollte nicht schaden.
Das VMS reizt natürlich auch durch seine geheimnisvolle Aura. Damals schon 97 Jahre zerbarsten daran die Theorien durchaus (bisweilen überaus) intelligenter Wissenschaftler und Nicht-Wissenschaftler, ohne dass jemand tatsächlich eine allgemein anerkannte Lösung zum Problem hatte liefern können.

Der Anspruch, den Text tatsächlich entschlüsseln zu können, wäre natürlich allzu vermessen gewesen. Das war auch von Anfang an nicht der Plan. Stattdessen wollte ich die Analysen, welche zu den seltsamen Eigenschaften des Manuskripttextes, die ich hier schon einmal thematisiert habe, in einer Umgebung zusammenführen, welche eine einfache Überprüfung der Analyse-Ergebnisse ermöglicht.

Eine aufgeschlagene Seite des Voynich Manuskripts - seltsame Zeichnungen, seltsamer Text. Quelle: en.wikipedia.org

Tatsächlich bin ich aber weiter gekommen, als ich anfangs annahm und wie es dazu kam, will ich hier kurz erzählen: Beim Studium der Literatur zum VMS – die nicht in allen Fällen wissenschaftlichen Ansprüchen genügt und wo sie dies tut, meist in Veröffentlichungen zu anderen Themen versteckt wurde – nahm ich als Grundtenor wahr, dass kein Chiffrierverfahren bekannt wäre, aus dessen Anwendung ein Text resultiert, der dem VMS-Text ähnlich wäre. Ebenso deuteten bestimmte statistische Eigenschaften darauf hin, dass es sich nicht um eine Transkription einer natürlichen Sprache handeln könne. Wenn es aber weder eine Chiffre noch eine unbekannte Transkription sein kann, so liegt die Vermutung nahe, der Text bestehe einfach aus einer sinnlosen Aneinanderreihung von Phantasiewörtern. Damit korrespondiert – semiotisch ausgedrückt – mit der Ausdrucksseite seiner Zeichen keine Inhaltsseite. Und weil ein Text ohne Inhalt auf gewisse Art ein Schwindel ist, wird die Hypothese, dass es sich beim VMS-Text um einen solchen handelt, auch Hoax-Hypothese genannt.

Irgendwie ist der Gedanke, das VMS sei nur ein Schwindel und es gäbe gar nichts zu entziffern, nicht besonders befriedigend. Mehr Charme hat da die Vermutung von William Friedman (einem der größten Kryptoanalytiker des 20. Jahrhunderts), der es für wahrscheinlich hielt, dass der VMS-Text ein früher Entwurf einer synthetischen Sprache a priori sei – ihm also eine Kunstsprache zugrundliege, die sich – im Gegensatz z.B. zum Esperanto – nicht an natürlichen Sprachen orientiert. Weil solche Sprachen aber scheinbar erst in der zweiten Hälfte 17. Jahrhundert entworfen wurden, das VMS aber relativ sicher schon Ende des 16. Jahrhunderts in Prag kursierte, ist diese These problematisch.

Mehr Charme ist jetzt nicht unbedingt ein wissenschaftliches Kriterium. Ich beschloss aber dennoch, Verschlüsselungsverfahren und Ansätze zu Universalsprachen im ausgehenden Mittelalter und der frühen Neuzeit zu recherchieren. Im Zuge dieser Recherchen zu stieß ich auf die Monographie von Gerhard Strasser2 zum Thema, in der dieser die Verbindung zwischen kryptographischen Verfahren und universell gedachten Sprachentwürfen beleuchtet. Ursprünglich wollte Strasser dabei auf die Universalsprachentwürfe des 17. Jahrhunderts eingehen, allgemein als die ersten ihrer Art angesehen. Er kann aber zeigen, dass schon viel früher – durch den Abt Johannes Trithemius (den ich u.a. schon hier für eine andere seiner Arbeiten gewürdigt habe) – eine Chiffre entworfen wurde, deren Anwendung etwas ergab, das wie das Resultat einer Kunstsprache aussieht, das aber ein verschlüsselter Text ist.

Konkret bezieht sich Strasser dabei auf die Teile III und IV der trithemischen Polygraphia. Die darin beschriebenen Verfahren funktionieren prinzipiell wie die aus den ersten beiden Teilen (die ich hier auch schon vorgestellt habe): Einzelne Buchstaben werden gemäß einer Ersetzungstabelle durch ganze Wörter ersetzt. Während aber die Ersetzungschiffren in den ersten beiden Teilen lateinische Wörter sind und die resultierenden Geheimtexte wie lateinische Gebete anmuten, sind sie in den darauffolgenden Büchern von Trithemius erdachte Phantasiewörter, der resultierende Text sieht demnach aus wie eine Phantasiesprache. Der sehr regelmäßige Aufbau der Phantasiewörter – an einen Wortstamm sind unterschiedliche Endungen angehangen – gemahnt Strasser an die Universalsprachentwürfe von Wilkins und Dalgano, die erst viel später, um 1660, entworfen wurden.

Je zwei Zeilen von Ersetzungschiffren aus der Polygraphia III und IV. In der Spalte ganz links finden sich die zu ersetzenden Buchstaben.

Die Tatsache, dass nun doch um 1500 schon eine Möglichkeit beschrieben wurde, wie ein Text erzeugt werden kann, der wie das Produkt einer Kunstsprache aussieht, fesselte mich natürlich und ich beschloss, die Trithemischen Werke im Original zu konsultieren. Die Recherche führte mich in ein Mikrofichekabüffchen und den Lesesaal der historischen Sammlungen der hiesigen Universitätsbibliothek genauso wie in die Erzbischöfliche Buchsammlung zu Köln (womöglich wäre ich noch im Stadtarchiv gelandet, das aber gerade der Erdboden verschluckte) – alles spannende Orte, zu denen man als Computerlinguist unter normalen Umständen gar nicht vorstößt.

Ich werde nie vergessen, wie ich im Holzverschlag zur Mikrofichebetrachtung über das Lesegerät gebeugt stand, fieberhaft und ungelenk die kleine Folie weiterschob über die Tabellen der trithemischen Polygraphia, bis ich endlich im dritten Teil angekommen, überprüfen konnte, ob das, was ich mir auf Grundlage von Strassers Schilderung vorstellte, tatsächlich auch im historischen Werk zu finden war. Und wirklich hatte Trithemius einzelne Spalten mit Stamm-Endungs-Kombinationen versehen, die wie Flexionsparadigmen aussahen (auch die “Wörter” des VMS weisen ähnliche Eigenschaften auf). Noch phantastischer war, dass die manuelle Strichliste, die ich nebenbei über die Wortlängenverteilung der Ersetzungstabellen führte, eine Binomialverteilung ergab (ebenso wie die VMS-”Wörter”, siehe auch hier). Dank Patrick Sahle hatte ich dann bald auch die Möglichkeit, die Polygraphia an meinem Schreibtisch zu studieren, der sich als die langweiligere, aber effektivere Arbeits-Location erwies.

Dort konnte ich mich dann weiteren Überlegungen zur Operationalisierung der von mir ja erst per Augenmaß festgestellten Ähnlichkeiten zwischen den beiden Texten widmen. Dabei hatte ich stets die Warnung von Kennedy und Churchill3 vor Augen, dass das VMS ein Spiegel sei, in dem jeder nur seine eigenen Vorurteile und Hypothesen bestätigt sieht. Insbesondere musste ich erst einmal Werkzeuge entwickeln, die mir erlaubten, den VMS-Text einzulesen und Polygraphia-III-Texte zu erzeugen, diese in Analyseeinheiten zu unterteilen und schließlich statistische Eigenschaften, die ich nicht einfach per manueller Zählung ermitteln konnte, auszuwerten. Ich befand mich erst am Anfang eines langen Prozesses, an dessen Ende die Fertigstellung und Veröffentlichung meiner Dissertation und die der duchgeführten Experimente stand.

Irgendwann später las ich das Bonmot von Ortoli und Witkowski: “Zwischen der Wissenschaft, wie sie die Öffenlichkeit erträumt oder die Medien feiern, und der Wissenschaft, wie sie die Forscher täglich praktizieren, besteht dieselbe Diskrepanz wie zwischen Heldensage und Reisetagebuch.” Da dachte ich, dass - zumindest bei mir im Kopf – genau diese Diskrepanz für einen kurzen Moment aufgehoben war.

1 Katrin Passig, Aleks Scholz: “Lexikon des Unwissens. Worauf es bisher keine Antwort gibt.” Rowohlt Berlin; Auflage: 7 (2007)

2 Gehard Strasser: “Lingua Universalis: Kryptologie und Theorie der Universalsprachen im 16. und 17. Jahrhundert” (Wolfenbütteler Forschungen 38) Harrassowitz, Wiesbaden (1988)

3 Gerry Kennedy und Rob Churchill: “Der Voynich-Code: Das Buch, das niemand lesen kann” Rogner & Bernhard bei Zweitausendeins (2005)

4 Sven Ortoli und Nicolas Witkowski: “Die Badewanne des Archimedes: Berühmte Legenden aus der Wissenschaft” Piper Taschenbuch (2007)

Anm: Drei der vier aufgeführten Bücher sind das, was gemeinhin und bisweilen abschätzig als populärwissenschaftliche Veröffentlichungen bezeichnet wird. Eine ganze Reihe meiner Links führen außerdem zur Wikipedia. Ich halte den Einbezug beider Arten von Quellen für durchaus legitim in einem Blog, der versucht, die eigene wissenschaftliche Tätigkeit etwas populärer zu machen. Dass manche das anders sehen, weiß ich inzwischen auch. Da kann man aber auch gerne mit mir diskutieren. Nebenbei: Untersuchungen zum Voynich Manuskript tragen im Wissenschaftsbetrieb nicht gerade zur Kredibilität bei, was wohl auch ein Grund dafür ist, dass sich so wenige wirkliche Spezialisten mit dem Thema beschäftigen oder aber ihre Ergebnisse in Unterkapiteln anderer Veröffentlichungen (z.B. in einer Einführung in die Programmiersprache BASIC, kein Witz) verstecken. Bei mir ist das ja auch irgendwie der Fall gewesen.

Quelle: http://texperimentales.hypotheses.org/278

Artikel, tesla, Visualisierung

Visualisierung von Ergebnissen

15. Mai 2012 Keine Kommentare

Anlässlich mehrerer Tagungen, auf denen wir Tesla präsentieren dürfen, haben wir ein wenig an der Visualisierung von Experiment-Ergebnissen gearbeitet, v.a hat Stephan die neueste Version seines WordCloud-Erzeugers Cloudio in den Client von Tesla integriert. Damit können jetzt Wortwolken, wie die oben im Titelbild meines Blogs, innerhalb von Tesla erzeugt werden.

Ich möchte die Gelegenheit nutzen, die bisher implementierten Tesla-Visualisierer hier im Blog vorzustellen, bevor wir heute das nachmittag ab 15:15 Uhr live im TextGrid-Café tun. Visualisierung wird vor allem da benötigt, wo die automatische Evaluation von Ergebnissen zu kurz greift und die Forscherin/der Forscher, der experimentell arbeitet, ihre/seine Ergebnisse mittels ihres/seines Intellektes überprüfen will. Wie es das Thema verlangt, werden hier mehr Screenshots denn Texte im Vordergrund stehen.

Alle folgenden Visualisierungen basieren auf den Ergebnissen eines einzigen Experiments, [das irgendwann im Laufe der Woche von Alena bei der Plattform MyExperiment geshart wird, ich binde den Link dann ein]. Dabei geht es eigentlich nur um eine Studie zu einer Methode, temporale Ausdrücke aus Texten zu extrahieren. Der zugehörige Workflow sieht im Editor wie folgt aus:

Oben im Workflow finden sich Wikipedia-Texte, deren temporale Ausdrücke vorausgezeichnet wurden. Auf der linken Seite befindet sich die Komponenten, deren Zusammenspiel diese temporalen Ausdrücke (ohne die Kenntnis der Vorauszeichnungen) ermitteln soll. Auf der rechten Seite steht, relativ allein, die Evaluationskomponente, welche die Menge der vorausgezeichneten Ausdrücke mit der Menge der experimentell ermittelten vergleicht.

Nach der Ausführung des Experiments steht zunächst eine Ergebnis-Übersicht zur Verfügung, in der Informationen zu den einzelnen Komponenten abrufbar sind, hier schreibt z.B. die Evaluationskomponente ihre ermittelten Werte zur Precision, Recall und F1-Wert hinein:

Möglicherweise ist am aber nicht nur an den Evaluationsmaßen interessiert, sondern auch daran, welche der vorausgezeichneten Ausdrücke denn nun gefunden wurden und welche nicht. Dabei möchte man vielleicht auch direkt den Kontext sehen, in dem sich die (nicht) gefundenen Ausdrücke befinden. Hierfür bietet sich z.B. ein farblich unterlegter Text an:

In dieser Visualisierung sind die vorausgezeichneten (rot) und die ermittelten (gelb) temporalen Ausdrücke markiert. Überlappen sich beide, so werden sie mit der Mischfarbe (orange) markiert. Hier sieht man, dass der Versuchsaufbau für Datums-Angaben verschiedenen Formats recht gut funktioniert und noch Verbesserungen hinsichtlich von zeitbezogenen Wörtern eingebracht werden könnten (etwa durch Erweiterung der Gazetteer-Listen).

Vielleicht möchte man aber auch eine Aufstellung allerermittelten temporalen Ausdrücke haben. Dafür hat Tesla eine Tabellen-Visualisierung (Tabellen können auch direkt in ein csv-Format exporiert werden, um sie woanders weiter zu verarbeiten):

Außerdem verfügt Tesla noch über eine Visualisierung in Klammerstruktur (um etwa Dominanzbeziehungen zwischen Elementen im Text auszudrücken, den Sceenshot spare ich mir ausnahmsweise mal) und eben über die WordCloud, die zumindest visuell momentan der Höhepunkt jeder Tesla-Präsentation ist, auch wenn es nicht für jedes Datum Sinn macht, es in einer Cloud darzustellen. In der folgenden Abbildung sind etwa alle temporalen Ausdrücke nach ihrer Häufigkeit aufgetragen. Kann man nicht unbedingt für Interpretationszwecke nutzen, schön aussehen tut es dennoch:

Soweit meine kurzen Ausführungen zu den bereits in Tesla integrierten Visualisieren. Wir wissen selbst, dass es noch eine Menge von Möglichkeiten gibt, die zu integrieren sich wirklich lohnen würde, etwa einen Datenplotter und Darstellungsmöglichkeiten für statistische Auswertungen. Auch die allen Visualisierungen zugrundeliegende Datenstruktur ist historisch gewachsen und inzwischen überarbeitungsbedüftig. Ist auf der Liste der nice-to-haves. Ob wir wirklich noch mehr realisieren können hängt aber vor allem von potentiellen Geldgebern ab (sonst haben wir soviel anderes zu tun). Wir hoffen mal das Beste.

Quelle: http://texperimentales.hypotheses.org/229

Artikel, news, tesla

Neuigkeiten 1204

27. April 2012 Keine Kommentare

Nach einem abermaligen kurzen Ausflug in die historische Kryptographie komme ich nun wieder zum Kerngeschäft dieses Blogs zurück und berichte über die aktuellen Entwicklungen rund um Tesla, unserem Labor für Textwissenschaftler.

Momentan wird ein Großteil unserer Zeit davon beansprucht, abzuwägen, welche Weiterentwicklungen von Tesla wünschenswert und gleichzeitig förderungswürdig sind. Relativ sicher sind wir uns da hinsichtlich der Integration von Tesla in die Software, die innerhalb des Projekts TextGrid entstanden ist. Die ersten Gespräche haben dazu schon (mit sehr netten Leuten übrigens) stattgefunden, und wie es aussieht, sind beide Seiten der Meinung, dass die Systeme bisher relativ komplementäre Funktionalität bieten und dass eine Integration der beiden großen Gewinn für die geisteswissenschaftliche Community böte, auf die sowohl TextGrid wie auch Tesla ausgerichtet sind. Ich bin sehr gespannt, wie die weiteren Schritte diesbezüglich ausfallen, wenn wir uns im Rahmen des TextGrid Summit 2012 nochmal zusammensetzen.

Jenseits der TextGrid-Tesla-Integration gibt es aber auch noch eine Reihe weiterer Verbesserungen unseres Systems, die wir gerne in Angriff nehmen würden. Ich hatte ja bereits über die Möglichkeit gebloggt, Tesla-Experimente über das wissenschaftliche Social Network MyExperiment auszutauschen. Mit ein wenig Zeit könnte man die entsprechende Schnittstelle in einer Art ausbauen, dass der Upload aller relevanten Daten (Komponenten, Texte, Screenshot etc.) mit einem einzelnen Mausklick erfolgt. Weiterhin könnte beispielsweise die Unterstützung von Werkzeug-Entwicklern etwas komfortabler gestaltet werden, zur Zeit muss man noch viel zu Fuß erledigen, was eigentlich automatisierbar wäre. Unsere Überlegungen gehen auch dahin, Tesla Cloud-Computing-fähig zu machen, so dass wirklich komplexe Berechnungen auf wirklich großen Datenmengen in akzeptabler Zeit ermöglich werden. Stephan testet zur Zeit das Clustering von Vektoren auf Grafikkarten und erreicht damit eine schon jetzt beeindruckende Performance-Gewinne. Wenn man sich jetzt vorstellt, dass man nicht nur eine, sondern eine ganze Reihe von Grafikkarten nutzt (z.B. die unserer Computerpools zu Zeiten, in denen diese nicht öffentlich genutzt werden), so könnte man in ganz neue Sphären von Experiment-Setups in der Textprozessierung vorstoßen.

Abgesehen von dieser Zukunftsmusik (die wahrscheinlich auch nur gespielt wird, wenn wir Gutachter davon überzeugen können, dass es sich um wirklich förderungswürdige Vorhaben handelt) entwickeln wir Tesla gegenwärtig natürlich auch schon weiter. Zentral ist dabei momentan die vollständige Umstellung des Build-Prozesses auf Maven sowie der Umzug des Source-Codes auf GitHub. Im Rahmen einer Bachelorarbeit bei uns am Institut entstand vor kurzem auch ein Reader für TEI-codierte Dramen. Außerdem sind in letzter Zeit eine Reihe von Leuten auf uns zugekommen, die ihre Projekte mit Tesla bearbeiten wollen und die wir dabei gerne unterstützen. Daran, dass diese Anfragen aus sehr unterschiedlichen Fachbereichen kommen – Linguisten aus verschiedenen Philologien (Anglisten, Romanisten und Skandinavisten), Sprachtechnologen und sogar Geographen – kann man auch ersehen, dass Tesla keinesfalls nur auf Computerlinguisten ausgerichtet ist.

Wir stellen Tesla übrigens im nächsten Monat gleich zweimal vor, zuerst auf dem schon oben erwähnten TextGrid-Summit (Systemdemo/Postersession 15.5. an der TU Darmstadt), danach auf der TaCoS (Vortag 1.6. an der Uni Trier). Auf diesem Weg noch einmal herzlichen Dank für die beiden sehr netten Einladungen! Vielleicht sieht man sich ja.

Quelle: http://texperimentales.hypotheses.org/205

Artikel, Kryptographie, Kryptologie, Polygraphia

Eine geheime Aufforderung zum Karfreitagstanz

8. April 2012 Keine Kommentare

Im heutigen Post möchte ich eine der aufwendigsten Verschlüsselungsmethoden vorstellen, die aber – vor allem für kurze Texte und trotz ihres Alters von mehr als 500 Jahren – sehr sichere Geheimtexte erzeugt, die man im Zweifelsfall gar nicht als solche erkennt. Und da ich den Post am langen Osterwochenende schreibe und veröffentliche, verpacke ich die Darstellung in eine Rahmenhandlung, die zu diesem christlichen Fest (und gewissen Einschränkungen, die in seinem Rahmen bezüglich öffentlicher Vergnügungen gelten) passt. Stellen wir uns vor, wir bekämen am Karfreitag eine gedruckte Einladung zu einer Karfreitagsmesse in die Hand, auf der der folgende Leitspruch (oder wie man das auch immer nennt) abgedruckt wäre:

“Redemptor clemens stabiliens vitam iustis suis in paradiso amen.”

Wenn man sich an ein paar Bröckchen Latein erinnert (so wie ich), so könnte man sich vielleicht zusammen konstruieren, dass irgendwie von einem barmherzigen Erlöser und wahrscheinlich dem Garten Eden die Rede ist und sich dabei ein wenig über die getroffene Wortwahl wundern. Altphilologen würden wohl skeptischer werden ob der Holprigkeit des Ausdrucks. Niemand aber könnte wohl erahnen, dass es sich um eine versteckte Aufforderung handelt, das behördlicherseits streng kontrollierte Tanzverbot am stillen Feiertag zu ignorieren. Verschlüsselt wurde diese Aufforderung mit einer Methode, die beschrieben wird im ersten Buch der sechsteiligen Polygraphia von Johannes Trithemius. Leser dieses Blogs, die schon zu Posterous-Zeiten dabei waren oder über den Übersichts-Artikel den ersten und den zweiten Teil zur Entschlüsselung der Steganographia III gelesen haben, ist der Name Johannes Trithemius bereits ein Begriff. Ich habe ihn als Abt des Klosters Sponheim im Übergang vom 15. zum 16. Jahrhundert vorgestellt. Wegen einer unguten Geschichte hinsichtlich der Rezeption seines ersten Buchs zu Geheimschriften (eben der Steganographia) stellte er sein Amt dort zur Verfügung und war bei der Fertigstellung der Polygraphia bereits der Abt des Klosters Würzburg. Ich hatte den Ablauf der Ereignisse, die Trithemius zum Klosterwechsel veranlassten, bereits in den beiden erwähnten Posts thematisiert, das Problem lag in der explosiven Kombination einer großspurigen Vorankündigung des Werks, einer Menge arkanen Popanz im Buch sowie einem Abt, der lieber den überlegenen Geheimniskrämer gab, als glaubhaft darzulegen, dass das, was wie magischer Schnickschnack aussah, in Wirklichkeit durchdachte Chiffriermethoden waren. Trithemius wiederholt diese Fehler im Falle der Polygraphia nicht, dem Buch geht – zumindest oberflächlich betrachtet – jeder Anschein des Geheimnisvollen ab. Mit der Polygraphia wird aber etwas eingelöst, was schon für die Steganographia angekündigt war: Die Beschreibung eines Verfahren, mit dem – wie Trithemius behauptet – ein ungelehrter Mann innerhalb von zwei Stunden das Lateinische lesen, schreiben und verstehen können soll. Dieses Verfahren entpuppt sich bei näherem Hinsehen allerdings eher als eine raffinierte Chiffriermethode denn als tatsächliches Lernprogramm für die lateinische Sprache. Dessen ungeachtet wird der Ansatz später sowohl ins Französische (durch Gabriel des Collange 1561) als auch ins Tschechische (durch Raphael Mnishowsky, um 1628) übertragen, um es tatsächlich als Lernverfahren für das Französische bzw. Tschechische einzusetzen. Beides kann eigentlich nicht wirklich funktioniert haben. Bessere Aussichten hatte da die Entlehnung der Methode als Chiffre. Betrachten wir aber zunächst ihre Funktionsweise. Neben einer kurzen lateinischen Beschreibung zu Anfang finden sich in der Polygraphia I 383 Listen, die aus jeweils 24 untereinander platzierten Wörtern bestehen. Zusammengenommen ergeben diese Listen eine über mehr als 100 Seiten laufende Tabelle, die sich aus 24 Zeilen und 383 Spalten zusammensetzt. Die ersten sechs Spalten finden sich in der Tabelle unten.

Die ersten 6 Spalten der Polygraphia I. Vor der sechsten Spalte sieht Trithemius ein "suis in", dahinter ein "amen" vor.

Wie die Tabelle andeutet, stehen die 24 Zeilen der Tabelle für 24 Buchstaben des Alphabets (im Vergleich zu dem heute bei uns gebräuchlichen Alphabet fehlen die Buchstaben j und v). Für jeden dieser Buchstaben hat Trithemius 383 verschiedene Wörter zusammengestellt, welche diese ersetzen können. Insofern kann man hier von einer Substitutionschiffre sprechen, die für jeden Klartext-Buchstaben 383 Geheimtext-Homophone bereitstellt. Die Anordung der Wörter in der Tabelle aber ist auf eine beeindruckende Weise ausgeklügelt: Jede Spalte enthält nur Wörter mit gleichen morphosyntaktischen Merkmalen (die erste Spalte etwa nur maskuline Nomen im Nominativ). Benachbarte Spalten sind dabei so gewählt, dass sich sowohl ein syntaktischer wie auch ein semantischer Anschluss ergibt, egal welche Kombination von Wörtern (als Chiffren für eine Buchstabenkombination) auch ausgewählt werden. Ersetzt man mit Hilfe dieser Tabellen einen Klartext sukzessive Buchstaben für Buchstaben mit einem Wort der jeweils nächsten Spalte, so ergibt sich damit ein lateinischer Text, der an ein Gebet erinnert. Der Geheimtext ist damit nicht nur verschlüsselt, sondern zugleich auch maskiert, das heißt – zumindest für Laien – nicht als verschlüsselter Text erkennbar. Aus diesem Grund wurde das Verfahren später auch als Ave-Maria-Chiffre bezeichnet. Das Verfahren ist (wie eigentlich alle trithemischen) sehr innovativ und durch die Kombination von steganographischen (versteckenden) und kryptographischen (verschlüsselnden) Elementen auch doppelt sicher – man muss ja erst einmal darauf kommen, dass man es überhaupt mit einer verschlüsselten Botschaft zu tun hat. Selbst wenn man um diese weiß, dürfte es so gut wie unmöglich sein, den Klartext auf irgend eine Weise zu rekonstruieren, hat man nicht die Ersetzungstabelle (in diesem Fall eine Ausgabe der Polygraphia) zur Hand. Das Verfahren weist allerdings auch eine Reihe von Nachteilen bezüglich seiner Anwendung auf:

Der verschlüsselte Text ist um einiges länger als die ursprüngliche Nachricht – schließlich werden ja einzelne Buchstaben durch ganze Wörter ersetzt.
Nach 383 Klartextzeichen kommt man am Ende der Ersetzungsspalten an. Beginnt man einfach wieder von vorne, so öffnet man ein Einfallstor für einen kryptoanalytischen Angriff auf den Geheimtext, weil sich zwangsläufig Wörter häufig wiederholen werden, die hochfrequent vorkommende Buchstaben ersetzen.
Sender und Empfänger müssen beide über die gleiche Ersetzungstabelle verfügen. Niemand anderem sollte diese zur Verfügung stehen.

Diese Schwierigkeiten waren wohl auch der Grund dafür, dass sich kaum Belege dafür finden lassen, dass die Methode auch Anwendung fand. Lediglich Blaise de Vigenère, der sich später auch einen Namen als Kryptograph machen sollte (die Vigenère-Chiffre ist um einiges berühmter als jedes trithemische Verfahren), weiss zu berichten, dass sich die Türken vom venezianischen Botschafter in Konstantinopel durch eine Ave-Maria-Chiffre haben täuschen lassen. Herzog August der Jüngere (der auch für den legendären Ruf der nach ihm benannten Bibliothek verantwortlich ist) führt in dem von ihm unter dem Pseudonym Gustav Selenus verfassten Handbuch zur Kryptographie zwei Adaptionen der trithemischen Ave-Maria-Chiffre auf, eine weitere lateinische vom italienischen Kryptologen Giambattista della Porta, sowie eine deutsche von einem unbekannten Autor (möglicherweise von ihm selbst). Mit letzterer lassen sich Geheimtexte erzeugen, die in Inhalt, Metrik und Rhythmus dem Vater-unser-Gebet ähneln (leider habe ich über das Wochenende keinen Zugriff auf das entsprechende Buch, so dass ich hier leider kein Beispiel präsentieren kann). Oben erwähnt hatte ich ja auch schon die Übertragungen ins Tschechische und ins Französische, um damit Sprachunterricht durchführen zu können. Vielleicht fehlt mir die Phantasie, wie der Sprachunterricht anhand von Wortlisten vonstatten gehen könnte, jedenfalls kann ich mir einen solchen nicht erfolgreich vorstellen. Natürlich kann ein des Lateinischen unkundiger die Polygraphia I nutzen, um ohne Probleme einen Text in einer Sprache, die er beherrscht, zu verschlüsseln. Er kann sie genauso nutzen, um einen verschlüsselten Text zu dechiffrieren. Dabei erzeugt und liest er zwar einen lateinischen Text, er versteht aber nicht im Mindesten dessen Inhalt. Es passiert ungefähr genau das, was in Searles chinesischem Zimmer vor sich geht – vorgetäuschtes Verständnis, ohne eine Sprache zu beherrschen. Insgesamt besteht die Polygraphia aus insgesamt sechs Teilen, von denen ich bisher lediglich den ersten erwähnt habe. Der zweite Teil unterscheidet sich vom vorherigen lediglich durch die auf die Tabelle verteilten lateinischen Wörter, auch Teil drei und vier sehen oberflächlich betrachtet aus, als würde das gleiche Prinzip weiter durchgehalten. Das stimmt aber nur zum Teil. Wie ich hier schon einmal kurz angedeutet habe, spreche ich dem Verfahren, welches in der Polygraphia III beschrieben wird, das Potential zu, einen Text zu erzeugen, der ähnliche statistische Eigenheiten wie der des Voynich Manuskripts aufweist. Dazu aber ein andermal mehr (wie immer – wer nicht abwarten kann, lese einfach hier weiter). Ach so – die versteckte Botschaft – die habt ihr euch doch aber schon längst selbst aus der Tabelle rekonstruiert, oder?

Quelle: http://texperimentales.hypotheses.org/156

analyse, Annotation, Artikel, tesla, text

“Und was kann man jetzt mit Tesla machen?”

28. März 2012 Keine Kommentare

Eine der am häufigsten gestellten Fragen an uns ist ohne Zweifel die nach den Verwendungsmöglichkeiten für Tesla. Die Frage kam bereits in den Kommentaren dieses Blogs auf, sie wird uns auf den Konferenzen gestellt, auf denen wir Tesla vorstellen, sie war sowohl Teil meiner Disputation, als auch der meines Kollegen Stephan Schwiebert.

Die Antwort auf die Frage ist relativ einfach: Mit Tesla kann man eigentlich alles machen, was auf maschinellen Annotationen oder einer automatischen Analyse von Texten beruht. Wie das mit einfachen Antworten so ist, ergibt sich aus ihnen meist eine ganze Reihe weiterer Fragen. So auch hier:

Was fällt denn alles unter den Begriff Texte?
Was kann man sich konkret unter maschinellen Annotationen vorstellen?
Und was unter automatischen Analysen?
Was bedeutet man kann eigentlich alles machen?
Gibt es denn Dinge, für die sich Tesla nicht eignet?
Aber es gibt doch auch das System XYZ, kann das nicht genau das Gleiche?

Versuche ich mal, diese Fragen zu beantworten, ohne dass allzu viele Folgefragen aufgeworfen werden (weswegen ich auch versuche, möglichst ohne sprachwissenschaftliche und informatische Fachbegriffe auszukommen):

(1) Wir verwenden den Begriff Text relativ weit gefasst. Texte sind für uns einfach alle Daten, die sich in einer linearen, eindimensionalen Abfolge von Zeichen aus einem definierten Alphabet repräsentieren lassen. Das gilt zunächst einmal für alle Daten, die sich irgendwie in einem herkömmlichen Computer speichern und verarbeiten lassen, letztlich arbeitet dieser ja mit Sequenzen von Nullen und Einsen. Wir meinen hier aber vor allem diejenigen Daten, die sich durch ihre eindimensionale Struktur auszeichnen. Darunter fallen vor allem natürlichsprachliche Texte, aber auch Text-Repräsentationen von DNA, RNA, Proteinen und auch von Musikstücken. Die Entscheidung, möglichst viele unterschiedliche Daten in Tesla verarbeiten zu können, wurde bewusst getroffen. Auf diese Weise können unterschiedliche Verfahren für spezifische Daten entwickelt werden, die dann gegebenenfalls auf andere Daten übertragen werden können. Tesla stellt außerdem keinerlei Anforderungen an das Format der Texte.

(2) Sprache ist zwar letztlich (spätestens beim Verlassen unseres Sprechorgans bzw. als Buchstabenfolge eines Textes) eindimensional organisiert: Mündliche Sprachmitteilungen bestehen etwa aus einer Folge von Lauten, schriftliche Texte aus einer Folge von Buchstaben. Über diesen mehr oder weniger grundlegenden Einheiten sprachlicher Kommunikation existieren jedoch weitere Organisationseinheiten wie Wörter oder Sätze, dabei gibt es unterschiedliche Wortklassen (z.B. Substantive, Verben) und Funktionen (z.B. Objekt, Prädikat). Alle diese Einheiten, Klassen und Funktionen sind implizit im Sprachsignal enthalten, um sie auswerten zu können, müssen die Sprachdaten explizit mit ihnen ausgezeichnet (annotiert) werden. Das kann man entweder manuell machen (was gewisse Vor-, aber auch Nachteile hat) oder bestimmte dafür programmierte Werkzeuge machen lassen. Dazu gehören z.B. Tokenizer, die Wortgrenzen bestimmen, Tagger, die Wörter Wortklassen zuordnen und Parser, welche die Funktion von Wörtern oder Wortgruppen erkennen. Tesla besitzt eine ganze Reihe solcher Werkzeuge, mit denen sich Daten maschinell annotieren lassen.

(3) Annotationen wie in (2) beschrieben, sind meist eine Vorstufe zur Daten-Analyse, die man auch innerhalb von Tesla betreiben kann. Aus der unüberschaubaren Menge möglicher Analysen wähle ich hier ein Beispiel aus dem Bereich Informationsextraktion (IE). IE ist eine Art Oberbegriff für Verfahren, die aus unstrukturierten Daten (z.B. Texten) strukturierte Daten (z.B. Tabellen in einer Datenbank) ableiten. Ein Anwendungsfall für IE-Verfahren ist die sogenannte Sentiment Analysis (zu deutsch etwa “Stimmungserkennung”), wo Texte z.B. nach positiven und negativen Einstellungen hinsichtlich eines Untersuchungsgegenstandes (Mobiltelefon, Hotel, Fluggesellschaft oder was auch immer) klassifiziert werden. Soll eine solche Klassifikation automatisch erfolgen, so benötigt man einerseits annotierte Texte, um Wörter und Wortgruppen ausfindig zu machen, von denen die Wertung des Textes abhängt, so wie spezielle Adjektive, Gradpartikel, Negationen etc. Man spricht davon, dass bestimmte Merkmale in Texten ausfindig gemacht werden. Mit diesen Merkmalen wird dann ein Klassifikationsmechanismus gefüttert, welcher auf dieser Basis die Texte in Klassen einteilt (also z.B. in gute und schlechte Bewertungen). Die beschriebene Sentiment-Analyse ist nur ein mögliches Verfahren, das in Tesla realisiert werden kann. Inzwischen haben wir eine ganze Bandbreite verschiedener Verfahren in Tesla realisiert, ich etwa habe das Voynich Manuskript damit analysiert, meine Kollegen arbeiten zu den Themen Extraktion syntaktischer Strukturen und Bedeutungskonstitution in natürlichsprachlichen Daten. Innerhalb eines Projekts wurden außerdem Vorarbeiten zur beschriebenen Sentiment-Analyse und der Extraktion temporaler Ausdrücke sowie von Gen-Bezeichnungen durchgeführt.

(4) Tesla ist ein Framework, in dem Werkzeuge zur Annotation und Analyse von Texten sowohl programmiert wie auch genutzt werden können. Was genau zu einem bestimmten Zeitpunkt in Tesla umgesetzt werden kann, hängt von der Ausstattung des Systems zu diesem Zeitpunkt ab. Zur Zeit umfasst das Inventar etwas mehr als 60 verschiedene Komponenten, manche Funktionalität ist gleich durch mehrere Werkzeuge abgedeckt (so gibt es z.B. zwei Tokenizer – einen, der sehr einfach zu bedienen ist, einer der sehr umfassend konfiguriert werden kann). Eine Übersicht zu den vorhandenen Komponenten findet sich auf der Tesla-Entwicklerseite. Prinzipiell (also eigentlich) kann man mit Tesla also alles machen, was in den Bereich der automatischen Prozessierung von Texten fällt. De facto beschränkt aber die aktuelle Ausstattung die momentan mögliche Anwendung – wobei man jederzeit die fehlende Funktionalität selbst implementieren kann.

(5) Man kann in Tesla nicht alles mit Texten machen, man kann nur alles machen, was sich automatisieren lässt. Alles, was mit manueller Auszeichnung zu tun hat, muss damit außerhalb von Tesla erfolgen – das bedeutet z.B., dass man nicht einfach in einem Editor die automatisch erzeugten Ergebnisse korrigieren kann. Hinter dieser Einschränkung steht die Überlegung, dass wir ein System haben wollten, in dem Analysen durchgeführt werden können, die absolut nachvollziehbar sind. Solange man lediglich Software-Algorithmen (die deterministisch sind, also keinen nicht reproduzierbaren Zufalls-Effekt enthalten) arbeiten lässt, hat man die Möglichkeit – so denn die geeigneten Vorkehrungen getroffen wurden – die Analysen jederzeit zu wiederholen und weiterzugeben, auf dass sie woanders reproduziert werden können. Ließe man manuelle Eingriffe in diesem Prozess zu, verlöre man diese Möglichkeit. Ich habe schon mehrere Posts zu diesem Thema geschrieben, etwa diese Parabel, so dass ich es jetzt hier mal dabei belasse. Nebenbei – Tesla ist kein absolut fertiges System (wir haben es mehr oder weniger zu zweit gebaut), so ist etwa die Umsetzung von Maschinellen Lernverfahren, für die Trainingsphasen durchgeführt werden müssen, noch verbesserungsfähig.

(6) Ja, es gibt eine Reihe von Systemen, die ähnlich wie Tesla angelegt sind und auf manchen Gebieten tatsächlich mit unserem System konkurrieren. Dazu zählen Gate, Apache UIMA und TextGrid. Zu den Unterschieden komm ich aber mal ein andermal. Ungeduldigen sei diese Monographie empfohlen.

Ich hoffe, dass ich mit diesem Post ein wenig aufklären konnte, was Tesla tatsächlich ist. Was man damit so alles machen kann, konnte nur bruchstückhaft dargestellt werden (auf Visualisierungen, wie z.B. das Titelbild oben, bin ich noch gar nicht eingegangen). Dafür brauche ich wohl ein paar mehr Posts. Damit man sich aber schonmal ein Bild machen kann, wie Tesla aussieht, habe ich unten noch einmal einen Screenshot der Tesla-Benutzeroberfläche angehangen.

Ansicht der Benutzeroberfläche von Tesla für Anwender. Groß im Bild der graphische Editor, in dem man seine Analysen zusammenstellt.

Quelle: http://texperimentales.hypotheses.org/125

Artikel, Blog, übersicht, une

15 Artikel an einem Tag – Eine Übersicht

22. März 2012 Keine Kommentare

Möglicherweise hat sich jemand darüber gewundert, wie es zustande kommt, dass sich die Anzahl der Artikel dieses Blogs innerhalb von einer Stunde vervielfacht hat. Keine Angst, aus mir ist über Nacht kein hyperaktiver Blogger geworden, der neue Posts in Serie produziert. Ich habe vielmehr – wie bereits angekündigt – ein paar Artikel aus meinem ursprünglichen TEXperimenTales-Blog hierhin importiert. In diesen Posts wurden bereits einige Gedanken entwickelt, die ich in Zukunft hier weiter ausführen möchte, dazu nehme ich halt auch ein wenig redundante Datenspeicherung in Kauf (Informations-Puristen mögen mir verzeihen). Der Import bietet zudem eine gute Möglichkeit, meine bisherigen Ausführungen ein wenig ausführlicher, als das ihre Tags tun, zu klassifizieren: Das erste zentrale Thema, an dem ich mich in meinen Posts abgearbeitet habe, ist die für die Wissenschaft zentrale Forderung nach einer Reproduzierbarkeit von Ergebnissen. Zunächst habe ich ein grundsätzliches Problem, das mit dieser Forderung einhergeht, in einer Art Parabel dargelegt (1). Im anschließenden Post bin ich darauf eingegangen, auf welche Weise es gelöst werden könnte (2). Im Anschluss folgt eine Reihe von Artikeln, die einige zentrale Features unserer Software Tesla darstellen. Tesla ist (unter anderem) unser Lösungsvorschlag für das Reproduzierbarkeitproblem für den Bereich der Textwissenschaften. Da ist zunächst die Erklärung, weshalb wir Tesla als ein Labor für Textprozessierer ansehen (3), dann lege ich dar, woraus Tesla-Experimente bestehen (4). Darauf folgt eine etwas detailliertere Beschreibung, wie man Tesla-Experimente anlegt und durchführt (5), sowie eine Kurzanleitung zum Import von andererleuts Experimenten (6). Obwohl es zu Tesla noch eine Menge mehr zu schreiben gäbe, bin ich in den folgenden Posts ein wenig vom Thema abgekommen, auch weil gerade da die Veröffentlichung meiner Dissertationsschrift anstand. Diese hat zwar Tesla als Hauptthema, das System wird aber anhand eines Anwendungsfalls aus der Kryptologie präsentiert. Das Thema Kryptologie eignet sich auch gut für die Behandlung in Blog-Artikeln, so dass ich dazu gleich einige verfasst habe: Zu meinen kryptologischen Experimenten aus der Dissertation (7); Zu einer phantastischen Kryptoanalyseleistung jüngeren Datums (8) und (9); sowie zur Schrägheit eines Dokuments, das vor fast genau 100 Jahren gefunden wurde (10). Die restlichen Posts betreffen Ankündigungen von Dissertationsveröffentlichungen (11) und (12), sowie Gedanken über den wissenschaftlichen Austausch über Blogs und Twitter (13), (14) und zu Tesla als Werkzeug zur Erzeugung schöner Titelblätter (15). Soweit die Übersicht über die Artikel, die ich in den letzten paar Monaten geschrieben habe und die nun in die neue Heimat von TEXperimenTales umgezogen sind. Rückgeblickt ist jetzt jedenfalls für meinen Geschmack genug.

Quelle: http://texperimentales.hypotheses.org/116

« Zurück 1 … 9 10 11