Dozenten-Nähkästchen (II) – Seminarplanung

Im beginnenden Semester habe ich die Möglichkeit (wie hier berichtet), an Stelle eines meiner Pflichtkurse ein neu völlig zusammengestelltes Seminar anzubieten. Dazu ist zwar einiges an Organisation nötig, die man irgendwann vor Beginn des Semesters oder zumindest der ersten Vorlesungswoche (also vor heute) hinbekommen haben muss. Lustigerweise hatte Kathrin Passig heute auch die richtigen Tweets dazu:

 

Nachdem ich ein Thema gefunden und geändert, mir einen Zeitslot und einen Raum ausgesucht habe, bzw. mir habe zuweisen lassen (das war auch schon ohne Großbaustelle an der Uni Köln schwer genug, ist mir aber wider Erwarten doch einigermaßen schnell gelungen), konnte ich mich an die inhaltliche Planung setzen, in die ich hier einen kurzen Einblick geben will.

Der formale Rahmen einer Uni-Veranstaltung wird meist dadurch vorgegeben, dass man 16 Doppelstunden zur Verfügung hat, die man auf eine Art füllen muss, welche die Studierenden weder langweilen noch überfordern sollte. Und am Ende mit dem Gefühl zurücklässt, dass sie inhaltlich und methodisch etwas dazugelernt haben.

Als erstes braucht man ein Thema, das eine Klammer um das bildet, was man im Kurs beabsichtigt zu tun. Wie es aussieht, habe ich gerade einen Auftrag für unser Institut an Land gezogen, bei dem es genau um die Evaluierung unterschiedlicher Text-Mining-Methoden geht. Dieser ist noch nicht ganz in trockenen Tüchern, deswegen kann ich hier noch keine konkreten Angaben machen. Vage geht es darum, aus einem sehr großen Korpus relativ homogener Texte Informationen zu extrahieren, um diese in strukturierter Form (Datenbank) abzulegen. Die dort zu behandelnden Texte haben eine Art von Binnenstruktur, d.h. sie zerfallen in der Regel in drei Teile. Es ist einfacher, Informationen aus ihnen zu extrahieren, wenn man weiß, in welchem der drei Textteile man zu suchen hat. So bietet sich an, vor der Informationsextraktion eine Textklassifikation vorzunehmen, in der man versucht, diese Teile im Gesamttext auszumachen und zu labeln (Demnächst vielleicht mal etwas konkreter).

Nun ist es durchaus sinnvoll, die beiden Aufgaben – Projektbetreuung und Seminarangebot – miteinander zu verknüpfen, so dass beide Aufgaben davon profitieren können. In diesem Fall ist es auch durchaus legitim, da die von mir angebotene Übung zum Modulslot  ”Angewandte Sprachverarbeitung” wie die Faust aufs Auge passt. Es bleibt aber noch zu überlegen, wie das Seminar aufgebaut sein kann, so dass die Studierenden davon auch bestmöglich profitieren.

Einerseits braucht es natürlich eine Einführung in den Bereich Text Mining und seine Unterdisziplinen Information Extraction und Text Categorization. Dafür galt es einführende Literatur zu finden, an der ich mich im Unterricht orientieren kann und die damit von den Studierenden als Grundlage für meine Ausführungen herangezogen werden kann (ich könnte denen ja sonstwas erzählen). Es gibt inzwischen eine Reihe recht annehmbarer Lehrbücher zu den Themen, deswegen wurde ich dort relativ schnell fündig. Allerdings setzen die entsprechenden Kapitel meist eine gewisse Grundbildung in induktiver Statistik voraus, wenn man die angewendeten Methoden tatsächlich auch von Grund auf verstehen will. Für die Studierenden kann ich das nicht unbedingt voraussetzen weswegen ich noch eine Einführung in dieses Thema angesetzt habe. Ein dritter – in unserem Studiengang sehr wichtiger Bereich – betrifft die konkrete Umsetzung des Gelernten in einer Software-Lösung.

Zusammengefasst besteht das Seminar aus aus drei Oberthemen – dem konkreten Anwendungsfall (aus dem Bereich Text Mining), dem zugrundeliegenden Handwerkszeug (induktive Statistik) sowie der Art und Weise der Umsetzung (Software Implementierung). Nach dieser Grob-Strukturierung entschloss ich mich erst einmal eine Mind Map anzulegen1, welche speziellen Themen behandelt werden müssten und wie diese zusammenhängen. Das erste Resultat ist dieses hier gewesen:

Course-Text-Mining_37e2acb0

Diese Mind Map gibt mir einen Überblick darüber, was ich in den zur Verfügung stehenden 16 Semesterwochenstunden ansprechen sollte und hilft mir bei der Gliederung des Seminars und der Verteilung von Aufgaben, die durch die Studierenden in Form von Kurzreferaten übernommen werden können. Damit bin ich zwar noch nicht ganz durch, aber es bleiben ja auch noch ein paar Stunden Zeit bis zur ersten Sitzung…

1Hab ich mit Bubbl gemacht, ging erstaunlich problemlos online https://bubbl.us/

Quelle: http://texperimentales.hypotheses.org/1042

Weiterlesen

Dozenten-Nähkästchen (I)

In einem kleinen Fach wie der Informationsverarbeitung besteht das Curriculum – bedingt durch die sehr begrenzten Ressourcen – zu weiten Teilen aus Lehrveranstaltungen, deren Inhalte weitestgehend vorgegeben sind. Das geht natürlich auch zum Teil auf die Kappe des Bologna-Prozesses, in dessen Zuge u.a. Modulhandbücher eingeführt wurden, in denen bisweilen haarklein dokumentiert ist, was in welchen angebotenen Kursen für Inhalte behandelt werden müssen. Beziehungsweise muss das dort genau umgekehrt verschlüsselt werden – es zählt nicht der Input, also die Inhalte, die gelehrt werden, sondern der Outcome, mithin die Kompetenzen, welche die Besucher der Veranstaltung/des Veranstaltungsbündels im Modul erworben haben (sollten). Ob letzteres, was als toller Paradigmenwechsel gefeiert wurde, wirklich so viel sinnvollere Lehrveranstaltungen bedingt, sei dahingestellt. Ich selbst finde es gar nicht verkehrt, dass die Studierenden mit dem Modulhandbuch schwarz auf weiß bekommen, mit welchen Themen sie zu rechnen haben/was letztlich von ihnen verlangt wird und so weniger eventueller Willkür einzelner Dozentinnen oder Dozenten ausgesetzt sind.

Dass ich dem ganzen aufgeschlossen gegenüber stehe, liegt womöglich auch daran, dass ich jetzt schon lange genug dabei bin und die gegenwärtig geltenden Modulhandbücher sowie deren – hoffentlich im nächsten Jahr in Kraft tretenden – Nachfolger mitschreiben durfte. Oder musste. Und möglicherweise ist es leichter, wenn man sich an einen Plan halten muss, den man sich selbst ausgedacht hat. Lehrveranstaltungen, die über die Jahre nur schwach variieren, haben natürlich auch den Vorteil, dass sie in der Vorbereitung nur beim ersten Mal wirklich viel Arbeit machen. Ich habe in den letzten Jahren die je zweisemestrigen Kurse “Computerlinguistik” und “Softwaretechnologie: Java” (Seminar bzw. Programmierpraktikum) gegeben. Mit jedem Jahr wird die Vorbereitungszeit kürzer – die relevante Literatur ist gesichtet, Folien (bei denen bei mir eh immer nur wenig draufsteht) sind entworfen, Beispielanwendungen gefunden. Natürlich kommt bei so dynamischen Gebieten wie Computerlinguistik und Programmiersprachen immer etwas neues hinzu, das sich aber nach meiner Erfahrung relativ fix in einen bereits existierenden Plan einbetten lässt.

Pano-unikoeln-magnusplatz

Mit der Zeit wird es aber natürlich etwas langweilig, immer das gleiche zu unterrichten – bei aller Dynamizität der Inhalte. Deshalb habe ich schon in früheren Semestern mit Co-Dozenten Seminare zu ausgewählten Themen angeboten, die gerade ins Konzept passten (laufende Projekte, an denen ich gearbeitet habe oder Bereiche, die in meiner Dissertation eine Rolle spielten) und über mein Lehrdeputat, das ich verpflichtet bin, abzuleisten, hinausgingen. Mit mehr Fleiß hätte ich das vielleicht auch regelmäßig hinbekommen, es spielte hier aber auch eine Rolle, die Preise nicht zu verderben – es ergäben sich ja für die Bundesländer enorme Einsparpotentiale, wenn jeder Dozierende in seiner Freizeit regelmäßig zusätzliche Kurse ohne Bezahlung gäbe.

So war ich dann sehr froh, als wir am Institut Verstärkung bekommen haben und diese im nächsten Semester mein Programmierpraktikum übernehmen kann. Damit kann ich ein Seminar anbieten, dessen Inhalte ich weitgehend selbst bestimmen darf – es muss nur auf das Thema “Sprachverarbeitung” passen, was hinzukriegen sein dürfte. Eigentlich wollte ich diesen Blogpost dazu nutzen, zu beschreiben, auf welche Weise ein solches Seminar geplant werden kann. Das werde ich dann – so meine Bloglaune es will – im nächsten Teil berichten.

Bild: By A.Savin (Own work) [GFDL (http://www.gnu.org/copyleft/fdl.html) or CC-BY-SA-3.0-2.5-2.0-1.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/1026

Weiterlesen

Aus heiterem Himmel

Zu meiner außerordentlichen Freude, obschon bei Licht betrachtet völlig unverdienterweise ist TEXperimenTales von der Jury (die ich – in Unkenntnis der Zusammensetzung – gar nicht bestechen konnte) auf einen geteilten Platz 5 bei der Wahl zum #dehypoaward2014 gehievt worden. Das ist zwar ein Abstieg im Vergleich zum letzten Jahr, wo mein Blog (da allerdings vom Publikum) auf den 4. Platz gewählt wurde, aber in Anbetracht der Tatsache, dass die Frequenz der Beiträge merklich abgenommen hat, für mich zumindest überraschend. Der “quantitative Einbruch” wird auch in der ausführlichen Laudatio thematisiert, wo man sich auch den kleinen Seitenhieb, mir Authentizität zu unterstellen, nicht verkneift. Wie sagt man bei solchen Gelegenheiten: Diese Auszeichnung sei mir Ansporn und Verpflichtung zugleich!

Quelle: http://texperimentales.hypotheses.org/1022

Weiterlesen

Meta geht immer

Nicht-Bloggen ist ein selbstverstärkender Prozess, habe ich gemerkt. Je länger man die Finger vom Bloggen lässt, desto schwieriger wird es, wieder damit anzufangen. Da meine Blogpause jetzt schon fast ein halbes Jahr andauert, ergreife ich hier vielleicht den letzten Strohhalm, überhaupt nochmal ins Geschäft zu kommen, indem ich über das nicht-Bloggen schreibe.

Es ist ja nicht so, als wenn ich es nicht versucht hätte. Ein paar Themen waren mir schon eingefallen, zwei Posts hatte ich sogar schon relativ weit ausformuliert. Warum es dennoch nicht funktioniert hat, weiß ich nicht recht. Möglicherweise liegt es daran, dass man die Sicherheit verliert, wenn man eine Zeit lang ausgesetzt hat. Ist das überhaupt relevant, was ich da schreibe? Habe ich tatsächlich genug Wissen über das Thema zusammengetragen? Müsste ich mich nicht noch eingehender informieren, bevor ich mich öffentlich dazu äußere? Ist das nicht total langweilig, wie ich die Sache angegangen bin? Wo steckt der Clou? Ich brauche noch einen Clou!

Beim Twittern hatte ich ein ähnliches Erlebnis – nachdem ich mich für eine Weile etwas zurückgezogen hatte, musste ich auch erst wieder langsam hineinfinden. Und so ist auch hier meine Hoffnung, dass alles wieder gut wird. Ich habe nämlich mal gerne gebloggt. Und hiermit vielleicht den ersten Schritt in eine güldene Blogzukunft getan. Und jetzt schnell auf “veröffentlichen” klicken, bevor die Zweifel zu stark werden. :)

Quelle: http://texperimentales.hypotheses.org/1018

Weiterlesen

Geplante Sprachen

Im Unterschied zu natürlichen Sprachen, die sich irgendwann im Laufe der Menschheitsgeschichte entwickelt haben1, werden Plansprachen (auch konstruierte Sprachen genannt) von einzelnen Menschen oder Gruppen entworfen. Der Entwurf solcher Plansprachen kann auf unterschiedliche Beweggründe zurückgeführt werden; der bekannteste ist wohl die Erleichterung der Kommunikation über die Grenzen natürlicher Sprachen hinweg durch die Erschaffung einer künstlichen Lingua Franca. Esperanto - 1887 vom polnischen Augenarzt und Philologen Ludwig Zamenhof vorgestellt – dürfte wohl jeder Leserin bzw. jedem Leser ein Begriff sein. Es ist allerdings nur einer von mehreren Ansätzen, eine künstliche Sprache zu schaffen, die als Kommunikationsmittel für die gesamte Weltgemeinschaft dienen könnte.

Das Vokabular des Esperanto besteht zum großen Teil aus Entlehnungen aus romanischen Sprachen, ein Teil lässt sich aber auch auf germanische und slawische Ursprünge zurückführen. Zur leichten Erlernbarkeit setze Zamenhof auf strenge Regularitäten, z.B. eine phonematische Schriftweise (jedem Laut wird genau ein Schriftzeichen zugeordnet bzw. linguistisch korrekt: jedem Phonem entspricht genau ein Graphem); die Wortbildung ist an agglutinierende Sprachen (z.B. Türkisch) angelehnt, wo Sinneinheiten (linguistisch: sprachlichen Konzepten) eindeutige Wortbestandteile (linguistisch: Morpheme) zugeordnet sind. So ist ein Wort, das auf -o endet, immer ein Substantiv, eins auf -a immer ein Adjektiv. Durch Anhängen von -j kann man den Plural bilden, durch Vorsetzen von mal- verneinen:

  • la bela Blogo – der schöne Blog
  • la malbenaj Blogoj – die nicht schönen Blogs

Zamenhof bediente sich also des Vokabulars verschiedener natürlicher Sprachen und versuchte, die Grammatik weitestgehend zu systematisieren. Solche artifiziellen Sprachkonstrukte, die sich an natürlichsprachlichen Vorbildern orientieren, nennt man auch Plansprachen a posteriori. Sie werden unterschieden2 von Plansprachen a priori, die sich in erster Linie an anderen Konzepten (z.B. Logik, Kategorienlehre) anlehnen.

Solche a-priori-Plansprachen können u.a. philosophisch inspiriert sein, wenn z.B. die natürliche Ordnung der Dinge in der Sprache widergespiegelt werden soll. Einen solchen Ordungsversuch unternimmt etwa der anglikanische Geistliche und Naturphilosoph John Wilkins, niedergelegt in seinem “Essay towards a Real Character and a Philosophical Language” von 1668.3 Dafür musste er zunächst grundlegende Begriffsvorstellungen klassifizieren. Für diese klassifizierten Grundideen entwickelt er eine Begriffsschrift, bei der Grundkonzepte aus wenigen Linien bestehen, Untergattungen dann jeweils noch weitere Striche hinzufügen. Daraus resultiert, dass ähnliche Konzepten (die aus den gleichen Obergattungen abgeleitet sind) ähnliche Schriftzeichen zugeordnet werden. In der Übersetzung des Vater unser (Abbildung unten) ist zu sehen, dass sich “Earth” (Zeichen 22) von “Heaven” (24) nur durch einen zusätzlichen Querstrich rechts am Zeichen unterscheidet. Beide sind aus dem Zeichen für “World”, das ähnlich wie ein Additionszeichen (+) aussieht, abgeleitet. “Power” (71) und “Glory” (74) sind, nach ihren Zeichenkörpern zu urteilen, ebenfalls verwandte Konzepte für Wilkins, wie auch (etwas etwas weiter voneinander entfernt) “trespass” (50) und “evil” (65).

Das "Vater unser" in der Darstellung mit Wilkins Real Characters

Eine grundlegende Eigenschaft natürlichsprachlicher Zeichen ist die willkürliche (arbiträre) Zuordnung von Bezeichnendem (oder Zeichenkörper, Ausdruck, Signifiant) zu Bezeichnetem (oder dahinterstehendem Konzept, Inhalt, Signifié). Wilkins scheint daran gelegen zu haben, diese Willkür weitestgehend aufzuheben bzw. stringenter zu systematisieren, hin zu einem Isomorphismus zwischen Ausdruck und Inhalt. Das Resultat sollte eine nahezu perfekte Sprache sein, durch die Wahrheiten ausgedrückt oder sogar berechnet werden könnten, die sich in natürlichen Sprachen nicht ausdrücken bzw. automatisch berechnen lassen.

Mir ist nicht bekannt, ob jemals wer in der von Wilkins entworfenen Universalsprache tatsächlich korrespondiert hat – für die Zeichen waren keine verbalen Entsprechungen vorgesehen, ein mündlicher Austausch war daher ohnehin ausgeschlossen. Die Aufhebung der arbiträren Zuordnung zwischen Signifiant und Signifié dürfte allerdings im alltäglichen Gebrauch Probleme bereiten: Sprachsignale werden nie perfekt übertragen, auch in der schriftlichen Kommunikation kann es zu Schreibfehlern, Undeutlichkeiten, Verschmutzungen etc. kommen. In einer Sprache, wo ähnliche Signifiants völlig unterschiedlichen Signifiés zugeordnet sind (wie in natürlichen Sprachen), dürfte eine Disambiguierung (linguistisch für die Auflösung von Mehrdeutigkeiten) über den Kontext sehr viel erfolgreicher verlaufen, als in Sprachen, in denen ähnliche Zeichen auch ähnliches bedeuten (wie in Wilkins Sprachkonstrukt).

Der Universalsprachentwurf nach Wilkins hatte mit noch mehr Problemen zu kämpfen, insbesondere stellte die Klassifikation aller denkbaren (und damit potentiell in der Sprache zu verwendenden) Dinge Wilkins vor schwer bewältigbare Herausforderungen.4 Dennoch empfand ich die Beschäftigung mit ihr als lohnend, nicht zuletzt, weil viele der seltsamen Eigenschaften des Textes meines Lieblingsforschungsobjektes (dem Voynich Manuskript) durch einen ähnlichen Sprachentwurf erklärt werden könnten. Diese Idee hatte bereits einer der angesehensten Kryptoanalytiker des 20. Jahrhunderts, der Amerikaner William F. Friedman.5  Problematisch an dieser Hypothese war nur, dass das Voynich Manuskript mit einiger Sicherheit schon zu Beginn des 17. Jahrhunderts in Prag kursierte, die ersten Plansprachen a priori aber scheinbar erst über ein halbes Jahrhundert später entworfen wurden (George Dalgarno 1661 und eben Wilkins 1668). Vor kurzem konnte aber gezeigt werden, dass bereits zum Anfang des 16. Jahrhunderts Methoden niedergelegt wurden, deren Anwendung etwas erzeugt, das den Eindruck erwecken kann, ein Text eines Universalsprachentwurfs zu sein, in Wirklichkeit aber ein Chiffrentext ist. Aber dazu hab ich ja schon mal was geschrieben.

So, von den zwei Versprechen, die ich im letzten Post gab, habe ich jetzt das erste eingelöst und damit das andere auch ein wenig wegprokrastiniert. Aber auch da geht es voran. Gut Ding will Weile haben…

______________________________

1 Niemand weiß so genau, zu welchem Zeitpunkt der Mensch anfing, seine Sprache, die sich wahrscheinlich grundlegend von Tierkommunikationssystemen unterscheidet (ich schrieb darüber), auszubilden. Ist vielleicht mal einen eigenen Post wert.

2 Diese Unterscheidung wurde schon 1903 in der Histoire de la langue universelle von Couturat und Leau vorgenommen.

3 Leider habe ich online keine vollständige Ausgabe gefunden – vielleicht hat ja jemand mehr Glück und schickt mir den Link, dann kann ich ihn einbauen. Müsste sich aber wohl um Bilder handeln – da im Original sehr viele Stammbäume abgedruckt sind, düften automatische OCR-Scans Probleme haben.

4 Der Versuch der Sammlung und Kategorisierung aller Konzepte durch Wilkins und seine Mitstreiter, die er in der Royal Society gewann/zwangsverpflichtete, wird sehr anschaulich im Roman Quicksilver, dem ersten Teil des Baroque Cycle von Neal Stephenson beschrieben.

5 Den Gepflogenheiten eines Kryptologen entsprechend hinterließ Friedman seine Vermutung in einem in einer Fußnote verstecktem Anagramm, das viel zu lang war, als dass man es hätte lösen können: “I put no trust in anagrammic acrostic cyphers, for they are of little real value – a waste – and may prove nothing -finis.” Nach seinem Tod war Elizebeth Friedman, seine Witwe und ebenso eine bekannte Kryptoanalytikerin, so gut, die Welt aufzuklären: “The Voynich MSS was an early attempt to construct an artificial or universal language of the a priori type. – Friedman.”

Quelle: http://texperimentales.hypotheses.org/968

Weiterlesen

Geplante Sprachen

Im Unterschied zu natürlichen Sprachen, die sich irgendwann1 im Laufe der Menschheitsgeschichte entwickelt haben, werden Plansprachen (auch konstruierte Sprachen genannt) von einzelnen Menschen oder Gruppen entworfen. Der Entwurf solcher Plansprachen kann auf unterschiedliche Beweggründe zurückgeführt werden; der bekannteste ist wohl die Erleichterung der Kommunikation über die Grenzen natürlicher Sprachen hinweg durch die Erschaffung einer künstlichen Lingua Franca. Esperanto – 1887 vom polnischen Augenarzt und Philologen Ludwig Zamenhof vorgestellt – dürfte wohl jeder Leserin bzw. jedem Leser ein Begriff sein. Es ist allerdings nur einer von mehreren Ansätzen, eine künstliche Sprache zu schaffen, die als Kommunikationsmittel für die gesamte Weltgemeinschaft dienen könnte.

Das Vokabular des Esperanto besteht zum großen Teil aus Entlehnungen aus romanischen Sprachen, ein Teil lässt sich aber auch auf germanische und slawische Ursprünge zurückführen. Zur leichten Erlernbarkeit setze Zamenhof auf strenge Regularitäten, z.B. eine phonematische Schriftweise (jedem Laut wird genau ein Schriftzeichen zugeordnet bzw. linguistisch korrekt: jedem Phonem entspricht genau ein Graphem); die Wortbildung ist an agglutinierende Sprachen (z.B. Türkisch) angelehnt, wo Sinneinheiten (linguistisch: sprachlichen Konzepten) eindeutige Wortbestandteile (linguistisch: Morpheme) zugeordnet sind. So ist ein Wort, das auf -o endet, immer ein Substantiv, eins auf -a immer ein Adjektiv. Durch Anhängen von -j kann man den Plural bilden, durch Vorsetzen von mal- verneinen:

  • la bela Blogo – der schöne Blog
  • la malbenaj Blogoj – die nicht schönen Blogs

Zamenhof bediente sich also des Vokabulars verschiedener natürlicher Sprachen und versuchte, die Grammatik weitestgehend zu systematisieren. Solche artifiziellen Sprachkonstrukte, die sich an natürlichsprachlichen Vorbildern orientieren, nennt man auch Plansprachen a posteriori. Sie werden unterschieden2 von Plansprachen a priori, die sich in erster Linie an anderen Konzepten (z.B. Logik, Kategorienlehre) anlehnen.

Solche a-priori-Plansprachen können u.a. philosophisch inspiriert sein, wenn z.B. die natürliche Ordnung der Dinge in der Sprache widergespiegelt werden soll. Einen solchen Ordungsversuch unternimmt etwa der anglikanische Geistliche und Naturphilosoph John Wilkins, niedergelegt in seinem “Essay towards a Real Character and a Philosophical Language” von 1668.3 Dafür musste er zunächst grundlegende Begriffsvorstellungen klassifizieren. Für diese klassifizierten Grundideen entwickelt er eine Begriffsschrift, bei der Grundkonzepte aus wenigen Linien bestehen, Untergattungen dann jeweils noch weitere Striche hinzufügen. Daraus resultiert, dass ähnliche Konzepten (die aus den gleichen Obergattungen abgeleitet sind) ähnliche Schriftzeichen zugeordnet werden. In der Übersetzung des Vater unser (Abbildung unten) ist zu sehen, dass sich “Earth” (Zeichen 21) von “Heaven” (24) nur durch einen zusätzlichen Querstrich rechts am Zeichen unterscheidet. Beide sind aus dem Zeichen für “World”, das ähnlich wie ein Additionszeichen (+) aussieht, abgeleitet. “Power” (71) und “Glory” (74) sind, nach ihren Zeichenkörpern zu urteilen, ebenfalls verwandte Konzepte für Wilkins, wie auch (etwas etwas weiter voneinander entfernt) “trespass” (50) und “evil” (65).

Das "Vater unser" in der Darstellung mit Wilkins Real Characters

Eine grundlegende Eigenschaft natürlichsprachlicher Zeichen ist die willkürliche (arbiträre) Zuordnung von Bezeichnendem (oder Zeichenkörper, Ausdruck, Signifiant) zu Bezeichnetem (oder dahinterstehendem Konzept, Inhalt, Signifié). Wilkins scheint daran gelegen zu haben, diese Willkür weitgehend aufzuheben bzw. stringenter zu systematisieren, hin zu einem Isomorphismus zwischen Ausdruck und Inhalt. Das Resultat sollte eine nahezu perfekte Sprache sein, durch die Wahrheiten ausgedrückt oder sogar berechnet werden könnten, die sich in natürlichen Sprachen nicht ausdrücken bzw. automatisch berechnen lassen.

Mir ist nicht bekannt, ob jemals wer in der von Wilkins entworfenen Universalsprache tatsächlich korrespondiert hat – für die Zeichen waren keine verbalen Entsprechungen vorgesehen, ein mündlicher Austausch war daher ohnehin ausgeschlossen. Die Aufhebung der arbiträren Zuordnung zwischen Signifiant und Signifié dürfte allerdings im alltäglichen Gebrauch Probleme bereiten: Sprachsignale werden nie perfekt übertragen, auch in der schriftlichen Kommunikation kann es zu Schreibfehlern, Undeutlichkeiten, Verschmutzungen etc. kommen. In einer Sprache, wo ähnliche Signifiants völlig unterschiedlichen Signifiés zugeordnet sind (wie in natürlichen Sprachen), dürfte eine Disambiguierung (linguistisch für die Auflösung von Mehrdeutigkeiten) über den Kontext sehr viel erfolgreicher verlaufen, als in Sprachen, in denen ähnliche Zeichen auch ähnliches bedeuten (wie in Wilkins Sprachkonstrukt).

Der Universalsprachentwurf nach Wilkins hatte mit noch mehr Problemen zu kämpfen, insbesondere stellte die Klassifikation aller denkbaren (und damit potentiell in der Sprache zu verwendenden) Dinge Wilkins vor schwer bewältigbare Herausforderungen.4 Dennoch empfand ich die Beschäftigung mit ihr als lohnend, nicht zuletzt, weil viele der seltsamen Eigenschaften des Textes meines Lieblingsforschungsobjektes (dem Voynich Manuskript) durch einen ähnlichen Sprachentwurf erklärt werden könnten. Diese Idee hatte bereits einer der angesehensten Kryptoanalytiker des 20. Jahrhunderts, der Amerikaner William F. Friedman.5  Problematisch an dieser Hypothese war nur, dass das Voynich Manuskript mit einiger Sicherheit schon zu Beginn des 17. Jahrhunderts in Prag kursierte, die ersten Plansprachen a priori aber scheinbar erst über ein halbes Jahrhundert später entworfen wurden (George Dalgarno 1661 und eben Wilkins 1668). Vor kurzem konnte aber gezeigt werden, dass bereits zum Anfang des 16. Jahrhunderts Methoden niedergelegt wurden, deren Anwendung etwas erzeugt, das den Eindruck erwecken kann, ein Text eines Universalsprachentwurfs zu sein, in Wirklichkeit aber ein Chiffrentext ist. Aber dazu hab ich ja schon mal was geschrieben.

So, von den zwei Versprechen, die ich im letzten Post gab, habe ich jetzt das erste eingelöst und damit das andere auch ein wenig wegprokrastiniert. Aber auch da geht es voran. Gut Ding will Weile haben…

______________________________

  1. Niemand weiß so genau, zu welchem Zeitpunkt der Mensch anfing, seine Sprache, die sich wahrscheinlich grundlegend von Tierkommunikationssystemen unterscheidet (ich schrieb darüber), auszubilden. Ist vielleicht mal einen eigenen Post wert.
  2. Diese Unterscheidung wurde schon 1903 in der Histoire de la langue universelle von Couturat und Leau vorgenommen.
  3. Leider habe ich online keine vollständige Ausgabe gefunden – vielleicht hat ja jemand mehr Glück und schickt mir den Link, dann kann ich ihn einbauen. Müsste sich aber wohl um Bilder handeln – da im Original sehr viele Stammbäume abgedruckt sind, düften automatische OCR-Scans Probleme haben.
  4. Der Versuch der Sammlung und Kategorisierung aller Konzepte durch Wilkins und seine Mitstreiter, die er in der Royal Society gewann/zwangsverpflichtete, wird sehr anschaulich im Roman Quicksilver, dem ersten Teil des Baroque Cycle von Neal Stephenson beschrieben.
  5. Den Gepflogenheiten eines Kryptologen entsprechend hinterließ Friedman seine Vermutung in einem in einer Fußnote verstecktem Anagramm, das viel zu lang war, als dass man es hätte lösen können: “I put no trust in anagrammic acrostic cyphers, for they are of little real value – a waste – and may prove nothing -finis.” Nach seinem Tod war Elizebeth Friedman, seine Witwe und ebenso eine bekannte Kryptoanalytikerin, so gut, die Welt aufzuklären: “The Voynich MSS was an early attempt to construct an artificial or universal language of the a priori type. – Friedman.”

Quelle: http://texperimentales.hypotheses.org/968

Weiterlesen

Wenn Physiker Voynich-Forschung betreiben

Nein, das geht hier gar nicht gegen Physiker im Allgemeinen – das könnte ich mir schon allein deswegen nicht erlauben, weil ich mit zwei von ihnen das Kneipenlog gegründet habe. Der Titel ist nur eine Anlehnung an den Artikel von Ben Zimmer, der Anfang des Jahres im Boston Globe erschien (“When physicists do linguistic”) und in dem recht anschaulich dargestellt wird, dass Fachfremdheit nicht immer ein Vorteil sein muss. Ich las mal die Anekdote, dass die Soziologin, die gewisse Dinge nicht erklären kann, diese an die Biologin weiterreicht. Was die Biologie nicht erfassen kann, wird an die Chemie delegiert. Die Chemikerin schließlich nimmt alles, was nicht in ihr Modell passt und schanzt es der Physikerin zu, die dann leider niemanden mehr hat, an den sie Unklarheiten weitergeben kann.* So ist es nicht weiter verwunderlich, dass das Voynich Manuskript (VMS, ich schrieb schon mehrfach darüber), mittlerweile schon über 100 Jahre völlig unverstanden, inzwischen auch bei den Physikerinnen gelandet ist, die es nun mit ihren Methoden untersuchen. Das ist auch gar nicht so falsch, das Lustige am Voynich-Manuskript ist ja, dass jede|r daherkommen und irgendwelche Analysen anstellen kann – schließlich sind bisher noch nicht wirklich viele Fortschritte geleistet worden, auf die man sich irgendwie beziehen müsste (man verzeihe mir den Sarkasmus).

So sind kürzlich gleich zwei wissenschaftliche Studien erschienen, die relativ ähnlich geraten sind (schließlich stecken hinter beiden Autoren aus der Physik, man verzeihe mir auch noch, dass ich sie hier beide in einen Topf werfe), von denen die eine aber ein sehr viel höheres Maß an Aufmerksamkeit erhielt – inklusive BBC-Bericht, Spiegel-Online-Artikel, Klaus Schmehs Kryptologieblog usw. Das lag wahrscheinlich daran, dass sie in der inzwischen (erfreulicherweise) sehr renommierten Open Access Zeitschrift PLOS ONE erschienen ist.1 Sie ist damit Peer Reviewed, was für die andere Studie, die bei ArXiv.org hochgeladen wurde, offenbar noch nicht gilt.2

Beide Studien untersuchen den Text des VMS, indem sie informationstheoretische Maße auf ihn anwenden. Das ist tatsächlich auch eine gute Idee, schließlich entband Claude Shannon den Informationsbegriff von allem semantischen Ballast, so dass man den Informationsgehalt einer Nachricht (hier des VMS-Textes) auch untersuchen kann, wenn man keinen Plan hat, was deren Inhalt ist. Ein Großteil der Experimente meiner Dissertation hatten genau diese Zielrichtung, jetzt machen das also ein paar Physiker.

Voynich Manuscript (178)

Drei der Seiten aus dem “geheimnisvollsten Manuskripts der Welt”

Und, was finden die Herren (ja, dem Namen nach sind das ausschließlich Herren) Physiker so heraus? Dass die untersuchten informationstechnologischen Maße (die Autoren der PLOS-ONE-Studie untersuchen gar nur eins) dafür sprechen, dass der VMS-Text eine Nachricht enthält und keine sinnlose Aneinanderreihung von Phantasiewörtern ist. Woraus schließen sie das? Daraus, dass die Eigenschaften des VMS-Text eher mit denen von Texten natürlicher Sprachen vergleichbar sind, als mit

  • einem Text, verfasst in der Programmiersprache Fortran
  • Pilz-DNA (beides PLOS-ONE-Studie) oder
  • computationell erzeugten Zufallsfolgen (ArXiv-Studie).

Ach. Wer hätte gedacht, dass etwas, das von einem Mittelalter/Frühneuzeitmenschen geschrieben wurde (die Außerirdischentheorie lasse ich mal außer acht), eher einer natürlichen Sprache als verschriftlichen Algorithmen, einer computergenerierten Zufallsfolge oder der Basenabfolge von Pilz-DNA entspricht?

Dass am Ende mit Schlussfolgerungen, die weitestgehend daneben sind, so geklingelt wird, ist wirklich ärgerlich. Die beiden Studien sind teilweise wirklich innovativ, die Ergebnisse wären allerdings sehr viel besser als Grundlage für weitere Forschungen nutzbar, wenn die durchgeführten Experimente vielleicht irgendwo mit Software und Daten zugänglich wären. Tut mir leid, dass ich da so oft drauf hinweise. Aber es wird einfach nicht besser, auch wenn alle Welt von Open Science redet. Die Art, wie im PLOS-ONE-Artikel die betreffenden Formeln für die Berechnung versteckt werden, halte ich persönlich auch für eine Frechheit. Wenn schon die Schlussfolgerungen für die Tonne sind, hätte man hier bei mir einige Punkte holen können.

So aber muss ich den Autoren ihre Werte entweder glauben oder die Formeln zusammensuchen, selbst implementieren und am Ende wahrscheinlich feststellen, dass ich andere Werte herausbekomme. Ich hätte auch keinen Plan, welche Transkription ich denn verwenden soll, beide Studien verweisen darauf, dass sie mit der “EVA-Transkription” arbeiten. Das ist allerdings nur das Transkriptionsalphabet, darin sind mehrere Transkriptionen unterschiedlicher Voynich-Forscher verfasst, die teilweise stark voneinander abweichen. Sie sind in einem Archive-File zusammengefasst, das, wenn man es falsch ausliest, für völlig wirklichkeitsfremde Ergebnisse sorgt. Weshalb ich mich darum sorge? Weil die Autoren teilweise eine beängstigende Unkenntnis an den Tag legen, was Spracheigenschaften angeht. Ein Beispiel aus der ArXiv-Studie: Es gibt die Vermutung, dass der VMS-Text in einer Kunstsprache verfasst ist, deswegen vergleichen wir seine Eigenschaften mal mit Esperanto. Zamenhofs Esperanto ist aber eine synthetische Sprache a posteriori, also nach natürlichsprachlichem Vorbild angelegt. So eine Kunstsprache unterscheidet sich fast gar nicht von natürlichen Sprachen. Beim VMS-Text gibt es die Vermutung, er basiere auf einer Kunstsprache a priori, die abweichend von natürlichsprachlichen Vorbildern entworfen wurde (da schreibe ich auch mal was zu). Die Untersuchung von Esperanto ist also genauso irreführend wie sinnlos. Es gibt noch eine Menge Punkte mehr, die ich ansprechen könnte, aber der Post ist eh schon zu lang. Glaubt nur Statistiken, die ihr selbst gefälscht habt. Oder denen, die ihr reproduzieren könnt.

Ja, da hat der Hermes aber wieder viel zu mosern, werdet ihr jetzt wohl sagen. Weshalb reicht er denn nicht einfach mal selbst was ein? Und ja, da habt ihr Recht. Ich werde nach dem Semester wohl mal einen Versuch wagen, meine P.III-Hypothese in einem englischsprachigen Magazin unterzubringen. Mit Daten und Experimenten. :)

_________________________________

1 [Montemurro MA, Zanette DH (2013): Keywords and Co-Occurrence Patterns in the Voynich Manuscript: An Information-Theoretic Analysis. PLoS ONE 8(6): e66344.]

2 [Diego R. Amancio, Eduardo G. Altmann, Diego Rybski, Osvaldo N. Oliveira Jr., Luciano da F. Costa: Probing the statistical properties of unknown texts: application to the Voynich Manuscript. arXiv:1303.0347]

* Noch eine wichtige nachträgliche Ergänzung eines Twitter-Kollegen, nebst meiner Antwort:

 

 

Quelle: http://texperimentales.hypotheses.org/939

Weiterlesen

Statistik: Trau keiner!

<tl;dr> Ich kann mit einfachsten Verfahren phantastische Ergebnisse erzielen – wenn ich diese nur richtig überprüfe. 

Nach langer Zeit, in der ich vor allem an Dingen gearbeitet habe, die zu geheim, noch nicht spruchreif genug oder einfach zu langweilig für einen Blogpost waren, habe ich in dieser Woche endlich wieder ein lohnendes Thema gefunden. Es geht mal wieder um Statistik, diesmal allerdings mit konkretem Bezug zu einem Projekt, an dem ich gerade arbeite, aber auch zum letzten Post, den ich über das Thema verfasst habe (den über die Facebook-Likes-Studie).

Zur Zeit läuft bei uns das Nachfolgeprojekt zur Digitalen Rätoromansichen Chrestomathie, bei dem vorhandene lexikalische Ressourcen für die Annotation von bündnerromanischen Sprachdaten eingebunden werden sollen. Ich wurde mit der Evaluation beauftragt, inwieweit sich morphosyntaktische Informationen (bei Verben etwa Tempus, Numerus etc.) aus flektierten Wortformen ablesen lassen, deren Stammform sich eventuell gar nicht im Lexikon befindet. Zur Verfügung stehen mir dafür Listen über mehrere tausend Verben, die auf acht verschiedene Konjugationsklassen aufgeteilt sind. Auf Basis dieser Information sollte ich jetzt eine Art Ratespiel entwickeln, das für möglichst viele Verben die richtige Konjugationsklasse ermittelt.

Jetzt kann man sich vielerlei ausdenken, wie man die zur Verfügung stehende Information nutzt – spielt der erste Vokal, die Endung des Verbes, evtl. sogar seine Länge eine Rolle dafür, wie es konjugiert wird? Mein erster Gedanke war, genau solche Merkmale für die vorsortierten Verben zu ermitteln, um damit ein Modell zu trainieren, welches mir unbekannte Verben klassifiziert.

Zunächst wollte ich aber eine vernünftige Baseline haben – welche Ergebnisse liefert ein Verfahren, das nicht eigens entwickelt werden muss, sondern das ich direkt anwenden kann? Dafür bot sich ein n-Gramm-Rang-Modell an, das auch eingesetzt wird, um bei kurzen Texten zu erraten, in welcher Sprache sie verfasst sind. Dabei werden für möglichst viele Sprachen die Buchstabenfolgen bestimmter Länge (n-Gramme – bei Bigrammen zwei Buchstaben, bei Trigrammen drei usw.) nach ihrer Häufigkeit in Trainingstexten sortiert. Man spricht hier auch davon, dass ein Modell für die Sprache gebaut wird (auch wenn das hier ein sehr einfaches Modell ist). Das gleiche wird dann für den zuzuordnenden Text gemacht. Schießlich werden die Ränge der n-Gramme aus dem Testtext mit den Rängen aller Sprachmodelle verglichen  - es gewinnt die Sprache, bei der der geringste Unterschied besteht, was auch erstaunlich gut funktioniert.

Dieses Verfahren habe ich nun auf mein Rateproblem bezogen. Dabei habe ich aus 90% der Verbformen in meinen Listen n-Gramm-Modelle für die acht Konjugationsklassen gebaut und versucht die restlichen 10% diesen Klassen zuzuordnen. Eigentlich hatte ich keine großen Erwartungen an das Verfahren, da mir die Daten als zu kurz (meist <12 Zeichen) und zu wenig (einige Klassen enthalten weniger als 100 Einträge) erschienen, um verwendbare Modelle zu bauen. Um statistisch valide zu arbeiten, habe ich die Daten der einzelnen Klassen gescrambelt und das Leave-One-Out-Kreuzvalidierungsverfahren eingesetzt.

Die Ergebnisse dieses einfachen Modells erstaunten mich dann doch, auch die Tatsache, dass sie umso besser wurden, je größer ich das n der n-Gramme werden ließ. Nach der Kreuzvalidierung lag bereits das Unigrammmodell (also einfaches Buchstabenzählen) in über 50% der Zuteilungen richtig, das Bigrammmodell in über 70%, das Trigrammmodell in über 75%, ab dem Tetragrammmodell pendelt sich der Wert bei über 80% ein (der Erwartungswert wäre jeweils 12,5% gewesen). Ich konnte die Ergebnisse noch verbessern, indem ich die Daten vorsortierte:  Jeweils zwei der Klassen enden ihre Infinitivform auf -er bzw. -ir; drei der Klassen auf -ar. Wenn ich etwa für -er-Verben nur die betreffenden Klassen zur Auswahl stelle (also ausgehend von einem Erwartungswert 50%), habe ich bereits bei Trigrammen eine fast perfekte Zuordnung (99%), die dann ab Tetragrammen tatsächlich perfekt ist (100%). Bei -ar-Verben gilt das leider nicht in dem Umfang – mehr als 79% richtige Zuordnungen habe ich dabei nicht erreicht (Erwartungswert 33%). Naja, es sollte ja sowieso nur eine Baseline für ein elaborierteres Modell sein.

An dem Punkt erinnerte ich mich aber an die Studie, die behauptete, aus Facebook-Likes von Personen deren sexuelle Orientierung und noch einiges mehr ermitteln zu können. So sollten bspw. Personen mit homosexueller Orientierung vom System mit 88%iger Sicherheit erkannt werden. Allerdings wurde das in meinen Augen über eine etwas seltsame Methode evaluiert (ich schrieb drüber) – nämlich indem dem Algorithmus je eine Person mit homo- bzw. heterosexueller Orientierung präsentiert wurde und der dann nur noch entscheiden musste, welche Person zu welcher Gruppe gehört.

Ich habe jetzt diese Evaluation auch mal bei mir eingebaut, also jeweils Pärchen von Verben aus unterschiedlichen Klassen auf genau diese Klassen verteilen lassen. Auf einmal hatte ich jetzt nicht mehr knapp 80%, sondern über 99,9% Erfolgsquote bei der Zuteilung (33.748.628 korrekte Zuteilungen stehen 22722 falsche gegenüber). Aber halt – in der Facebook-Studie waren, wenn ich das richtig sehe, noch nicht einmal Trainings- und Testdaten getrennt (d.h. das Modell wurde mit den gleichen Daten trainiert, die hernach klassifiziert werden sollten). Dann hab ich mir die Kreuzvalidierung auch mal gespart – das Ergebnis: 3.377.132 richtige Zuteilungen, 3 falsche. Erfolgsquote 99,9999%. Dass diese Zahl so gut wie nichts mit Real-World-Anwendungen zu tun hat – geschenkt. Ich sollte wohl wirklich mal meine Skepsis zu fadenscheinigen Vorgehensweisen bei der Verwendung von Evaluationsmaßen über Bord werfen und  ein paar Papers schreiben.

Quelle: http://texperimentales.hypotheses.org/911

Weiterlesen

Vom weltweit größten Watson-Tutorial

Anfang der Woche fand in Darmstadt im beeindruckenden Hörsaal im “Alten Maschinenhaus” ein Tutorial zu den Hintergründen des Computer-Jeopardy!-Spielers Watson von IBM statt. Eingeladen hatte Chris Biemann vom Fachbereich Informatik der Uni Darmstadt, erschienen waren der Dozent Alfio Massimiliano Gliozzo (IBM Research) sowie mehr als 130 interessierte Zuhörer, welche die Veranstaltung dann auch zum “biggest Watson-Tutorial wordwide so far” machten.

Watson ist eine von IBM entwickelte und auf spezieller Hardware umgesetzte Software, der es im Frühjahr 2011 gelungen ist, das Spiel Jeopardy! gegen die bis dahin erfolgreichsten (menschlichen) Kandidaten zu gewinnen. Dieses Ereignis hatte ich damals hier im Blog aufgegriffen, als Paradebeispiel dafür, was man in meinem Fach Informationsverarbeitung bzw. Computerlinguistik so alles anstellen kann. Für uns war diese Meldung eine echte Sensation, weil sie viel unvorhergesehener kam als der Sieg von Deep Blue (dem ungleich berühmteren Schachprogramm, ebenfalls von IBM entwickelt) über den Schachweltmeister Garry Kasparov 14 Jahre zuvor. Weshalb aber wurde das Schachproblem viel früher als das Jeopardy!-Problem gelöst? Lösen heißt hier: Gegen die ausgewiesen besten Menschen in dem Spiel zu gewinnen.

IBM Watson

Watson bei IBM: Eine zimmergroße Maschine. Bild: Clockready CC-BY-SA-3.0

Schach – so unendlich groß die Zahl der möglichen Spiele auch sein mag (selbst Deep Blue konnte bei weitem nicht alle möglichen Züge analysieren) – ist ein rein mathematisches Problem. Es gibt eine begrenzte Menge an Zuständen, die in eine ebenfalls begrenzte Anzahl von Folgezuständen überführt werden können. Menschen waren dem Computer lange überlegen, weil sie Muster in Schachspielen erkennen konnten, die sie mögliche Gewinnstrategien entwerfen ließen. Die ersten Schachcomputer hatten dann auch eine erbärmliche Performance. Später schlugen sie Anfänger, irgendwann Hobbyspieler und am Ende dann eben auch den amtierenden Weltmeister (Deep Blue 1997). Letzteres allerdings auch erst im zweiten Versuch, das erste Aufeinandertreffen hatte Kasparov 1996 noch für sich entschieden. Nebenbei: Der auf gewisse Weise entthronte Weltmeister unkte nach der Niederlage 1997, Deep Blue hätte zwischendurch Hilfestellungen durch Menschen bekommen. Der Vorwurf wurde nie wirklich aufgeklärt, weil IBM keine Untersuchung zuließ und Deep Blue dann auch demontierte. Insgesamt sind lediglich 12 Partien des Rechners öffentlich bekannt – jeweils 6 in den Jahren 1996 und 1997, sämtlich mit Kasparov als Gegner. Da aber in der Zwischenzeit Deep Fritz, ein Programm, um das sehr viel weniger Geheimhaltungs-Popanz gemacht wurde, 2006 den damaligen Weltmeister Wladimir Kramnik mit 4:2 schlug, zweifelt niemand mehr ernsthaft daran, dass Computer in der Lage sind, Menschen jederzeit im Schach zu schlagen.

Der Sieg von Watson über Ken Jennings und Brad Rutter kam dagegen gewissermaßen aus dem Nichts. Nie zuvor hatte jemand versucht, eine Maschine in einem Spiel wie Jeopardy! einzusetzen, wo es darum geht die zugehörigen Fragen zu sehr trickreich formulierten Antworten herauszufinden (also schlicht ein umgedrehtes Frage-Antwort-Spiel). Um ein Beispiel zu geben:

Antwort: “Aufgezeichnete Sachverhalte oder Gedanken, bisweilen mit Tagebuchcharakter, die auf einer Webseite zu finden sind.”

Die dazu passende Frage wäre: “Was ist ein Blog?”

Die Themenkomplexe, aus denen die Antworten stammen, sind dabei nicht eingegrenzt, sollten aber die Zuschauer interessieren – schließlich handelt es sich um eine Fernsehshow, die von den Einschaltquoten lebt. Man benötigt also ein breites Wissen, um in dem Spiel zu bestehen. Dieses dürfte zwar tatsächlich vollständig oder zumindest in großen Teilen irgendwo hinterlegt sein, wo es auch für Computer zugänglich ist – im Zweifelsfall eben in der Wikipedia. Die drei größten Herausforderungen bestehen aber darin,

  1. Die Antworten richtig zu interpretieren, um eine Ahnung davon zu bekommen, wonach überhaupt gefragt wird.
  2. Eine Wissensbasis so zu gestalten, dass interpretierte Antworten auf mögliche Fragen abgebildet werden können.
  3. Aus möglichen Fragen diejenige auszuwählen, die als die passenste erscheint.

Um gut Schach spielen zu können, genüge es, Mathematik zu beherrschen; Jeopardy! aber gründe in der menschlichen Kognition, sagte Gliozzo. Statt wohldefinierter Zustände in begrenzter Zahl hat man es mit prinzipiell unendlich vielen Ausdrücken zu tun, die auch noch verschiedene Bedeutungen tragen können. Die Antworten, mit denen ein Jeopardy!-Kandidat konfrontiert wird sind genauso wie der größte Teil des verfügbaren Wissens in menschlicher Sprache hinterlegt und damit ambig, kontextabhängig und teilweise implizit.

Welche Ansätze IBM dabei verfolgte, die Aufgabe anzugehen und erfolgreich zu gestalten, war Thema des Workshops und Gliozzo gelang es aus meiner Sicht wirklich gut, dieses ansprechend und informativ darzulegen. Insgesamt bestand der Vortrag aus vier etwa zweistündigen Blöcken, einer Art eingedampften Form eines Kurses, den Gliozzo auch an der New Yorker Columbia Universität anbietet. Zwischendurch wurden immer wieder von IBM produzierte Filme zu Watson, der Jeopardy!-Challenge und der Zukunft des Systems gezeigt, die aus unterrichtstechnischen Gründen angebracht waren (inmitten des sehr anspruchsvollen Stoffs konnte man sich mal zurücklehnen und konsumieren), die auf mich als europäischen Wissenschaftler mitunter aber etwas überproduziert und pathetisch wirkten (Dan Ferrucci, Leiter des Watson-Projekts mit Tränen in den Augen und so, auf der IBM-Seite kann man sich selbst ein Bild davon machen).

Sehr gut hat mir die Live-Demo gefallen, eine Art simuliertes Spiel Watson gegen Vortragspublikum. Dabei zeigte sich auch, dass die Maschine mit denen eigens für das europäische Publikum ausgewählten Fragen offensichtlich nicht besonders gut zurecht kam. So war Watsons Vermutung, wo nach dem Schengen-Abkommen keine Kontrollen mehr stattfinden: passport. Erst danach folgte das korrekte borders, witzigerweise dicht gefolgt von Austria.

In den einzelnen Sessions ging Gliozzo auf die Teilbereiche (I) DeepQA-Architecture, (II) Natural Language Processing Components, (III) Structured Knowledge Components und (IV) Adaption to the Medical Domain ein. Die Klammer um das Ganze war ein Diagramm, das die Performances von Jeopardy!-Gewinnern und Watson, ausgestattet mit bestimmten Komponenten zeigte. War die Maschine anfangs noch meilenweit von einer Performance entfernt, auch nur ein einziges der historischen Jeopardy-Spiele zu gewinnen, sah man, dass die Zuschaltung der nacheinander erläuterten Komponenten immer weitere Fortschritte brachte. Das war als roter Vortragsfaden schon ziemlich genial. Detailliert berichte ich davon vielleicht mal an anderer Stelle. Schließen möchte ich mit einer Reihe von Aspekten, die ich aus dem Tutorial mitnehmen durfte:

  1. Watson versteht nicht. Er gleicht Muster ab und führt eine unglaubliche Anzahl von Bewertungsfunktionen durch. Die Entwickler haben eine Unzahl verschiedener Techniken gegeneinander evaluiert und diejenigen, welche sich in Tests als erfolgreich herausstellten, im System behalten.
  2. IBM hat nicht gezaubert oder vorher unbekannte Techniken entwickelt, sondern einfach nur bekanntes miteinander kombiniert. Gliozzo ist auf so gut wie jeden Schritt aus einem anfangs völlig undurchschaubar komplizierten Workflow-Diagramm eingegangen (natürlich nicht immer im Detail) und meinte am Ende so in etwa: “Jetzt kann das jeder von euch nachbauen. Viel Spaß!” Dabei unterschlug er allerdings nicht, dass eine selbstgebaute Antwortmaschine wahrscheinlich Tage für die Lieferung der Frage benötigen würde, was Watson auf seiner speziellen Hardware (3000 Prozessorkerne, 15 TeraByte RAM) in unter 3 Sekunden schaffen musste (ansonsten hätte er gegen seine menschlichen Konkurrenten keine Chance gehabt).
  3. Watson ist eine Maschine, um Jeopardy! zu gewinnen. Die ersten Versuche, ihn einzusetzen, um bspw. Mediziner bei der Diagnose oder der Behandlung von Krankheiten zu unterstützen, waren eher ernüchternd. Nachdem viel Arbeit in die Adaption gesteckt wurde, konnten zwar Fortschritte erzielt werden, man hat es aber weiterhin mit einer domänenspezifischen Anwendungen zu tun. IBM ist das klar und sucht deshalb nach neuen Lösungen.
  4. Offenbar war den Entwicklern vorher nicht klar, ob Watson die Challenge tatsächlich für sich entscheiden würde – man ging von einer 50% Chance aus. Im oben erwähnten Diagramm sah man, dass Jennings in vielen historischen Spielen eine deutlich bessere Performance hinlegte, als Watson am Ende seiner Jeopardy!-Entwicklung. Watson ist also – im Gegensatz zu Schachcomputern – weiterhin schlagbar.

Soweit meine (erste) Nachlese zum Watson-Tutorial. Vielleicht kann ich demnächst nochmal auf die Gesamtarchitektur oder einzelne Komponenten des Systems eingehen. Ich hoffe, mir ist es einigermaßen geglückt, auszudrücken, dass ich die Veranstaltung für wirklich gelungen hielt und möchte hier die Gelegenheit ergreifen, mich herzlich beim Organisator Chris Biemann zu bedanken. Falls so etwas noch einmal stattfinden sollte, kann ich jedem NLP-, Machine Learning- und Knowledge Engineering-Interessieren mit bestem Gewissen raten, daran teilzunehmen!

 

Quelle: http://texperimentales.hypotheses.org/865

Weiterlesen

Zahlen lügen wieder – Die Studie zu Facebook-Likes und Persönlichkeit

Wahrscheinlich ist inzwischen fast jede|r über die von Microsoft Research unterstützte Studie zu Facebook-Likes und Persönlichkeitsstruktur gestolpert. Sie ist bei PNAS Open Access erschienen, so dass sich jede|r ihr|sein eigenes Bild machen kann. Kollege Lars Fischer von den Scilogs hat das Ganze dankenswerterweise mal aufgegriffen, ich habe mich ein wenig in den Kommentaren vergangen und schließlich beschlossen, mich hier etwas länger auszulassen. Wenn ich mich nicht irre, gibt es nämlich Erstaunliches zu berichten. Ich habe ja schon öfter hier zur Statistik geschrieben und dabei auch erwähnt, dass ich keine wirkliche Ausbildung auf dem Gebiet genossen habe, sondern allenfalls eine gefährliche Mischung aus Bauchgefühl und angelesenem Halbwissen zum besten geben kann. Ich lasse mich also gerne verbessern.

Zunächst zu den Ergebnissen – die Studie behauptet z.B. zwischen Homo- und Heterosexuellen Männern zu 88% richtig zu diskriminieren (“The model correctly discriminates between homosexual and heterosexual men in 88% of cases”). Da es mehr als zwei Spielarten der sexuellen Orientierung gibt, die Autoren aber ein binäres Merkmal (also +/-) haben wollen, vereinfachen sie so, dass jeder Mann, der nicht ausschließlich Männer als mögliche Sexualpartner angegeben hat, das heterosexuelle Merkmal trägt. Was aber bedeuten die 88%? Lars meinte (durchaus nachvollziehbar, das dürften die meisten so interpretieren, hier z.B. auch die Zeit), der Algorithmus läge in 88% der Fälle richtig, d.h. von 100 Homosexuellen erkennt er 88 als homosexuell, 88 von 100 Heterosexuellen als heterosexuell. Wenn jetzt das Verhältnis sehr unwuchtig wird (d.h. eine Gruppe im Vergleich zur anderen sehr klein wird), bekommt man verhältnismäßig viele falsche Zuordnungen (falsch positive) in der kleineren Gruppe. Genau das habe ich in meinem Weihnachtsblogpost anhand eines anderen Beispiels thematisiert.

Schaut man in die Studie, so geben dort 4,3% der Männer an, sie seien homosexuell veranlagt. Insofern hätte ich einen guten Algorithmus an der Hand, der 95,7% der Probanden richtig zuordnet – indem nämlich alle als heterosexuell eingeordnet werden.

Ganz so einfach ist es dann doch nicht – die 88% sind nämlich (sorry, ich drück mich ums Übersetzen) “the prediction accurancy of dichotomous variables expressed in terms of the area under the receiver-operating characteristic curve (AUC)”. Puh, Integralrechnung, denkt sich der Kenner, alle anderen lesen den anschließenden Halbsatz “which is equivalent to the probability of correctly classifying two randomly selected users one from each class (e.g., male and female).” Übertragen auf unser Beispiel: Man nehme zwei Individuen, eines, das sich das homosexuelle, eines, das das heterosexuelle Merkmal gegeben hat. Der Algorithmus, basierend auf vergebenen Facebook-Likes (mit einer mehr oder weniger aufwändigen Hauptkomponentenanalyse dahinter), ordnet einem der Individuen das homosexuelle, dem anderen das heterosexuelle Merkmal zu.

Und da frag ich mich jetzt, ob das Ergebnis besonders gut oder zumindest aussagekräftig ist. Betrachten wir zuerst die Baseline: Die Wahrscheinlichkeit, völlig uninformiert richtig zu liegen, beträgt 50%. Offenbar leistet der Algorithmus also gute Arbeit, 88% sind ja ne ganze Stange mehr richtige Vorhersagen, von 100 Paaren werden nur 12 falsch zugeordnet. Aber was hat man davon? Wann in der Welt hat man es denn mit einem Personenpaar zu tun, von dem man weiß, dass nur eine Person ein Merkmal trägt (also z.B. heterosexuell ist), die andere aber auf keinen Fall. Und beauftragt dann einen Algorithmus, der mehr oder weniger sicher herausfindet, welche die Merkmalsperson ist? Also, der Messwert scheint zwar in Ordnung zu sein, sagt uns aber nichts darüber, in wie vielen Fällen der Algorithmus richtig läge, würde ihm nur ein Individuum präsentiert. Die Zahl wäre aber die Interessante gewesen (bzw. derer vier: Anzahl der richtig positiven, der falsch positiven, der falsch negativen und der richtig negativen). Kann sich jetzt jede|r selbst zusammenreimen, weshalb die Autoren sie nicht angeben.

So bin ich lediglich erstaunt darüber, wie eine Studie, die eine sehr eingeschränkte Aussage trifft, auf so große Resonanz stößt. Es gibt auch noch ein paar weitere Dinge zu bemängeln, etwa, dass offenbar direkt auf den Trainingsdaten klassifiziert wurde, statt Testdaten dafür zu erheben. Das würde in keiner Studie zur Sprachverarbeitung so durchgehen. Aber irgendwas scheint hier anders zu funktionieren.

Not facebook not like thumbs down

By Enoc vt (File:Botón Me gusta.svg) [Public domain or CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/841

Weiterlesen