Wer einmal fremdschreibt…

… tut das offensichtlich auch ein zweites Mal. Wie schon damals mit der Ausrede, das alles nur für die Mehrung von Ruhm und die Ehre der Blogplattform hypotheses.org zu tun. Dieses Mal fragte mich Sebastian Bartoschek von den Ruhrbaronen, ob ich meinen letzten Artikel zum Voynich Manuskript nicht auch auf dieser populären Blogplattform veröffentlichen und ihn in diesem Zuge vielleicht für ein breiteres Publikum aufhübschen wolle. Das habe ich natürlich gerne getan und dabei versucht, sowohl kürzere Sätze als auch gliedernde Zwischenüberschriften zu nutzen. Den Titel meines letzten Postes habe ich beibehalten, der Text ist allerdings durch eine allgemeine Einleitung zum Voynich Manuskript erweitert worden. Zu finden ist er hier.

Ich danke Sebastian für die Gelegenheit und hoffe, dass Mareike mir nicht allzu oder allzu lange böse ist. :)

Quelle: http://texperimentales.hypotheses.org/1118

Weiterlesen

Voynich Manuskript das Werk eines Autokopisten?

“Schon wieder eine neue Theorie zum Voynich Manuskript?” mögen sich die geneigten Leserinnen und Leser dieses Blogs fragen. “Da lässt der Hermes doch bestimmt wieder kein gutes Haar dran.” Tatsächlich warfen die jüngsten Veröffentlichungen zum Thema weit mehr Fragen bei mir auf, als sie nachvollziehbare Antworten gaben. Um so erfreulicher finde ich, dass ich nun endlich einmal von einer aktuellen Veröffentlichung berichten kann, die ich für sehr überzeugend halte, vielleicht sogar für überzeugender als meine eigene Theorie.

Vor etwa vier Monaten wurde ich per Mail nett gefragt, ob ich bereit wäre, einen Paper-Entwurf zum Voynich Manuskript kritisch gegenzulesen. Die Bitte kam von Torsten Timm, der – wie so viele Voynich-Forscher – nicht mit der Wissenschaft sein Geld verdient. Wer weiß, wie gerne ich mich zwischendurch immer wieder mit dem Voynich Manuskript (VMS) beschäftige, kann natürlich ahnen, wie bereitwillig ich dieser Bitte nachkam. Vom ersten Augenblick an erschien mir Timms Hypothese plausibel und einen fruchtbaren Austausch per Mail und Skype später bin ich nach wie vor überzeugt davon, dass seine Theorie das Potential hat, die Entstehung des VMS-Textes zu erklären. Timm hat sie inzwischen (lobenswerterweise als Open Access Paper, daran bin ich auch nicht ganz unschuldig, glaube ich) auf arxiv.org veröffentlicht, so dass sich jede|r selbst ein Bild machen kann. Zu wünschen ist, dass sich Peer Reviewers finden, so dass das Paper auch auf einer publikumswirksameren Plattform veröffentlicht werden kann.

Kurz zum Inhalt: Timm begibt sich – wie ich das auch tat – auf die Suche nach einer Textgenerierungsmethode, deren Anwendung ein Resultat ergibt, dass die sonderbare distributionellen und statistischen Eigenschaften des VMS-Textes wiederspiegelt. Timm bezieht sich dabei vor allem auf die seltsame Eigenschaft, dass sich das Auftreten, die Häufigkeit und die Position (n-te Zeile, n-te Position in der Zeile) von VMS-Wörtern relativ gut vorhersagen lassen aus dem Auftreten, der Häufigkeit und der Position ähnlich aussehender Wörter. Da Timm ausschließt, dass dem Schreiber/der Schreiberin des VMS im späten Mittelalter/der frühen Neuzeit ein Instrumentarium zur Verfügung stand, das es erlaubte, eine solche Verteilung mathematisch herzuleiten, vermutet er, dass sie das Resultat eines Seiteneffekts einer einfacheren Methode der Textgenerierung ist.

Kern dieser angenommenen Methode ist ein Kopiervorgang des Schreibenden: Dieser erfand initial eine Reihe von unterschiedlichen Zeichenfolgen, die er im Anschluss immer wieder abwandelte. Timm weist nach, das teilweise ganze Zeilen voneinander kopiert scheinen, wobei immer leichte Abwandlungen in den Kopierprozess eingeflochten wurden, so dass nie gleiche, sondern immer nur ähnliche Zeichenketten entstanden. Auf den ersten Blick mag diese Methode als zu simpel bzw. zu abwegig erscheinen – wer zur Hölle soll sich hinsetzen und mehr als hundert Seiten auf diese sinnlose Art füllen? Allerdings wird die Hoax-Hypothese zum VMS (die Zeichen des VMS tragen keinen Inhalt, es wurde nicht zum Austausch bzw. zur Bewahrung von Information angefertigt) schon länger verbreitet und Timm belegt seine Vermutungen durch eine ganze Reihe von Indikatoren, im Paper selbst und vor allem in seinem Anhang, dem man ansieht, dass sich da jemand gewissenhaft mit der Materie auseinandergesetzt hat.

Timm

Ausschnitt aus der Seite f100r des VMS. Darauf farblich markiert von Timm angenommene kopierte, abgewandelte “Wörter” in wiederkehrenden Positionen.

Zum Ende geht Timm auch noch auf meine PIII-Hypothese ein, zu der er – nach meiner Ansicht – die bisher beste Alternativhypothese aufgestellt hat. Wir vermuten beide eine Textgenerierungsmethode hinter dem VMS-Text, und doch es gibt zwei entscheidende Unterschiede:

  1. Für meine PIII-Hypothese ist ein Codebuch notwendig, da dort die verschiedenen Chiffren auf Klartextbuchstaben abgebildet werden. Ein solches Codebuch wurde bisher nie gefunden, die Chiffrierungsmethode ist (wie ich selbst zugebe und Timm noch einmal schön ausführt) extrem kompliziert handzuhaben, v.a. bei der Dechiffrierung. Da Timms Kopisten-Hypothese ohne ein solches Codebuch auskommt, weil der Text einfach durch dauernde Abwandlung von sich selbst zustande kommt, sehe ich meine Hypothese hier klar im Nachteil.
  2. Das Resultat der Kopisten-Methode ist ein sinnfreier Text (den man textlinguistisch wohl noch nicht mal als Text bezeichnen dürfte). Mit ihm kann man nichts weiter anfangen, als jemanden zu täuschen, um sich dadurch irgendeine Art von Vorteil zu verschaffen. Ob dies tatsächlich eine solche Mühe, welche die Erzeugung des VMS gekostet haben muss, rechtfertigen kann, sei dahingestellt. Mit einer PIII-artigen Methode aber ist es möglich, Informationen zu verbergen, und zwar so gut, dass diese evtl. mit der Technik des 21. Jahrhunderts nicht entschlüsselt werden können. Lässt sich das nicht vielleicht als stärkerer Antrieb annehmen?

Ich gebe hier Occams Rasiermesser den geneigten Leser|inne|n in die Hand. Mögen sie beurteilen, welche Hypothese sie für plausibler halten. Mir sind ein paar Dinge in den Kopf gekommen, die man überprüfen und das Lot damit in die eine oder andere Richtung ausschlagen lassen könnte. Das ist mir aber noch zu unausgegoren, als dass ich mich dazu jetzt schon äußern möchte. Ich freue mich jedenfalls, dass Torsten die Muße und den Mut gefunden hat, seine Theorie so gewissenhaft auszuarbeiten und der Öffentlichkeit zu präsentieren. Möge dies ein weiterer Anstoß sein, die zukünftige VMS-Forschung auf eine solidere Basis zu stellen.

_______

Timm, Torsten (07/2014): How the Voynich Manuskript was created. Publication: eprint 2014arXiv1407.6639T

Hermes, Jürgen (2012) Textprozessierung – Design und Applikation. Dissertation, Universität zu Köln. Publication eprint http://kups.ub.uni-koeln.de/id/eprint/4561

Quelle: http://texperimentales.hypotheses.org/1076

Weiterlesen

Radio TEXperimenTales

Wenn man meinen Kram hier gerne liest, mag man mich vielleicht ja auch mal hören. Dazu gibt es jetzt die Gelegenheit, da der weitläufig für seine Wrint-Podcasts bekannte Holger Klein mich interviewt hat und das Interview dann tatsächlich auch veröffentlichte.

Wrintlogo

Es ist erschienen in der Rubrik “zum Thema” und dreht sich über weite Strecken um die Tücken des Voynich Manuskripts – das bleibt halt so ziemlich das Öffentlichkeitswirksamste, was ich zu erzählen habe. Dazu gibt es aber auch kleine Abstecher, z.B. in die Computerlinguistik (ganz zu Anfang – da läuft es noch etwas unrund bei mir, man gibt halt nicht alle Tage ein Telefoninterview) und um die Frage, was Mode und Wissenschaft miteinander zu tun haben.

Insgesamt muss ich feststellen, dass ich zufriedener mit dem Ergebnis bin, als ich vorher gedacht hatte. Mit Holger kann man allerdings auch verdammt gut plaudern, auf diesem Wege sei ihm herzlich dafür gedankt. Angebandelt wurde das ganze mal wieder über Twitter, wo das einzigartige @mettwurstballett Holger auf mein Halbwissen zum Voynich Manuskript aufmerksam machte, worauf dieser mich anrief. Das Ergebnis könnt ihr hier anhören oder herunterladen. Vielleicht ja irgendwo im Grünen an diesem sonnigen Pfingstwochenende.

Quelle: http://texperimentales.hypotheses.org/1066

Weiterlesen

Dozenten-Nähkästchen (II) – Seminarplanung

Im beginnenden Semester habe ich die Möglichkeit (wie hier berichtet), an Stelle eines meiner Pflichtkurse ein neu völlig zusammengestelltes Seminar anzubieten. Dazu ist zwar einiges an Organisation nötig, die man irgendwann vor Beginn des Semesters oder zumindest der ersten Vorlesungswoche (also vor heute) hinbekommen haben muss. Lustigerweise hatte Kathrin Passig heute auch die richtigen Tweets dazu:

 

Nachdem ich ein Thema gefunden und geändert, mir einen Zeitslot und einen Raum ausgesucht habe, bzw. mir habe zuweisen lassen (das war auch schon ohne Großbaustelle an der Uni Köln schwer genug, ist mir aber wider Erwarten doch einigermaßen schnell gelungen), konnte ich mich an die inhaltliche Planung setzen, in die ich hier einen kurzen Einblick geben will.

Der formale Rahmen einer Uni-Veranstaltung wird meist dadurch vorgegeben, dass man 16 Doppelstunden zur Verfügung hat, die man auf eine Art füllen muss, welche die Studierenden weder langweilen noch überfordern sollte. Und am Ende mit dem Gefühl zurücklässt, dass sie inhaltlich und methodisch etwas dazugelernt haben.

Als erstes braucht man ein Thema, das eine Klammer um das bildet, was man im Kurs beabsichtigt zu tun. Wie es aussieht, habe ich gerade einen Auftrag für unser Institut an Land gezogen, bei dem es genau um die Evaluierung unterschiedlicher Text-Mining-Methoden geht. Dieser ist noch nicht ganz in trockenen Tüchern, deswegen kann ich hier noch keine konkreten Angaben machen. Vage geht es darum, aus einem sehr großen Korpus relativ homogener Texte Informationen zu extrahieren, um diese in strukturierter Form (Datenbank) abzulegen. Die dort zu behandelnden Texte haben eine Art von Binnenstruktur, d.h. sie zerfallen in der Regel in drei Teile. Es ist einfacher, Informationen aus ihnen zu extrahieren, wenn man weiß, in welchem der drei Textteile man zu suchen hat. So bietet sich an, vor der Informationsextraktion eine Textklassifikation vorzunehmen, in der man versucht, diese Teile im Gesamttext auszumachen und zu labeln (Demnächst vielleicht mal etwas konkreter).

Nun ist es durchaus sinnvoll, die beiden Aufgaben – Projektbetreuung und Seminarangebot – miteinander zu verknüpfen, so dass beide Aufgaben davon profitieren können. In diesem Fall ist es auch durchaus legitim, da die von mir angebotene Übung zum Modulslot  ”Angewandte Sprachverarbeitung” wie die Faust aufs Auge passt. Es bleibt aber noch zu überlegen, wie das Seminar aufgebaut sein kann, so dass die Studierenden davon auch bestmöglich profitieren.

Einerseits braucht es natürlich eine Einführung in den Bereich Text Mining und seine Unterdisziplinen Information Extraction und Text Categorization. Dafür galt es einführende Literatur zu finden, an der ich mich im Unterricht orientieren kann und die damit von den Studierenden als Grundlage für meine Ausführungen herangezogen werden kann (ich könnte denen ja sonstwas erzählen). Es gibt inzwischen eine Reihe recht annehmbarer Lehrbücher zu den Themen, deswegen wurde ich dort relativ schnell fündig. Allerdings setzen die entsprechenden Kapitel meist eine gewisse Grundbildung in induktiver Statistik voraus, wenn man die angewendeten Methoden tatsächlich auch von Grund auf verstehen will. Für die Studierenden kann ich das nicht unbedingt voraussetzen weswegen ich noch eine Einführung in dieses Thema angesetzt habe. Ein dritter – in unserem Studiengang sehr wichtiger Bereich – betrifft die konkrete Umsetzung des Gelernten in einer Software-Lösung.

Zusammengefasst besteht das Seminar aus aus drei Oberthemen – dem konkreten Anwendungsfall (aus dem Bereich Text Mining), dem zugrundeliegenden Handwerkszeug (induktive Statistik) sowie der Art und Weise der Umsetzung (Software Implementierung). Nach dieser Grob-Strukturierung entschloss ich mich erst einmal eine Mind Map anzulegen1, welche speziellen Themen behandelt werden müssten und wie diese zusammenhängen. Das erste Resultat ist dieses hier gewesen:

Course-Text-Mining_37e2acb0

Diese Mind Map gibt mir einen Überblick darüber, was ich in den zur Verfügung stehenden 16 Semesterwochenstunden ansprechen sollte und hilft mir bei der Gliederung des Seminars und der Verteilung von Aufgaben, die durch die Studierenden in Form von Kurzreferaten übernommen werden können. Damit bin ich zwar noch nicht ganz durch, aber es bleiben ja auch noch ein paar Stunden Zeit bis zur ersten Sitzung…

1Hab ich mit Bubbl gemacht, ging erstaunlich problemlos online https://bubbl.us/

Quelle: http://texperimentales.hypotheses.org/1042

Weiterlesen

Dozenten-Nähkästchen (I)

In einem kleinen Fach wie der Informationsverarbeitung besteht das Curriculum – bedingt durch die sehr begrenzten Ressourcen – zu weiten Teilen aus Lehrveranstaltungen, deren Inhalte weitestgehend vorgegeben sind. Das geht natürlich auch zum Teil auf die Kappe des Bologna-Prozesses, in dessen Zuge u.a. Modulhandbücher eingeführt wurden, in denen bisweilen haarklein dokumentiert ist, was in welchen angebotenen Kursen für Inhalte behandelt werden müssen. Beziehungsweise muss das dort genau umgekehrt verschlüsselt werden – es zählt nicht der Input, also die Inhalte, die gelehrt werden, sondern der Outcome, mithin die Kompetenzen, welche die Besucher der Veranstaltung/des Veranstaltungsbündels im Modul erworben haben (sollten). Ob letzteres, was als toller Paradigmenwechsel gefeiert wurde, wirklich so viel sinnvollere Lehrveranstaltungen bedingt, sei dahingestellt. Ich selbst finde es gar nicht verkehrt, dass die Studierenden mit dem Modulhandbuch schwarz auf weiß bekommen, mit welchen Themen sie zu rechnen haben/was letztlich von ihnen verlangt wird und so weniger eventueller Willkür einzelner Dozentinnen oder Dozenten ausgesetzt sind.

Dass ich dem ganzen aufgeschlossen gegenüber stehe, liegt womöglich auch daran, dass ich jetzt schon lange genug dabei bin und die gegenwärtig geltenden Modulhandbücher sowie deren – hoffentlich im nächsten Jahr in Kraft tretenden – Nachfolger mitschreiben durfte. Oder musste. Und möglicherweise ist es leichter, wenn man sich an einen Plan halten muss, den man sich selbst ausgedacht hat. Lehrveranstaltungen, die über die Jahre nur schwach variieren, haben natürlich auch den Vorteil, dass sie in der Vorbereitung nur beim ersten Mal wirklich viel Arbeit machen. Ich habe in den letzten Jahren die je zweisemestrigen Kurse “Computerlinguistik” und “Softwaretechnologie: Java” (Seminar bzw. Programmierpraktikum) gegeben. Mit jedem Jahr wird die Vorbereitungszeit kürzer – die relevante Literatur ist gesichtet, Folien (bei denen bei mir eh immer nur wenig draufsteht) sind entworfen, Beispielanwendungen gefunden. Natürlich kommt bei so dynamischen Gebieten wie Computerlinguistik und Programmiersprachen immer etwas neues hinzu, das sich aber nach meiner Erfahrung relativ fix in einen bereits existierenden Plan einbetten lässt.

Pano-unikoeln-magnusplatz

Mit der Zeit wird es aber natürlich etwas langweilig, immer das gleiche zu unterrichten – bei aller Dynamizität der Inhalte. Deshalb habe ich schon in früheren Semestern mit Co-Dozenten Seminare zu ausgewählten Themen angeboten, die gerade ins Konzept passten (laufende Projekte, an denen ich gearbeitet habe oder Bereiche, die in meiner Dissertation eine Rolle spielten) und über mein Lehrdeputat, das ich verpflichtet bin, abzuleisten, hinausgingen. Mit mehr Fleiß hätte ich das vielleicht auch regelmäßig hinbekommen, es spielte hier aber auch eine Rolle, die Preise nicht zu verderben – es ergäben sich ja für die Bundesländer enorme Einsparpotentiale, wenn jeder Dozierende in seiner Freizeit regelmäßig zusätzliche Kurse ohne Bezahlung gäbe.

So war ich dann sehr froh, als wir am Institut Verstärkung bekommen haben und diese im nächsten Semester mein Programmierpraktikum übernehmen kann. Damit kann ich ein Seminar anbieten, dessen Inhalte ich weitgehend selbst bestimmen darf – es muss nur auf das Thema “Sprachverarbeitung” passen, was hinzukriegen sein dürfte. Eigentlich wollte ich diesen Blogpost dazu nutzen, zu beschreiben, auf welche Weise ein solches Seminar geplant werden kann. Das werde ich dann – so meine Bloglaune es will – im nächsten Teil berichten.

Bild: By A.Savin (Own work) [GFDL (http://www.gnu.org/copyleft/fdl.html) or CC-BY-SA-3.0-2.5-2.0-1.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/1026

Weiterlesen

Aus heiterem Himmel

Zu meiner außerordentlichen Freude, obschon bei Licht betrachtet völlig unverdienterweise ist TEXperimenTales von der Jury (die ich – in Unkenntnis der Zusammensetzung – gar nicht bestechen konnte) auf einen geteilten Platz 5 bei der Wahl zum #dehypoaward2014 gehievt worden. Das ist zwar ein Abstieg im Vergleich zum letzten Jahr, wo mein Blog (da allerdings vom Publikum) auf den 4. Platz gewählt wurde, aber in Anbetracht der Tatsache, dass die Frequenz der Beiträge merklich abgenommen hat, für mich zumindest überraschend. Der “quantitative Einbruch” wird auch in der ausführlichen Laudatio thematisiert, wo man sich auch den kleinen Seitenhieb, mir Authentizität zu unterstellen, nicht verkneift. Wie sagt man bei solchen Gelegenheiten: Diese Auszeichnung sei mir Ansporn und Verpflichtung zugleich!

Quelle: http://texperimentales.hypotheses.org/1022

Weiterlesen

Meta geht immer

Nicht-Bloggen ist ein selbstverstärkender Prozess, habe ich gemerkt. Je länger man die Finger vom Bloggen lässt, desto schwieriger wird es, wieder damit anzufangen. Da meine Blogpause jetzt schon fast ein halbes Jahr andauert, ergreife ich hier vielleicht den letzten Strohhalm, überhaupt nochmal ins Geschäft zu kommen, indem ich über das nicht-Bloggen schreibe.

Es ist ja nicht so, als wenn ich es nicht versucht hätte. Ein paar Themen waren mir schon eingefallen, zwei Posts hatte ich sogar schon relativ weit ausformuliert. Warum es dennoch nicht funktioniert hat, weiß ich nicht recht. Möglicherweise liegt es daran, dass man die Sicherheit verliert, wenn man eine Zeit lang ausgesetzt hat. Ist das überhaupt relevant, was ich da schreibe? Habe ich tatsächlich genug Wissen über das Thema zusammengetragen? Müsste ich mich nicht noch eingehender informieren, bevor ich mich öffentlich dazu äußere? Ist das nicht total langweilig, wie ich die Sache angegangen bin? Wo steckt der Clou? Ich brauche noch einen Clou!

Beim Twittern hatte ich ein ähnliches Erlebnis – nachdem ich mich für eine Weile etwas zurückgezogen hatte, musste ich auch erst wieder langsam hineinfinden. Und so ist auch hier meine Hoffnung, dass alles wieder gut wird. Ich habe nämlich mal gerne gebloggt. Und hiermit vielleicht den ersten Schritt in eine güldene Blogzukunft getan. Und jetzt schnell auf “veröffentlichen” klicken, bevor die Zweifel zu stark werden. :)

Quelle: http://texperimentales.hypotheses.org/1018

Weiterlesen

Geplante Sprachen

Im Unterschied zu natürlichen Sprachen, die sich irgendwann im Laufe der Menschheitsgeschichte entwickelt haben1, werden Plansprachen (auch konstruierte Sprachen genannt) von einzelnen Menschen oder Gruppen entworfen. Der Entwurf solcher Plansprachen kann auf unterschiedliche Beweggründe zurückgeführt werden; der bekannteste ist wohl die Erleichterung der Kommunikation über die Grenzen natürlicher Sprachen hinweg durch die Erschaffung einer künstlichen Lingua Franca. Esperanto - 1887 vom polnischen Augenarzt und Philologen Ludwig Zamenhof vorgestellt – dürfte wohl jeder Leserin bzw. jedem Leser ein Begriff sein. Es ist allerdings nur einer von mehreren Ansätzen, eine künstliche Sprache zu schaffen, die als Kommunikationsmittel für die gesamte Weltgemeinschaft dienen könnte.

Das Vokabular des Esperanto besteht zum großen Teil aus Entlehnungen aus romanischen Sprachen, ein Teil lässt sich aber auch auf germanische und slawische Ursprünge zurückführen. Zur leichten Erlernbarkeit setze Zamenhof auf strenge Regularitäten, z.B. eine phonematische Schriftweise (jedem Laut wird genau ein Schriftzeichen zugeordnet bzw. linguistisch korrekt: jedem Phonem entspricht genau ein Graphem); die Wortbildung ist an agglutinierende Sprachen (z.B. Türkisch) angelehnt, wo Sinneinheiten (linguistisch: sprachlichen Konzepten) eindeutige Wortbestandteile (linguistisch: Morpheme) zugeordnet sind. So ist ein Wort, das auf -o endet, immer ein Substantiv, eins auf -a immer ein Adjektiv. Durch Anhängen von -j kann man den Plural bilden, durch Vorsetzen von mal- verneinen:

  • la bela Blogo – der schöne Blog
  • la malbenaj Blogoj – die nicht schönen Blogs

Zamenhof bediente sich also des Vokabulars verschiedener natürlicher Sprachen und versuchte, die Grammatik weitestgehend zu systematisieren. Solche artifiziellen Sprachkonstrukte, die sich an natürlichsprachlichen Vorbildern orientieren, nennt man auch Plansprachen a posteriori. Sie werden unterschieden2 von Plansprachen a priori, die sich in erster Linie an anderen Konzepten (z.B. Logik, Kategorienlehre) anlehnen.

Solche a-priori-Plansprachen können u.a. philosophisch inspiriert sein, wenn z.B. die natürliche Ordnung der Dinge in der Sprache widergespiegelt werden soll. Einen solchen Ordungsversuch unternimmt etwa der anglikanische Geistliche und Naturphilosoph John Wilkins, niedergelegt in seinem “Essay towards a Real Character and a Philosophical Language” von 1668.3 Dafür musste er zunächst grundlegende Begriffsvorstellungen klassifizieren. Für diese klassifizierten Grundideen entwickelt er eine Begriffsschrift, bei der Grundkonzepte aus wenigen Linien bestehen, Untergattungen dann jeweils noch weitere Striche hinzufügen. Daraus resultiert, dass ähnliche Konzepten (die aus den gleichen Obergattungen abgeleitet sind) ähnliche Schriftzeichen zugeordnet werden. In der Übersetzung des Vater unser (Abbildung unten) ist zu sehen, dass sich “Earth” (Zeichen 22) von “Heaven” (24) nur durch einen zusätzlichen Querstrich rechts am Zeichen unterscheidet. Beide sind aus dem Zeichen für “World”, das ähnlich wie ein Additionszeichen (+) aussieht, abgeleitet. “Power” (71) und “Glory” (74) sind, nach ihren Zeichenkörpern zu urteilen, ebenfalls verwandte Konzepte für Wilkins, wie auch (etwas etwas weiter voneinander entfernt) “trespass” (50) und “evil” (65).

Das "Vater unser" in der Darstellung mit Wilkins Real Characters

Eine grundlegende Eigenschaft natürlichsprachlicher Zeichen ist die willkürliche (arbiträre) Zuordnung von Bezeichnendem (oder Zeichenkörper, Ausdruck, Signifiant) zu Bezeichnetem (oder dahinterstehendem Konzept, Inhalt, Signifié). Wilkins scheint daran gelegen zu haben, diese Willkür weitestgehend aufzuheben bzw. stringenter zu systematisieren, hin zu einem Isomorphismus zwischen Ausdruck und Inhalt. Das Resultat sollte eine nahezu perfekte Sprache sein, durch die Wahrheiten ausgedrückt oder sogar berechnet werden könnten, die sich in natürlichen Sprachen nicht ausdrücken bzw. automatisch berechnen lassen.

Mir ist nicht bekannt, ob jemals wer in der von Wilkins entworfenen Universalsprache tatsächlich korrespondiert hat – für die Zeichen waren keine verbalen Entsprechungen vorgesehen, ein mündlicher Austausch war daher ohnehin ausgeschlossen. Die Aufhebung der arbiträren Zuordnung zwischen Signifiant und Signifié dürfte allerdings im alltäglichen Gebrauch Probleme bereiten: Sprachsignale werden nie perfekt übertragen, auch in der schriftlichen Kommunikation kann es zu Schreibfehlern, Undeutlichkeiten, Verschmutzungen etc. kommen. In einer Sprache, wo ähnliche Signifiants völlig unterschiedlichen Signifiés zugeordnet sind (wie in natürlichen Sprachen), dürfte eine Disambiguierung (linguistisch für die Auflösung von Mehrdeutigkeiten) über den Kontext sehr viel erfolgreicher verlaufen, als in Sprachen, in denen ähnliche Zeichen auch ähnliches bedeuten (wie in Wilkins Sprachkonstrukt).

Der Universalsprachentwurf nach Wilkins hatte mit noch mehr Problemen zu kämpfen, insbesondere stellte die Klassifikation aller denkbaren (und damit potentiell in der Sprache zu verwendenden) Dinge Wilkins vor schwer bewältigbare Herausforderungen.4 Dennoch empfand ich die Beschäftigung mit ihr als lohnend, nicht zuletzt, weil viele der seltsamen Eigenschaften des Textes meines Lieblingsforschungsobjektes (dem Voynich Manuskript) durch einen ähnlichen Sprachentwurf erklärt werden könnten. Diese Idee hatte bereits einer der angesehensten Kryptoanalytiker des 20. Jahrhunderts, der Amerikaner William F. Friedman.5  Problematisch an dieser Hypothese war nur, dass das Voynich Manuskript mit einiger Sicherheit schon zu Beginn des 17. Jahrhunderts in Prag kursierte, die ersten Plansprachen a priori aber scheinbar erst über ein halbes Jahrhundert später entworfen wurden (George Dalgarno 1661 und eben Wilkins 1668). Vor kurzem konnte aber gezeigt werden, dass bereits zum Anfang des 16. Jahrhunderts Methoden niedergelegt wurden, deren Anwendung etwas erzeugt, das den Eindruck erwecken kann, ein Text eines Universalsprachentwurfs zu sein, in Wirklichkeit aber ein Chiffrentext ist. Aber dazu hab ich ja schon mal was geschrieben.

So, von den zwei Versprechen, die ich im letzten Post gab, habe ich jetzt das erste eingelöst und damit das andere auch ein wenig wegprokrastiniert. Aber auch da geht es voran. Gut Ding will Weile haben…

______________________________

1 Niemand weiß so genau, zu welchem Zeitpunkt der Mensch anfing, seine Sprache, die sich wahrscheinlich grundlegend von Tierkommunikationssystemen unterscheidet (ich schrieb darüber), auszubilden. Ist vielleicht mal einen eigenen Post wert.

2 Diese Unterscheidung wurde schon 1903 in der Histoire de la langue universelle von Couturat und Leau vorgenommen.

3 Leider habe ich online keine vollständige Ausgabe gefunden – vielleicht hat ja jemand mehr Glück und schickt mir den Link, dann kann ich ihn einbauen. Müsste sich aber wohl um Bilder handeln – da im Original sehr viele Stammbäume abgedruckt sind, düften automatische OCR-Scans Probleme haben.

4 Der Versuch der Sammlung und Kategorisierung aller Konzepte durch Wilkins und seine Mitstreiter, die er in der Royal Society gewann/zwangsverpflichtete, wird sehr anschaulich im Roman Quicksilver, dem ersten Teil des Baroque Cycle von Neal Stephenson beschrieben.

5 Den Gepflogenheiten eines Kryptologen entsprechend hinterließ Friedman seine Vermutung in einem in einer Fußnote verstecktem Anagramm, das viel zu lang war, als dass man es hätte lösen können: “I put no trust in anagrammic acrostic cyphers, for they are of little real value – a waste – and may prove nothing -finis.” Nach seinem Tod war Elizebeth Friedman, seine Witwe und ebenso eine bekannte Kryptoanalytikerin, so gut, die Welt aufzuklären: “The Voynich MSS was an early attempt to construct an artificial or universal language of the a priori type. – Friedman.”

Quelle: http://texperimentales.hypotheses.org/968

Weiterlesen

Geplante Sprachen

Im Unterschied zu natürlichen Sprachen, die sich irgendwann1 im Laufe der Menschheitsgeschichte entwickelt haben, werden Plansprachen (auch konstruierte Sprachen genannt) von einzelnen Menschen oder Gruppen entworfen. Der Entwurf solcher Plansprachen kann auf unterschiedliche Beweggründe zurückgeführt werden; der bekannteste ist wohl die Erleichterung der Kommunikation über die Grenzen natürlicher Sprachen hinweg durch die Erschaffung einer künstlichen Lingua Franca. Esperanto – 1887 vom polnischen Augenarzt und Philologen Ludwig Zamenhof vorgestellt – dürfte wohl jeder Leserin bzw. jedem Leser ein Begriff sein. Es ist allerdings nur einer von mehreren Ansätzen, eine künstliche Sprache zu schaffen, die als Kommunikationsmittel für die gesamte Weltgemeinschaft dienen könnte.

Das Vokabular des Esperanto besteht zum großen Teil aus Entlehnungen aus romanischen Sprachen, ein Teil lässt sich aber auch auf germanische und slawische Ursprünge zurückführen. Zur leichten Erlernbarkeit setze Zamenhof auf strenge Regularitäten, z.B. eine phonematische Schriftweise (jedem Laut wird genau ein Schriftzeichen zugeordnet bzw. linguistisch korrekt: jedem Phonem entspricht genau ein Graphem); die Wortbildung ist an agglutinierende Sprachen (z.B. Türkisch) angelehnt, wo Sinneinheiten (linguistisch: sprachlichen Konzepten) eindeutige Wortbestandteile (linguistisch: Morpheme) zugeordnet sind. So ist ein Wort, das auf -o endet, immer ein Substantiv, eins auf -a immer ein Adjektiv. Durch Anhängen von -j kann man den Plural bilden, durch Vorsetzen von mal- verneinen:

  • la bela Blogo – der schöne Blog
  • la malbenaj Blogoj – die nicht schönen Blogs

Zamenhof bediente sich also des Vokabulars verschiedener natürlicher Sprachen und versuchte, die Grammatik weitestgehend zu systematisieren. Solche artifiziellen Sprachkonstrukte, die sich an natürlichsprachlichen Vorbildern orientieren, nennt man auch Plansprachen a posteriori. Sie werden unterschieden2 von Plansprachen a priori, die sich in erster Linie an anderen Konzepten (z.B. Logik, Kategorienlehre) anlehnen.

Solche a-priori-Plansprachen können u.a. philosophisch inspiriert sein, wenn z.B. die natürliche Ordnung der Dinge in der Sprache widergespiegelt werden soll. Einen solchen Ordungsversuch unternimmt etwa der anglikanische Geistliche und Naturphilosoph John Wilkins, niedergelegt in seinem “Essay towards a Real Character and a Philosophical Language” von 1668.3 Dafür musste er zunächst grundlegende Begriffsvorstellungen klassifizieren. Für diese klassifizierten Grundideen entwickelt er eine Begriffsschrift, bei der Grundkonzepte aus wenigen Linien bestehen, Untergattungen dann jeweils noch weitere Striche hinzufügen. Daraus resultiert, dass ähnliche Konzepten (die aus den gleichen Obergattungen abgeleitet sind) ähnliche Schriftzeichen zugeordnet werden. In der Übersetzung des Vater unser (Abbildung unten) ist zu sehen, dass sich “Earth” (Zeichen 21) von “Heaven” (24) nur durch einen zusätzlichen Querstrich rechts am Zeichen unterscheidet. Beide sind aus dem Zeichen für “World”, das ähnlich wie ein Additionszeichen (+) aussieht, abgeleitet. “Power” (71) und “Glory” (74) sind, nach ihren Zeichenkörpern zu urteilen, ebenfalls verwandte Konzepte für Wilkins, wie auch (etwas etwas weiter voneinander entfernt) “trespass” (50) und “evil” (65).

Das "Vater unser" in der Darstellung mit Wilkins Real Characters

Eine grundlegende Eigenschaft natürlichsprachlicher Zeichen ist die willkürliche (arbiträre) Zuordnung von Bezeichnendem (oder Zeichenkörper, Ausdruck, Signifiant) zu Bezeichnetem (oder dahinterstehendem Konzept, Inhalt, Signifié). Wilkins scheint daran gelegen zu haben, diese Willkür weitgehend aufzuheben bzw. stringenter zu systematisieren, hin zu einem Isomorphismus zwischen Ausdruck und Inhalt. Das Resultat sollte eine nahezu perfekte Sprache sein, durch die Wahrheiten ausgedrückt oder sogar berechnet werden könnten, die sich in natürlichen Sprachen nicht ausdrücken bzw. automatisch berechnen lassen.

Mir ist nicht bekannt, ob jemals wer in der von Wilkins entworfenen Universalsprache tatsächlich korrespondiert hat – für die Zeichen waren keine verbalen Entsprechungen vorgesehen, ein mündlicher Austausch war daher ohnehin ausgeschlossen. Die Aufhebung der arbiträren Zuordnung zwischen Signifiant und Signifié dürfte allerdings im alltäglichen Gebrauch Probleme bereiten: Sprachsignale werden nie perfekt übertragen, auch in der schriftlichen Kommunikation kann es zu Schreibfehlern, Undeutlichkeiten, Verschmutzungen etc. kommen. In einer Sprache, wo ähnliche Signifiants völlig unterschiedlichen Signifiés zugeordnet sind (wie in natürlichen Sprachen), dürfte eine Disambiguierung (linguistisch für die Auflösung von Mehrdeutigkeiten) über den Kontext sehr viel erfolgreicher verlaufen, als in Sprachen, in denen ähnliche Zeichen auch ähnliches bedeuten (wie in Wilkins Sprachkonstrukt).

Der Universalsprachentwurf nach Wilkins hatte mit noch mehr Problemen zu kämpfen, insbesondere stellte die Klassifikation aller denkbaren (und damit potentiell in der Sprache zu verwendenden) Dinge Wilkins vor schwer bewältigbare Herausforderungen.4 Dennoch empfand ich die Beschäftigung mit ihr als lohnend, nicht zuletzt, weil viele der seltsamen Eigenschaften des Textes meines Lieblingsforschungsobjektes (dem Voynich Manuskript) durch einen ähnlichen Sprachentwurf erklärt werden könnten. Diese Idee hatte bereits einer der angesehensten Kryptoanalytiker des 20. Jahrhunderts, der Amerikaner William F. Friedman.5  Problematisch an dieser Hypothese war nur, dass das Voynich Manuskript mit einiger Sicherheit schon zu Beginn des 17. Jahrhunderts in Prag kursierte, die ersten Plansprachen a priori aber scheinbar erst über ein halbes Jahrhundert später entworfen wurden (George Dalgarno 1661 und eben Wilkins 1668). Vor kurzem konnte aber gezeigt werden, dass bereits zum Anfang des 16. Jahrhunderts Methoden niedergelegt wurden, deren Anwendung etwas erzeugt, das den Eindruck erwecken kann, ein Text eines Universalsprachentwurfs zu sein, in Wirklichkeit aber ein Chiffrentext ist. Aber dazu hab ich ja schon mal was geschrieben.

So, von den zwei Versprechen, die ich im letzten Post gab, habe ich jetzt das erste eingelöst und damit das andere auch ein wenig wegprokrastiniert. Aber auch da geht es voran. Gut Ding will Weile haben…

______________________________

  1. Niemand weiß so genau, zu welchem Zeitpunkt der Mensch anfing, seine Sprache, die sich wahrscheinlich grundlegend von Tierkommunikationssystemen unterscheidet (ich schrieb darüber), auszubilden. Ist vielleicht mal einen eigenen Post wert.
  2. Diese Unterscheidung wurde schon 1903 in der Histoire de la langue universelle von Couturat und Leau vorgenommen.
  3. Leider habe ich online keine vollständige Ausgabe gefunden – vielleicht hat ja jemand mehr Glück und schickt mir den Link, dann kann ich ihn einbauen. Müsste sich aber wohl um Bilder handeln – da im Original sehr viele Stammbäume abgedruckt sind, düften automatische OCR-Scans Probleme haben.
  4. Der Versuch der Sammlung und Kategorisierung aller Konzepte durch Wilkins und seine Mitstreiter, die er in der Royal Society gewann/zwangsverpflichtete, wird sehr anschaulich im Roman Quicksilver, dem ersten Teil des Baroque Cycle von Neal Stephenson beschrieben.
  5. Den Gepflogenheiten eines Kryptologen entsprechend hinterließ Friedman seine Vermutung in einem in einer Fußnote verstecktem Anagramm, das viel zu lang war, als dass man es hätte lösen können: “I put no trust in anagrammic acrostic cyphers, for they are of little real value – a waste – and may prove nothing -finis.” Nach seinem Tod war Elizebeth Friedman, seine Witwe und ebenso eine bekannte Kryptoanalytikerin, so gut, die Welt aufzuklären: “The Voynich MSS was an early attempt to construct an artificial or universal language of the a priori type. – Friedman.”

Quelle: http://texperimentales.hypotheses.org/968

Weiterlesen

Wenn Physiker Voynich-Forschung betreiben

Nein, das geht hier gar nicht gegen Physiker im Allgemeinen – das könnte ich mir schon allein deswegen nicht erlauben, weil ich mit zwei von ihnen das Kneipenlog gegründet habe. Der Titel ist nur eine Anlehnung an den Artikel von Ben Zimmer, der Anfang des Jahres im Boston Globe erschien (“When physicists do linguistic”) und in dem recht anschaulich dargestellt wird, dass Fachfremdheit nicht immer ein Vorteil sein muss. Ich las mal die Anekdote, dass die Soziologin, die gewisse Dinge nicht erklären kann, diese an die Biologin weiterreicht. Was die Biologie nicht erfassen kann, wird an die Chemie delegiert. Die Chemikerin schließlich nimmt alles, was nicht in ihr Modell passt und schanzt es der Physikerin zu, die dann leider niemanden mehr hat, an den sie Unklarheiten weitergeben kann.* So ist es nicht weiter verwunderlich, dass das Voynich Manuskript (VMS, ich schrieb schon mehrfach darüber), mittlerweile schon über 100 Jahre völlig unverstanden, inzwischen auch bei den Physikerinnen gelandet ist, die es nun mit ihren Methoden untersuchen. Das ist auch gar nicht so falsch, das Lustige am Voynich-Manuskript ist ja, dass jede|r daherkommen und irgendwelche Analysen anstellen kann – schließlich sind bisher noch nicht wirklich viele Fortschritte geleistet worden, auf die man sich irgendwie beziehen müsste (man verzeihe mir den Sarkasmus).

So sind kürzlich gleich zwei wissenschaftliche Studien erschienen, die relativ ähnlich geraten sind (schließlich stecken hinter beiden Autoren aus der Physik, man verzeihe mir auch noch, dass ich sie hier beide in einen Topf werfe), von denen die eine aber ein sehr viel höheres Maß an Aufmerksamkeit erhielt – inklusive BBC-Bericht, Spiegel-Online-Artikel, Klaus Schmehs Kryptologieblog usw. Das lag wahrscheinlich daran, dass sie in der inzwischen (erfreulicherweise) sehr renommierten Open Access Zeitschrift PLOS ONE erschienen ist.1 Sie ist damit Peer Reviewed, was für die andere Studie, die bei ArXiv.org hochgeladen wurde, offenbar noch nicht gilt.2

Beide Studien untersuchen den Text des VMS, indem sie informationstheoretische Maße auf ihn anwenden. Das ist tatsächlich auch eine gute Idee, schließlich entband Claude Shannon den Informationsbegriff von allem semantischen Ballast, so dass man den Informationsgehalt einer Nachricht (hier des VMS-Textes) auch untersuchen kann, wenn man keinen Plan hat, was deren Inhalt ist. Ein Großteil der Experimente meiner Dissertation hatten genau diese Zielrichtung, jetzt machen das also ein paar Physiker.

Voynich Manuscript (178)

Drei der Seiten aus dem “geheimnisvollsten Manuskripts der Welt”

Und, was finden die Herren (ja, dem Namen nach sind das ausschließlich Herren) Physiker so heraus? Dass die untersuchten informationstechnologischen Maße (die Autoren der PLOS-ONE-Studie untersuchen gar nur eins) dafür sprechen, dass der VMS-Text eine Nachricht enthält und keine sinnlose Aneinanderreihung von Phantasiewörtern ist. Woraus schließen sie das? Daraus, dass die Eigenschaften des VMS-Text eher mit denen von Texten natürlicher Sprachen vergleichbar sind, als mit

  • einem Text, verfasst in der Programmiersprache Fortran
  • Pilz-DNA (beides PLOS-ONE-Studie) oder
  • computationell erzeugten Zufallsfolgen (ArXiv-Studie).

Ach. Wer hätte gedacht, dass etwas, das von einem Mittelalter/Frühneuzeitmenschen geschrieben wurde (die Außerirdischentheorie lasse ich mal außer acht), eher einer natürlichen Sprache als verschriftlichen Algorithmen, einer computergenerierten Zufallsfolge oder der Basenabfolge von Pilz-DNA entspricht?

Dass am Ende mit Schlussfolgerungen, die weitestgehend daneben sind, so geklingelt wird, ist wirklich ärgerlich. Die beiden Studien sind teilweise wirklich innovativ, die Ergebnisse wären allerdings sehr viel besser als Grundlage für weitere Forschungen nutzbar, wenn die durchgeführten Experimente vielleicht irgendwo mit Software und Daten zugänglich wären. Tut mir leid, dass ich da so oft drauf hinweise. Aber es wird einfach nicht besser, auch wenn alle Welt von Open Science redet. Die Art, wie im PLOS-ONE-Artikel die betreffenden Formeln für die Berechnung versteckt werden, halte ich persönlich auch für eine Frechheit. Wenn schon die Schlussfolgerungen für die Tonne sind, hätte man hier bei mir einige Punkte holen können.

So aber muss ich den Autoren ihre Werte entweder glauben oder die Formeln zusammensuchen, selbst implementieren und am Ende wahrscheinlich feststellen, dass ich andere Werte herausbekomme. Ich hätte auch keinen Plan, welche Transkription ich denn verwenden soll, beide Studien verweisen darauf, dass sie mit der “EVA-Transkription” arbeiten. Das ist allerdings nur das Transkriptionsalphabet, darin sind mehrere Transkriptionen unterschiedlicher Voynich-Forscher verfasst, die teilweise stark voneinander abweichen. Sie sind in einem Archive-File zusammengefasst, das, wenn man es falsch ausliest, für völlig wirklichkeitsfremde Ergebnisse sorgt. Weshalb ich mich darum sorge? Weil die Autoren teilweise eine beängstigende Unkenntnis an den Tag legen, was Spracheigenschaften angeht. Ein Beispiel aus der ArXiv-Studie: Es gibt die Vermutung, dass der VMS-Text in einer Kunstsprache verfasst ist, deswegen vergleichen wir seine Eigenschaften mal mit Esperanto. Zamenhofs Esperanto ist aber eine synthetische Sprache a posteriori, also nach natürlichsprachlichem Vorbild angelegt. So eine Kunstsprache unterscheidet sich fast gar nicht von natürlichen Sprachen. Beim VMS-Text gibt es die Vermutung, er basiere auf einer Kunstsprache a priori, die abweichend von natürlichsprachlichen Vorbildern entworfen wurde (da schreibe ich auch mal was zu). Die Untersuchung von Esperanto ist also genauso irreführend wie sinnlos. Es gibt noch eine Menge Punkte mehr, die ich ansprechen könnte, aber der Post ist eh schon zu lang. Glaubt nur Statistiken, die ihr selbst gefälscht habt. Oder denen, die ihr reproduzieren könnt.

Ja, da hat der Hermes aber wieder viel zu mosern, werdet ihr jetzt wohl sagen. Weshalb reicht er denn nicht einfach mal selbst was ein? Und ja, da habt ihr Recht. Ich werde nach dem Semester wohl mal einen Versuch wagen, meine P.III-Hypothese in einem englischsprachigen Magazin unterzubringen. Mit Daten und Experimenten. :)

_________________________________

1 [Montemurro MA, Zanette DH (2013): Keywords and Co-Occurrence Patterns in the Voynich Manuscript: An Information-Theoretic Analysis. PLoS ONE 8(6): e66344.]

2 [Diego R. Amancio, Eduardo G. Altmann, Diego Rybski, Osvaldo N. Oliveira Jr., Luciano da F. Costa: Probing the statistical properties of unknown texts: application to the Voynich Manuscript. arXiv:1303.0347]

* Noch eine wichtige nachträgliche Ergänzung eines Twitter-Kollegen, nebst meiner Antwort:

 

 

Quelle: http://texperimentales.hypotheses.org/939

Weiterlesen