Die Wissenschaft vom Multitask

Wenn ich als Kind gerade nicht Schriftsteller werden wollte, war definitiv Wissenschaftler mein Berufswunsch. Ich weiß nicht, ob es euch auch so ging, aber ich hatte da einen verschrobenen Geist vor Augen, der sich 24 Stunden täglich und an sieben Tagen in der Woche um eine Forschungsfrage kümmern kann, die er dann irgendwann löst. Und wenn ich mir jetzt meine tägliche Arbeit so anschaue, muss ich feststellen, dass die Wirklichkeit bei mir - wie bei eigentlich allen Kolleg|inn|en in meinem näheren Umfeld - doch ein wenig anders aussieht.

Ich will hier jetzt gar nicht das große Klagelied anstimmen, dass ja sowieso immer alles auf den Mittelbau abgewälzt wird, der dazu meist noch unter dem Damoklesschwert der Befristung darbt. Nein, ich glaube, insgesamt geht es sicher auch der Professor|inn|enschaft nicht besser, die zwischen Lehre und administrativen Aufgaben auch um Zeit ringen muss, sich mit der eigenen Forschung beschäftigen zu können (was der PHD-Comic ganz nett einfängt, wobei der eher die amerikanischen Hochschullehrer abbildet).

PHD comics by Jorge Cham
www.phdcomics.com

Da meine Aufgaben in letzter Zeit immer mehr zerfaserten, musste ich eine Organisationsstruktur zurechtlegen, die mich überall einigermaßen auf dem Laufenden halten kann, welche Aufgaben dringend der Behandlung bedürfen, ohne aus den Augen zu verlieren, was noch so alles erledigt werden muss. Was habe ich nicht alles ausprobiert - Tafelbilder auf dem Whiteboard hinter mir oder Task-Listen auf Schmierzetteln vor mir festgehalten, e-Mails sortiert, zweistellige Zahlen von Google-Docs angelegt und dazu To-Do-Listen auf unterschiedlichen Plattformen ausprobiert. Momentan bin ich dabei angekommen, auf Evernote je eine Notiz zu allen verschiedenen Aufgaben, die ich im Moment betreue, anzulegen und dort wichtige Termine und ToDos festzuhalten. Momentan liegen in dem Ordner zehn dieser gegliederten Notizzettel. Über jeden dieser Zettel könnte ich eigentlich mal einen Blogpost schreiben, es sind durchweg interessante Aufgaben, denen ich aber leider immer nur einen Teil meiner Zeit opfern kann.

Da muss ich z.B. meine Lehrveranstaltungen vorbereiten, managen und eventuelle Prüfungsleistungen korrigieren. Mit dem Kollegen dessen Dissertation besprechen. Oder den BA-Studiengang Informationsverarbeitung für die Re-Evaluierung neu strukturieren. Den MA-Studiengang als 1-Fach-Master völlig neu konzipieren, Austauschmodule zu anderen Studiengängen entwerfen und absegnen. Mit meinen Kollegen Überlegungen zur strategischen Ausrichtung des Institutes anstellen, mit verwandten Fachbereichen Kooperationen absprechen, überlegen, wie wir uns besser in das Cologne Center for e-Humanities eingliedern, und ob ich dort meine Pflichten als stellvertretender Sprecher irgendwie besser ausfüllen könnte. Mögliche Forschungsprojekte ausdenken, ausgedachte anschieben, angeschobene beantragen, bewilligte beaufsichtigen, weiterdenken, Zwischen- und Abschlussberichte verfassen, Ergebnisse veröffentlichen, diverse Formblätter zur Drittmittelanzeige, zur Vollkostenkalkulation, zur Rechnungsstellung ausfüllen, vom Justiziariat belehrt werden, was der Unterschied zwischen Auftragsforschung und Kooperationsverträgen ist, Meetings ansetzen mit Projektmitarbeiter|inne|n, mit unseren Admins, mit dem gesamten Lehrstuhl, mit dem gesamten Institut, mit der CCeH-Geschäftsführung. Dazu irgendwie auf dem Stand der Forschung bleiben in so hochdifferenzierten und weitläufigen Bereichen wie der Computerlinguistik, der Softwaretechnologie und der Wissenschaftskommunikation.

Noch einmal: Ich will nicht jammern, im Gegenteil bin ich in meinem Job wirklich glücklich (gut, ohne Befristung schliefe ich besser). Man muss halt Kompromisse oder Synergien finden - eine Lehrveranstaltung bspw. an ein Thema koppeln, zu dem man gerade ein Projekt leitet. Projekte anschieben, die kompatibel mit dem eigenen Forschungsvorhaben sind. Teile der eigenen Forschung in davon unabhängig gestellte Projekte einbringen. Delegieren, netzwerken, den Überblick behalten. Ich war nie ein besonders guter Multitasker und ich werde es vermutlich auch nie werden. Mit der Nutzung geeigneter Software (Evernote für mich, Google Drive für die Bearbeitung gemeinsamer Dokumente, mitunter, wenn viel Kleinkram auf einmal kommt, auch eine ToDo-Liste wie Wunderlist) ist es mir aber in Teilen möglich, die Multitasks auf eine Reihe von Einzeltasks aufzuteilen, die mein Hirn nicht überfordern. Auch wenn ich froh sein werde, wenn die aktuellen Notizzettel weniger werden sollten, kann ich so noch eine Weile produktiv (Selbstbild) arbeiten. Immerhin hatte ich ja Zeit, diesen Blogpost zu schreiben. Und bald sind ja auch Weihnachtsferien, in denen man dann all das, was in den letzten Monaten hinten runter gefallen ist, aufarbeiten kann...

Quelle: http://texperimentales.hypotheses.org/1208

Weiterlesen

Programm und Sprache

Eigentlich hatte ich einen Artikel zu meiner Sicht auf das Verhältnis zwischen Programmiersprachen und Fremdsprachen hier in diesem Blog geplant. Monsieur @quantenwelt, der mit einem Tweet meinen Nachdenkprozess überhaupt erst in Gang gesetzt hatte, schlug aber vor, dass wir das im Kneipenlog an der Bar klären. Und wer schlägt schon eine Einladung in die eigene Lieblingskneipe aus? Zum Gespräch also hier entlang.

Quelle: http://texperimentales.hypotheses.org/1200

Weiterlesen

Algorithmen für Ängstliche

In jüngerer Zeit kam die Berichterstattung über Algorithmen wieder auf die Tagesordnung und man ist fast versucht, als Tenor “Lasst, die ihr eintretet, alle Hoffnung fahren!” zu vernehmen: Die Welt ist beherrscht von einer weithin unbekannten Supermacht, die das Dasein jedes Einzelnen und das Zusammenleben aller durch unsichtbare Fäden aus dem Hintergrund lenkt. Da werden Frauen über ihr Konsumverhalten als schwanger kategorisiert, ehe sie sich dessen selbst bewusst werden. Da bekommen Lebensgemeinschaften keinen Kredit, weil sie am falschen Ende der Straße wohnen. Da plant ein Online-Versand, Kunden die gewünschten Waren zuzusenden, bevor sie überhaupt daran dachten, diese zu bestellen. Und das alles nur, weil da jemand die “richtige mathematische Formel” gefunden hat und in der Lage war, diese “auf einem Computer zu programmieren”. Und jetzt sind die so geschaffenen Algorithmen dabei, sich von ihren Schöpfern loszusagen und die gesamte Menschheit bis zum Sankt Nimmerleinstag zu knechten.

angst

Der Zaubertrank: Deep Learning

Ich habe zunächst versucht, den Wahrheitsgehalt dieser Darstellungen in meinem Unwissen zu finden, was mir nicht sonderlich gut gelang. Sollten etwa die anderen doch nicht mit Wasser kochen und das, was ich so über das Thema weiß, überholtes Wissen sein? Ja, natürlich gibt es auf der einen Seite den Deep-Learning-Ansatz, der – salopp gesagt – irgendwie sowas wie die Architektur des menschlichen Gehirns auf einem künstlichen Rechnersystem nachbildet und das Ergebnis mit Beispielen füttert, auf dass es eigenständige Kategorisierungen vornehme. Ein solcher Ansatz benötigt allerdings auch in unserer Zeit schneller Desktop-PCs noch nicht-alltägliche Rechneranlagen, eine Menge Spezialisten für die Implementation und das Training neuronaler Netzwerke sowie eine hohe Frustrationstoleranz, weil relativ schwer analysierbar ist, was genau passiert und wie man Ergebnisse verbessern kann. Der Deep-Learning-Ansatz wird deswegen vor allem von großen Forschungseinrichtungen und Unternehmen eingesetzt, Google etwa hat Ray Kurzweil darauf angesetzt.

Deep-Learning-Techniken eignen sich vor allem für Aufgaben, wo Muster erkannt werden müssen, die sich nicht oder nur schwer durch spezifische Merkmale beschreiben lassen. So werden sie z. B. die Spracherkennungssyteme von iOS und Andoid eingesetzt. Soweit ich das beurteilen kann, wird der Ansatz abgesehen davon in freier Wildbahn noch kaum angewendet, weil er einfach noch nicht gut genug modellierbar ist.

Der Kochtopf mit Wasser: Maschinelles Lernen

Realweltszenarien, in denen Algorithmen eingesetzt werden, lassen sich fast alle durch Klassifikations- oder Gruppierungsproblem formulieren: Ist die Nutzerin schwanger oder nicht? Welche Kreditkonditionen bekommen die Kunden in der Gruppe, in die der potentielle Kreditnehmer eingeordnet wurde? Produkte welcher Warengruppe haben die anderen Käufer des Artikels noch erworben?  Ist der Autor des unbekannten Pamphlets Donald Rumsfeld oder der Una-Bomber? Will die Politikerin Europa – ja oder nein? Oder – wie in der Facebook-Studie damals - ist der Nutzer bzw. die Nutzerin heterosexuell oder irgendwas anderes (sic!)?

Es ist hier nicht mein Punkt, welche der möglichen Anwendungsszenarien methodisch zweifelhaft oder gar ethisch verwerflich sind. Was gemacht werden kann, wird wahrscheinlich eh irgendwo durchgeführt werden, da habe ich wenig Illusionen. Mir geht es hier nur darum, aufzuzeigen, dass dort in den seltensten Fällen neue mathematische Formeln ersonnen werden, die dann irgendwer auf dem Computer programmiert. Vielmehr steht ein ganzer Werkzeugkasten bekannter Verfahren zur Klassifikation und Gruppierung (Clustering) von Objekten zur freien Verfügung. Theoretisch könnte sich also jede|r daran bedienen und für welche Typisierungen auch immer anwenden. Mit ein wenig Geduld kommt man auch mit so mächtigen Programmen wie WEKA zurecht (da bekommt man auch eine graphische Benutzeroberfläche). Oder man ist so verwegen und installiert sich die entsprechenden Pakete für R.

Und schon ist man Data Scientist. Eigentlich, denn der Teufel liegt mal wieder … in den Daten. Um Objekte zu klassifizieren, muss man sie zunächst durch Merkmale beschreiben, jedenfalls wenn man nicht einen solchen Zauber-Neuronalen-Netzwerk-Ansatz wie oben beschrieben verfolgt. Texte kann ich z.B. beschreiben über die Wörter, die sie enthalten; Menschen über ihre Augenfarbe, ihre Größe, ihr Geschlecht, ihren Wohnort oder eben über die Bücher, die sie bisher erworben haben. Oder ich kombiniere einfach mehrere Merkmale. Und gewichte sie dann möglicherweise unterschiedlich – Augenfarbe ist wichtig, Anzahl der Muttermale etwas weniger relevant. Was auch immer ich messen oder abzählen kann, ist als Merkmal verwendbar. Schwierig ist die Mischung von Merkmalen unterschiedlicher Skalenniveaus, aber auch das ist mit ein wenig Phantasie meist lösbar. Augenfarbe könnte etwa über RGB-Werte angegeben werden – dann hätte ich statt eines nominalskalierten Merkmals gleich drei verhältnisskalierte. Diesen Vorgang – die Zuordnung von Merkmalen zu Objekten – nennt man Feature Engineering. Am Ende dieses Schrittes hat man zu jedem Objekt, das man gruppieren oder klassifizieren möchte, eine Reihe von Zahlen. Und mit diesen Zahlen kann ich dann meinen Algorithmus füttern. Bei der Gruppierung gebe ich die Objekte einfach alle hinein und bekomme am Ende Gruppen (immer hinsichtlich der ausgewählten Merkmale) homogener Objekte zurück. Das nennt man auch unüberwachtes Lernverfahren, weil ich die ursprünglichen Objekte nicht vorklassifizieren musste, um sie in Gruppen einzuteilen.

Ein weiteres bekanntes Verfahren ist das überwachter Art: Hierfür werden Trainingsobjekte benötigt, die bereit vor Anwendung des Algorithmus mit ihrer Klasse versehen sind (+/-schwanger, Text von Rumsfeld, Text vom Una-Bomber etc). Über diese Trainingsobjekte bildet sich der Algorithmus ein Modell, das er zu Rate zieht, wenn er weitere, nicht vorausgezeichnete Objekte zuweisen soll.

Was ich eigentlich damit sagen will

Hinter dem was landläufig als Algorithmen bezeichnet wird, die einen immer größeren Einfluss auf unser Leben haben, verbergen sich meist maschinelle Lernverfahren. In denen steckt zwar ein wenig was an Mathematik drin, vor allem bei der Gewichtung von Merkmalen, bei der Distanzberechnung von Merkmalskombinationen und eben bei der Gruppierung oder Klassifikation. Dies sind aber in den meisten Fällen frei zugängliche Formeln oder gar fertige Implementationen, die über graphische Oberflächen von eigentlich jedem zu bedienen sind. Manche dieser Verfahren liefern für bestimmte Anwendungsfälle bessere, für andere wieder schlechtere Ergebnisse. Zumindest in meinem Bereich, der Computerlinguistik, lässt sich meist schwer voraussagen, welche der Kombinationen gut funktioniert. Man probiert halt einfach alle aus und schaut dann, welche am besten performt (ja, manchmal sind wir halt einfach Ingenieure).

Mit das Wichtigste für die Funktion der Verfahren ist allerdings die Auswahl an Merkmalen, mit denen die Objekte beschrieben werden. Und anstatt darüber zu mosern, dass Algorithmen Entscheidungen für oder über uns treffen, sollte man vielleicht besser darauf drängen, offenzulegen, auf welcher Grundlage sie dies tun. Welche Merkmale erhebt die Schufa? Liest Amazon meine History aus oder beruhen die Empfehlungen nur auf den Daten, die ich ihnen gegeben habe? Vor allem: Kann ich das abschalten? Was der Algorithmus dann hinterher draus macht, kann ja auch mal hilfreich sein. Demnächst hoffentlich hier an einem konkreten Beispiel gezeigt.

Quelle: http://texperimentales.hypotheses.org/1111

Weiterlesen

Verwaschene Texte

Artikel zum Voynich-Manuskript (VMS) ziehen meist auch Kommentare an, in denen sich die Kommentarist|inn|en darüber äußern, welche Theorie sie sich mal so überlegt haben, was das VMS sein könnte und wie der Text interpretiert werden kann. In den allermeisten Fällen muss man die Ausführungen nicht ganz ernst nehmen, da sich ein fundiertes Gespräch zu diesem mehr oder weniger komplexen Thema schlecht in Kommentaren führen lässt. Die Darstellung eigener Hypothesen benötigt mehr Platz, einen gegliederten Text und eventuell Abbildungen. Das alles können Kommentarspalten nicht so recht bieten. Es besteht natürlich die Möglichkeit, auf externe Seiten zu verlinken. Ich sehe mir diese dann auch meist an und gebe ein kurzes Feedback. Eine wirklich ausgearbeitete und nachvollziehbare Theorie ist mir dabei allerdings noch nicht untergekommen. Beispiele gefällig? Voilà: [1] [2] [3] [4] [5]

Ein Kommentar in der Nacht

Für einen Kommentar, der in der Nacht zum Sonntag unter meinem Gast-Post bei den Ruhrbaronen landete, muss ich allerdings eine Ausnahme machen, ist der Absender doch Thomas Ernst (wenn er denn wirklich dahinter steckt und mir nicht jemand einen Streich spielen möchte. Es fällt mir aber niemand ein, der Ernsts Stil so gut nachzuahmen verstünde). Traurigerweise werden sich jetzt nicht wenige der Leserinnen und Leser hier fragen, wer denn dieser Thomas Ernst sei. Seine Heldensage ist leider noch immer weithin unbekannt, das hat wohl auch mein Blogpost über dieses Husarenstück nicht wirklich geändert. Mit der Entschlüsselung der Steganographia III hat er sich unsterblich gemacht, seine Darlegung zum Thema ist mehr als lesenswert und sei jedem zur Lektüre empfohlen. Es ist ein Krimi, verborgen im Pelz einer vor amüsant vorgetragener Gelehrsamkeit strotzenden wissenschaftlichen Abhandlung. Mir fehlen die Worte, um hier festzuhalten, wie sehr ich Ernst dafür bewundere. Wenigstens einen New-York-Times-Artikel hat er dafür bekommen.

Die geheimnisumwitterte Steganographia von Johannes Trithemius.

Und nun äußert dieser Thomas Ernst – wenn ich das richtig verfolgt habe – zum ersten Mal seine Hypothese zum VMS, was ich allein für sich genommen schon ziemlich sensationell finde. Gewissermaßen vermutet auch er, beim VMS sei ein Kopist am Werke gewesen. Dieser sei jedoch kein Autokopist, der immer wieder Zeichenketten von sich selbst abschreibt und verfremdet, sondern ein Fremdkopist, der ein Werk abschreibt, dessen Zeichen ihm nicht geläufig sind und dessen Inhalt er dementsprechend nicht versteht. So sehr ich ihn sonst bewundere – hier liegt Ernst meiner Meinung nach falsch. Der Text des VMS weist einfach zu viele Eigenschaften auf, die mit dieser Hypothese nicht in Deckung gebracht werden können. Ich greife mir hier zwei dieser seltsamen Merkmale heraus, die sich in der gegebenen Kürze erklären lassen.

Entropie: Zuwenig Information an Bord

Über das Maß der Entropie lassen sich Aussagen über den Informationsgehalt einer Nachricht machen, und das, ohne den Inhalt (die Semantik) der Nachricht zu kennen. Dafür muss man lediglich die Häufigkeitsverteilung der einzelnen Zeichen kennen (um die Zeichenentropie – H0 – zu errechnen) sowie die Häufigkeit, mit der bestimmte Zeichen auf bestimmte andere folgen (um die Verbundentropie – H1 – zu errechnen). Da H1 abhängig ist vom Umfang des zugrundeliegenden Alphabets, sollte man – um Texte mit unterschiedlich vielen verschiedenen Zeichen zu vergleichen – die Differenz zwischen H0 und H1 heranziehen. Dies tut z.B. Dennis Stallings in seiner Analyse zum VMS und kann damit aufzeigen, dass sich der Text des VMS hinsichtlich dieses Differenzwertes signifikant von allen bekannten natürlichen Schriftsprachsystemen unterscheidet. Das VMS scheint viel weniger Information (d.h. mehr Redundanzen) zu enthalten, als alle vergleichbar langen natürlichsprachlichen Texte, die man bisher untersucht hat. Dies gilt unabhängig davon, ob es sich dabei um Zeichen-, Silben- oder Alphabetschriften handelt.

Wortlängen: Zeilen als funktionale Einheit

Zeilen scheinen im VMS so etwas wie funktionale Einheiten zu bilden, d.h. sie scheinen auf irgend eine Weise gleich zu funktionieren. Bei natürlichen Sprachen ist dies auch zu beobachten, z.B. in der Lyrik oder bei Spruchsammlungen. Ein Text, bei dem auf 200 Seiten die Zeilen so aufgebaut sind, dass ihr jeweils erstes Wort – im Vergleich zur durchschnittlichen Wortlänge – signifikant länger, das jeweils zweite Wort aber signifikant kürzer ist, ist mir allerdings (abgesehen vom VMS, was Elmar Vogt schön ausführt) nicht untergekommen. Dazu wirken die Zeilen wie in Blocksatz gesetzt, ohne dass etwas darauf hindeutet, dass Wörter am Zeilenende getrennt worden wären oder dass der Abstand zwischen den Wörtern merklich differieren würde. Stattdessen scheint der Schreiber bzw. die Schreiberin einfach am Ende der Zeile ein Wort eingefügt zu haben, das längenmäßig passte. Ein solches Gebahren lässt sich meiner Ansicht nach nicht mit der Abschrift eines natürlichsprachlichen Textes in Deckung bringen.

Bloß ein starker Waschgang?

Die beiden kurz ausgeführten Indizien sind nicht die einzigen, die gegen die Hypothese sprechen, dem Text liege ein unverschlüsselter, natürlichsprachlicher zugrunde. Auch wenn man annimmt, der Text sei durch eine verständnislose, fehlerhafte Abschrift unter Zeitnot quasi einem Waschgang unterzogen worden, der ihn nahezu unkenntlich gemacht hat, kann das meiner Meinung nach diese Eigenschaften nicht erklären. Vielmehr deuten die Entropiewerte darauf hin, dass – wenn der Text des VMS eine Botschaft enthält – diese ein gutes Stück kürzer ist, als das die Länge des Textes suggeriert. Das heißt, dass die kleinsten Informationseinheiten des VMS länger sind als unsere Schriftzeichen. Das seltsame positionsabhängige Wortlängengebahren scheint mir auf einen Auswahlprozess irgendeiner Art hinzudeuten. Insofern denke ich, dass die Hypothesen, die

  1. von Gordon Rugg (Text ist ohne Inhalt und mithilfe eines Cardangitters und einer Morphemtabelle hergestellt)
  2. von Torsten Timm (Text ist wahrscheinlich ohne Inhalt und durch Kopie und Abwandlung einiger initialer Zeichenketten entstanden)
  3. von mir (Text ist das Resultat einer Verschlüsselung, bei der einzelne Buchstaben durch ganze, in Verschlüsselungstabellen aufgeführte Wörtern substituiert wurden)

aufgestellt wurden, in Vergleich zu der Ernst’schen die vorzuziehenden sind. Wie man sie gegeneinander evaluieren kann, darüber denke ich demnächst mal nach. Aber vielleicht nimmt mir das ja jemand ab.

 

Quelle: http://texperimentales.hypotheses.org/1155

Weiterlesen

Wer einmal fremdschreibt…

… tut das offensichtlich auch ein zweites Mal. Wie schon damals mit der Ausrede, das alles nur für die Mehrung von Ruhm und die Ehre der Blogplattform hypotheses.org zu tun. Dieses Mal fragte mich Sebastian Bartoschek von den Ruhrbaronen, ob ich meinen letzten Artikel zum Voynich Manuskript nicht auch auf dieser populären Blogplattform veröffentlichen und ihn in diesem Zuge vielleicht für ein breiteres Publikum aufhübschen wolle. Das habe ich natürlich gerne getan und dabei versucht, sowohl kürzere Sätze als auch gliedernde Zwischenüberschriften zu nutzen. Den Titel meines letzten Postes habe ich beibehalten, der Text ist allerdings durch eine allgemeine Einleitung zum Voynich Manuskript erweitert worden. Zu finden ist er hier.

Ich danke Sebastian für die Gelegenheit und hoffe, dass Mareike mir nicht allzu oder allzu lange böse ist. :)

Quelle: http://texperimentales.hypotheses.org/1118

Weiterlesen

Voynich Manuskript das Werk eines Autokopisten?

“Schon wieder eine neue Theorie zum Voynich Manuskript?” mögen sich die geneigten Leserinnen und Leser dieses Blogs fragen. “Da lässt der Hermes doch bestimmt wieder kein gutes Haar dran.” Tatsächlich warfen die jüngsten Veröffentlichungen zum Thema weit mehr Fragen bei mir auf, als sie nachvollziehbare Antworten gaben. Um so erfreulicher finde ich, dass ich nun endlich einmal von einer aktuellen Veröffentlichung berichten kann, die ich für sehr überzeugend halte, vielleicht sogar für überzeugender als meine eigene Theorie.

Vor etwa vier Monaten wurde ich per Mail nett gefragt, ob ich bereit wäre, einen Paper-Entwurf zum Voynich Manuskript kritisch gegenzulesen. Die Bitte kam von Torsten Timm, der – wie so viele Voynich-Forscher – nicht mit der Wissenschaft sein Geld verdient. Wer weiß, wie gerne ich mich zwischendurch immer wieder mit dem Voynich Manuskript (VMS) beschäftige, kann natürlich ahnen, wie bereitwillig ich dieser Bitte nachkam. Vom ersten Augenblick an erschien mir Timms Hypothese plausibel und einen fruchtbaren Austausch per Mail und Skype später bin ich nach wie vor überzeugt davon, dass seine Theorie das Potential hat, die Entstehung des VMS-Textes zu erklären. Timm hat sie inzwischen (lobenswerterweise als Open Access Paper, daran bin ich auch nicht ganz unschuldig, glaube ich) auf arxiv.org veröffentlicht, so dass sich jede|r selbst ein Bild machen kann. Zu wünschen ist, dass sich Peer Reviewers finden, so dass das Paper auch auf einer publikumswirksameren Plattform veröffentlicht werden kann.

Kurz zum Inhalt: Timm begibt sich – wie ich das auch tat – auf die Suche nach einer Textgenerierungsmethode, deren Anwendung ein Resultat ergibt, dass die sonderbare distributionellen und statistischen Eigenschaften des VMS-Textes wiederspiegelt. Timm bezieht sich dabei vor allem auf die seltsame Eigenschaft, dass sich das Auftreten, die Häufigkeit und die Position (n-te Zeile, n-te Position in der Zeile) von VMS-Wörtern relativ gut vorhersagen lassen aus dem Auftreten, der Häufigkeit und der Position ähnlich aussehender Wörter. Da Timm ausschließt, dass dem Schreiber/der Schreiberin des VMS im späten Mittelalter/der frühen Neuzeit ein Instrumentarium zur Verfügung stand, das es erlaubte, eine solche Verteilung mathematisch herzuleiten, vermutet er, dass sie das Resultat eines Seiteneffekts einer einfacheren Methode der Textgenerierung ist.

Kern dieser angenommenen Methode ist ein Kopiervorgang des Schreibenden: Dieser erfand initial eine Reihe von unterschiedlichen Zeichenfolgen, die er im Anschluss immer wieder abwandelte. Timm weist nach, das teilweise ganze Zeilen voneinander kopiert scheinen, wobei immer leichte Abwandlungen in den Kopierprozess eingeflochten wurden, so dass nie gleiche, sondern immer nur ähnliche Zeichenketten entstanden. Auf den ersten Blick mag diese Methode als zu simpel bzw. zu abwegig erscheinen – wer zur Hölle soll sich hinsetzen und mehr als hundert Seiten auf diese sinnlose Art füllen? Allerdings wird die Hoax-Hypothese zum VMS (die Zeichen des VMS tragen keinen Inhalt, es wurde nicht zum Austausch bzw. zur Bewahrung von Information angefertigt) schon länger verbreitet und Timm belegt seine Vermutungen durch eine ganze Reihe von Indikatoren, im Paper selbst und vor allem in seinem Anhang, dem man ansieht, dass sich da jemand gewissenhaft mit der Materie auseinandergesetzt hat.

Timm

Ausschnitt aus der Seite f100r des VMS. Darauf farblich markiert von Timm angenommene kopierte, abgewandelte “Wörter” in wiederkehrenden Positionen.

Zum Ende geht Timm auch noch auf meine PIII-Hypothese ein, zu der er – nach meiner Ansicht – die bisher beste Alternativhypothese aufgestellt hat. Wir vermuten beide eine Textgenerierungsmethode hinter dem VMS-Text, und doch es gibt zwei entscheidende Unterschiede:

  1. Für meine PIII-Hypothese ist ein Codebuch notwendig, da dort die verschiedenen Chiffren auf Klartextbuchstaben abgebildet werden. Ein solches Codebuch wurde bisher nie gefunden, die Chiffrierungsmethode ist (wie ich selbst zugebe und Timm noch einmal schön ausführt) extrem kompliziert handzuhaben, v.a. bei der Dechiffrierung. Da Timms Kopisten-Hypothese ohne ein solches Codebuch auskommt, weil der Text einfach durch dauernde Abwandlung von sich selbst zustande kommt, sehe ich meine Hypothese hier klar im Nachteil.
  2. Das Resultat der Kopisten-Methode ist ein sinnfreier Text (den man textlinguistisch wohl noch nicht mal als Text bezeichnen dürfte). Mit ihm kann man nichts weiter anfangen, als jemanden zu täuschen, um sich dadurch irgendeine Art von Vorteil zu verschaffen. Ob dies tatsächlich eine solche Mühe, welche die Erzeugung des VMS gekostet haben muss, rechtfertigen kann, sei dahingestellt. Mit einer PIII-artigen Methode aber ist es möglich, Informationen zu verbergen, und zwar so gut, dass diese evtl. mit der Technik des 21. Jahrhunderts nicht entschlüsselt werden können. Lässt sich das nicht vielleicht als stärkerer Antrieb annehmen?

Ich gebe hier Occams Rasiermesser den geneigten Leser|inne|n in die Hand. Mögen sie beurteilen, welche Hypothese sie für plausibler halten. Mir sind ein paar Dinge in den Kopf gekommen, die man überprüfen und das Lot damit in die eine oder andere Richtung ausschlagen lassen könnte. Das ist mir aber noch zu unausgegoren, als dass ich mich dazu jetzt schon äußern möchte. Ich freue mich jedenfalls, dass Torsten die Muße und den Mut gefunden hat, seine Theorie so gewissenhaft auszuarbeiten und der Öffentlichkeit zu präsentieren. Möge dies ein weiterer Anstoß sein, die zukünftige VMS-Forschung auf eine solidere Basis zu stellen.

_______

Timm, Torsten (07/2014): How the Voynich Manuskript was created. Publication: eprint 2014arXiv1407.6639T

Hermes, Jürgen (2012) Textprozessierung – Design und Applikation. Dissertation, Universität zu Köln. Publication eprint http://kups.ub.uni-koeln.de/id/eprint/4561

Quelle: http://texperimentales.hypotheses.org/1076

Weiterlesen

Radio TEXperimenTales

Wenn man meinen Kram hier gerne liest, mag man mich vielleicht ja auch mal hören. Dazu gibt es jetzt die Gelegenheit, da der weitläufig für seine Wrint-Podcasts bekannte Holger Klein mich interviewt hat und das Interview dann tatsächlich auch veröffentlichte.

Wrintlogo

Es ist erschienen in der Rubrik “zum Thema” und dreht sich über weite Strecken um die Tücken des Voynich Manuskripts – das bleibt halt so ziemlich das Öffentlichkeitswirksamste, was ich zu erzählen habe. Dazu gibt es aber auch kleine Abstecher, z.B. in die Computerlinguistik (ganz zu Anfang – da läuft es noch etwas unrund bei mir, man gibt halt nicht alle Tage ein Telefoninterview) und um die Frage, was Mode und Wissenschaft miteinander zu tun haben.

Insgesamt muss ich feststellen, dass ich zufriedener mit dem Ergebnis bin, als ich vorher gedacht hatte. Mit Holger kann man allerdings auch verdammt gut plaudern, auf diesem Wege sei ihm herzlich dafür gedankt. Angebandelt wurde das ganze mal wieder über Twitter, wo das einzigartige @mettwurstballett Holger auf mein Halbwissen zum Voynich Manuskript aufmerksam machte, worauf dieser mich anrief. Das Ergebnis könnt ihr hier anhören oder herunterladen. Vielleicht ja irgendwo im Grünen an diesem sonnigen Pfingstwochenende.

Quelle: http://texperimentales.hypotheses.org/1066

Weiterlesen

Dozenten-Nähkästchen (II) – Seminarplanung

Im beginnenden Semester habe ich die Möglichkeit (wie hier berichtet), an Stelle eines meiner Pflichtkurse ein neu völlig zusammengestelltes Seminar anzubieten. Dazu ist zwar einiges an Organisation nötig, die man irgendwann vor Beginn des Semesters oder zumindest der ersten Vorlesungswoche (also vor heute) hinbekommen haben muss. Lustigerweise hatte Kathrin Passig heute auch die richtigen Tweets dazu:

 

Nachdem ich ein Thema gefunden und geändert, mir einen Zeitslot und einen Raum ausgesucht habe, bzw. mir habe zuweisen lassen (das war auch schon ohne Großbaustelle an der Uni Köln schwer genug, ist mir aber wider Erwarten doch einigermaßen schnell gelungen), konnte ich mich an die inhaltliche Planung setzen, in die ich hier einen kurzen Einblick geben will.

Der formale Rahmen einer Uni-Veranstaltung wird meist dadurch vorgegeben, dass man 16 Doppelstunden zur Verfügung hat, die man auf eine Art füllen muss, welche die Studierenden weder langweilen noch überfordern sollte. Und am Ende mit dem Gefühl zurücklässt, dass sie inhaltlich und methodisch etwas dazugelernt haben.

Als erstes braucht man ein Thema, das eine Klammer um das bildet, was man im Kurs beabsichtigt zu tun. Wie es aussieht, habe ich gerade einen Auftrag für unser Institut an Land gezogen, bei dem es genau um die Evaluierung unterschiedlicher Text-Mining-Methoden geht. Dieser ist noch nicht ganz in trockenen Tüchern, deswegen kann ich hier noch keine konkreten Angaben machen. Vage geht es darum, aus einem sehr großen Korpus relativ homogener Texte Informationen zu extrahieren, um diese in strukturierter Form (Datenbank) abzulegen. Die dort zu behandelnden Texte haben eine Art von Binnenstruktur, d.h. sie zerfallen in der Regel in drei Teile. Es ist einfacher, Informationen aus ihnen zu extrahieren, wenn man weiß, in welchem der drei Textteile man zu suchen hat. So bietet sich an, vor der Informationsextraktion eine Textklassifikation vorzunehmen, in der man versucht, diese Teile im Gesamttext auszumachen und zu labeln (Demnächst vielleicht mal etwas konkreter).

Nun ist es durchaus sinnvoll, die beiden Aufgaben – Projektbetreuung und Seminarangebot – miteinander zu verknüpfen, so dass beide Aufgaben davon profitieren können. In diesem Fall ist es auch durchaus legitim, da die von mir angebotene Übung zum Modulslot  ”Angewandte Sprachverarbeitung” wie die Faust aufs Auge passt. Es bleibt aber noch zu überlegen, wie das Seminar aufgebaut sein kann, so dass die Studierenden davon auch bestmöglich profitieren.

Einerseits braucht es natürlich eine Einführung in den Bereich Text Mining und seine Unterdisziplinen Information Extraction und Text Categorization. Dafür galt es einführende Literatur zu finden, an der ich mich im Unterricht orientieren kann und die damit von den Studierenden als Grundlage für meine Ausführungen herangezogen werden kann (ich könnte denen ja sonstwas erzählen). Es gibt inzwischen eine Reihe recht annehmbarer Lehrbücher zu den Themen, deswegen wurde ich dort relativ schnell fündig. Allerdings setzen die entsprechenden Kapitel meist eine gewisse Grundbildung in induktiver Statistik voraus, wenn man die angewendeten Methoden tatsächlich auch von Grund auf verstehen will. Für die Studierenden kann ich das nicht unbedingt voraussetzen weswegen ich noch eine Einführung in dieses Thema angesetzt habe. Ein dritter – in unserem Studiengang sehr wichtiger Bereich – betrifft die konkrete Umsetzung des Gelernten in einer Software-Lösung.

Zusammengefasst besteht das Seminar aus aus drei Oberthemen – dem konkreten Anwendungsfall (aus dem Bereich Text Mining), dem zugrundeliegenden Handwerkszeug (induktive Statistik) sowie der Art und Weise der Umsetzung (Software Implementierung). Nach dieser Grob-Strukturierung entschloss ich mich erst einmal eine Mind Map anzulegen1, welche speziellen Themen behandelt werden müssten und wie diese zusammenhängen. Das erste Resultat ist dieses hier gewesen:

Course-Text-Mining_37e2acb0

Diese Mind Map gibt mir einen Überblick darüber, was ich in den zur Verfügung stehenden 16 Semesterwochenstunden ansprechen sollte und hilft mir bei der Gliederung des Seminars und der Verteilung von Aufgaben, die durch die Studierenden in Form von Kurzreferaten übernommen werden können. Damit bin ich zwar noch nicht ganz durch, aber es bleiben ja auch noch ein paar Stunden Zeit bis zur ersten Sitzung…

1Hab ich mit Bubbl gemacht, ging erstaunlich problemlos online https://bubbl.us/

Quelle: http://texperimentales.hypotheses.org/1042

Weiterlesen

Dozenten-Nähkästchen (I)

In einem kleinen Fach wie der Informationsverarbeitung besteht das Curriculum – bedingt durch die sehr begrenzten Ressourcen – zu weiten Teilen aus Lehrveranstaltungen, deren Inhalte weitestgehend vorgegeben sind. Das geht natürlich auch zum Teil auf die Kappe des Bologna-Prozesses, in dessen Zuge u.a. Modulhandbücher eingeführt wurden, in denen bisweilen haarklein dokumentiert ist, was in welchen angebotenen Kursen für Inhalte behandelt werden müssen. Beziehungsweise muss das dort genau umgekehrt verschlüsselt werden – es zählt nicht der Input, also die Inhalte, die gelehrt werden, sondern der Outcome, mithin die Kompetenzen, welche die Besucher der Veranstaltung/des Veranstaltungsbündels im Modul erworben haben (sollten). Ob letzteres, was als toller Paradigmenwechsel gefeiert wurde, wirklich so viel sinnvollere Lehrveranstaltungen bedingt, sei dahingestellt. Ich selbst finde es gar nicht verkehrt, dass die Studierenden mit dem Modulhandbuch schwarz auf weiß bekommen, mit welchen Themen sie zu rechnen haben/was letztlich von ihnen verlangt wird und so weniger eventueller Willkür einzelner Dozentinnen oder Dozenten ausgesetzt sind.

Dass ich dem ganzen aufgeschlossen gegenüber stehe, liegt womöglich auch daran, dass ich jetzt schon lange genug dabei bin und die gegenwärtig geltenden Modulhandbücher sowie deren – hoffentlich im nächsten Jahr in Kraft tretenden – Nachfolger mitschreiben durfte. Oder musste. Und möglicherweise ist es leichter, wenn man sich an einen Plan halten muss, den man sich selbst ausgedacht hat. Lehrveranstaltungen, die über die Jahre nur schwach variieren, haben natürlich auch den Vorteil, dass sie in der Vorbereitung nur beim ersten Mal wirklich viel Arbeit machen. Ich habe in den letzten Jahren die je zweisemestrigen Kurse “Computerlinguistik” und “Softwaretechnologie: Java” (Seminar bzw. Programmierpraktikum) gegeben. Mit jedem Jahr wird die Vorbereitungszeit kürzer – die relevante Literatur ist gesichtet, Folien (bei denen bei mir eh immer nur wenig draufsteht) sind entworfen, Beispielanwendungen gefunden. Natürlich kommt bei so dynamischen Gebieten wie Computerlinguistik und Programmiersprachen immer etwas neues hinzu, das sich aber nach meiner Erfahrung relativ fix in einen bereits existierenden Plan einbetten lässt.

Pano-unikoeln-magnusplatz

Mit der Zeit wird es aber natürlich etwas langweilig, immer das gleiche zu unterrichten – bei aller Dynamizität der Inhalte. Deshalb habe ich schon in früheren Semestern mit Co-Dozenten Seminare zu ausgewählten Themen angeboten, die gerade ins Konzept passten (laufende Projekte, an denen ich gearbeitet habe oder Bereiche, die in meiner Dissertation eine Rolle spielten) und über mein Lehrdeputat, das ich verpflichtet bin, abzuleisten, hinausgingen. Mit mehr Fleiß hätte ich das vielleicht auch regelmäßig hinbekommen, es spielte hier aber auch eine Rolle, die Preise nicht zu verderben – es ergäben sich ja für die Bundesländer enorme Einsparpotentiale, wenn jeder Dozierende in seiner Freizeit regelmäßig zusätzliche Kurse ohne Bezahlung gäbe.

So war ich dann sehr froh, als wir am Institut Verstärkung bekommen haben und diese im nächsten Semester mein Programmierpraktikum übernehmen kann. Damit kann ich ein Seminar anbieten, dessen Inhalte ich weitgehend selbst bestimmen darf – es muss nur auf das Thema “Sprachverarbeitung” passen, was hinzukriegen sein dürfte. Eigentlich wollte ich diesen Blogpost dazu nutzen, zu beschreiben, auf welche Weise ein solches Seminar geplant werden kann. Das werde ich dann – so meine Bloglaune es will – im nächsten Teil berichten.

Bild: By A.Savin (Own work) [GFDL (http://www.gnu.org/copyleft/fdl.html) or CC-BY-SA-3.0-2.5-2.0-1.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/1026

Weiterlesen

Aus heiterem Himmel

Zu meiner außerordentlichen Freude, obschon bei Licht betrachtet völlig unverdienterweise ist TEXperimenTales von der Jury (die ich – in Unkenntnis der Zusammensetzung – gar nicht bestechen konnte) auf einen geteilten Platz 5 bei der Wahl zum #dehypoaward2014 gehievt worden. Das ist zwar ein Abstieg im Vergleich zum letzten Jahr, wo mein Blog (da allerdings vom Publikum) auf den 4. Platz gewählt wurde, aber in Anbetracht der Tatsache, dass die Frequenz der Beiträge merklich abgenommen hat, für mich zumindest überraschend. Der “quantitative Einbruch” wird auch in der ausführlichen Laudatio thematisiert, wo man sich auch den kleinen Seitenhieb, mir Authentizität zu unterstellen, nicht verkneift. Wie sagt man bei solchen Gelegenheiten: Diese Auszeichnung sei mir Ansporn und Verpflichtung zugleich!

Quelle: http://texperimentales.hypotheses.org/1022

Weiterlesen