Jürgen Hermes – Seite 8

Artikel, Digital Humanities, Kolloquium, Wissenschaftstheorie

DH-Kolloquium I – Onkel Rick erzählt vom Krieg

10. April 2015 Keine Kommentare

“Wie stehst du zu den Digital Humanities?” ist eine Frage geworden, um die man als Geisteswissenschaftler, vor allem als einer, der irgendwie auch mit der Erstellung und Nutzung von Software zu tun hat, nicht mehr herumkommt.

Von außen mag es ja so aussehen, als wenn ich zwangsläufig DHer bin, schließlich bin ich mit für einen Studiengang verantwortlich, der als einer der ersten tatsächlich ein DH-Curriculum anbot (auch wenn “Informationsverarbeitung” draufsteht) – und stellvertretender Sprecher eines Zentrums, welches die DH in Köln vertritt (auch wenn es Cologne Center for e-Humanities / CCeH heißt). Dazu sind die beiden den Studiengang Informationsverarbeitung in Zukunft tragenden Lehrstühle momentan neu explizit als DH-Professuren ausgeschrieben. Zeit also, um darüber nachzudenken, meinen Status als Computerlinguist zu überdenken und mich als DHer neu zu erfinden?

Einzelwissenschaften und ihre Ausrichtung auf die Digital Humanities. Oder umgekehrt? (aus Sahle 2013)¹

Durch meine (mir irgendwie zugefallene Funktion) im CCeH erhielt ich tatsächlich einmal einen Einblick in die Arbeitswelt von Wissenschaftler|inne|n jenseits der maschinellen Analyse von Textdaten. Und konnte auf der anderen Seite dort Ideen in Forschungsanträgen unterbringen, die eher aus dem von mir gemeinhin bearbeiteten Bereich stammen. Alles in allem entwickelte sich ein durchaus fruchtbarer Austausch, den die Beteiligten weiter verfestigen wollten – was liegt da an einer Uni näher als eine gemeinsame Lehrveranstaltung? Also startete ich mit Patrick Sahle (Geschäftsführer des CCeH), Franz Fischer (Projektmanager DiXiT) und Claes Neuefeind (Mitarbeiter am Lehrstuhl für Sprachliche Informationsverarbeitung, wie ich) die Planung für ein gemeinsames Kolloquium, das wir nutzen wollen, uns gegenseitig, aber auch interessierten Studierenden Einblick in unser Verständnis von DH zu geben.

Den Anfang machte gestern mein geschätzter und im DH-Umfeld weithin bekannter Kollege Patrick Sahle, indem er die Frage aufwarf, was denn die Digital Humanities überhaupt seien. Als (noch, gefühlter) DH-periphärer Wissenschaftler scheint mir diese Frage innerhalb diese Forschungszweiges die meistdiskutierte überhaupt zu sein. Wahrscheinlich gilt aber für alle Forschungsfelder, die im Begriff sind, ein Fach (also quasi institutionalisiert) zu werden, dass sie zunächst einen langen Kampf gegen bestehende Strukturen führen müssen, ehe sie selbst als eine etablierte anerkannt werden. Auf dem wissenschaftlichen Schlachtfeld geht es natürlich oft einfach um die Verteidigung von Pfründen – Planstellen, Fördergelder, Deutungshoheit. Um sich da durchzusetzen, muss man als Unterstützer|in einer neuen Fachrichtung lange, zähe Kämpfe bestehen und sich durchzusetzen wissen.

Patrick führte nun ein paar Belege dafür an, dass die Institutionalisierung der DH (deren Definition nicht so ganz scharf gefasst werden kann – hier findet man aber mehr als 800 Versuche, das zu tun) schon relativ weit fortgeschritten ist und uns möglicherweise auch erhalten bleiben wird. Zu diesen Belegen zählen die Organisationsstruktur in weltweite, kontinentale, ländereigene und lokale DH-Verbände, die Ausbildung von Zentren (wie z.B. dem Kölner CCeH), eine Vielzahl von Tagungen und Zeitschriften zum Thema sowie – noch recht spärlich gesät, aber immerhin schon vorhanden – DH-Studiengänge, wie wir in Köln eben auch einen haben.²

Sind DH eine Schnittmenge oder die Klammer zwischen zwei Schnittmengen? (aus Sahle 2013)

Relativ unstrittig ist die Frage, dass es eine Schnittmenge zwischen den einzelnen Geisteswissenschaften und der Informatik gibt und das man diese als Digital Humanities bezeichnen kann. Die Frage ist allerdings, ob die DH vollständig in dieser Schnittmenge aufgehen oder ob es einen wesenhaften DH-Kern gibt, der weder Fachwissenschaft noch Informatik ist. Patrick ist der Meinung, dass sich dort tatsächlich etwas befindet, und da kann ich tatsächlich zustimmen. Was sich aber genau da befindet, darüber kriegen wir uns gegenwärtig sicher noch in die Haare, so wie wir das bezüglich unser unterschiedlichen Textbegriffe spaßeshalber fast immer tun, wenn wir uns sehen. Das Scharmützel bezüglich Text versuchen wir in der nächsten Sitzung des Kolloquiums im Boxring zu klären. Wenn es mein Zustand danach erlaubt, werde ich berichten.

¹ Beide Grafiken sind mir dankenswerterweise von Patrick zur Verfügung gestellt worden – und zwar ohne dass er wusste, was ich hier denn so schreibe. Sie sind entnommen aus: Patrick Sahle (2013): “DH Studieren! Auf dem Weg zu einem Kern- und Referenzcurriculum der Digital Humanities “. DARIAH-DE Working Papers Nr. 1. Göttingen: DARIAH-DE, 2013. URN: urn:nbn:de:gbv:7-dariah-2013-1-5

² Patrick erwähnte auch DH-Blogs, die aber seiner Meinung nach oft zu bloßen Pressemitteilungs-Veröffentlichungs-Plattformen verkommen wären – diese Bemerkung ist nicht ganz unschuldig daran, dass ich mich heute hier an den Beitrag gesetzt habe.

Quelle: http://texperimentales.hypotheses.org/1297

Artikel, Lehre, planung, Twitter, Wissenschaft

Auf der Suche nach der vorlesungsfreien Zeit

3. April 2015 Keine Kommentare

In Multitaskgewittern ging bei mir auch diese vorlesungsfreie Zeit, von Außenstehenden bisweilen völlig irreführend als Semesterferien bezeichnet, zu Ende. Hier ein Antrag für ein Forschungsprojekt, dort ein Konzept für eine Forschungskooperation, Submissions, Papers, Betreuung laufender Projekte, Meetings, Meetings et cetera pp. (z. B. eigene Forschung) und nun trennt mich nur eine Kaskade kirchlicher Feiertage von meiner ersten Sommersemesterveranstaltung.

Kurse, die man Studierenden anbietet, gehören vorbereitet, sonst wird das für beide Seiten eine unschöne und vor allem langatmige Veranstaltung. Aber es bleibt nur so wenig Zeit! Gerade rechtzeitig vor einer Panikattacke erinnerte ich mich an meinen Blogbeitrag vor fast genau einem Jahr, in dem ich die Planungen zu einer meiner Veranstaltungen im letzten Sommersemester beschrieb. Darin verlinkte ich unter anderem eine Mind Map, die ich mit Bubbl erzeugt hatte und die sich trefflich als Grundlage für meine diesjährigen Erweiterungen (siehe Abbildung) entpuppte (dafür musste ich aber tatsächlich wieder Flash installieren – ging eine ganze Zeit lang ohne).

Den aufmerksam Hinschauenden wird vielleicht auffallen, dass die letztjährige Mindmap lediglich erweitert wurde, was allerdings auch beabsichtigt ist. Völlig neu ist der Definitions-Teil (gelb), wo ich am Anfang des Seminars ein paar Worte darüber verlieren möchte, was Maschinelles Lernen einerseits von Regelbasierten Systemen unterscheidet und einen kurzen Ausblick darauf wagen, was es mit dem gerade sehr gehypten Deep Learning auf sich hat. Christoph Kappes spülte mir eine schmale, gleichzeitig aber sehr brauchbare Präsentation zu den mathematischen Grundlagen des Maschinellen Lernens in meine Twitter-Timeline, die ich sicherlich gut für den Theorie-Teil (orange) verwenden kann.

Die Anwendungsfelder (blau) und Software-Lösungen (grün) sind sicherlich ein wenig überladen für einen einsemestrigen zwei-Stunden-pro-Woche-Kurs. Hier ist aber auch keine völlige Abdeckung angedacht. Der Kurs im letzten Jahr war an ein Kooperationsprojekt mit dem Bundesinstitut für Berufsbildung angelehnt, bei dem es um die Kategorisierung von Abschnitten in Stellenanzeigen ging (das Fachwort dafür lautet Zone Analysis, da habe ich gerade ein Paper zu geschrieben). Dieses Projekt ist inzwischen abgeschlossen, ein Nachfolgeprojekt zur Informationsextraktion aus den kategorisierten Abschnitten steht in den Startlöchern. Ein Großteil der Softwarelösungen ist daher schon implementiert und muss lediglich auf die neue Aufgabe angepasst werden. Alternative wäre eine Sentiment-Analyse auf anderen Daten, z.B. eine Auswertung von Tweets mit dem Hashtag #tatort. Mal sehen, was das Rennen macht, man sollte den Studierenden ja auch ein wenig Auswahl lassen.

Essenz: Einen Blog zu führen, in dem man ab und zu einmal etwas so halb durchdenkt und ausformuliert, kann einem also offensichtlich dabei behilflich sein, sich am eigenen Schopf aus dem Sumpf zu ziehen. Und dann gibt es ja auch noch Twitter. Die nächste Seminarplanung kommt bestimmt – schon nächsten Donnerstag steht ein Kolloquium an, für das ich teilweise verantwortlich bin

Quelle: http://texperimentales.hypotheses.org/1283

Artikel, gute vorsätze, meta, überblick

Rückblick, Ausschau

29. Dezember 2014 Keine Kommentare

Auch aus Bloggerperspektive ist die Jahresendzeit eine gute Gelegenheit für Rückschauen auf das, was man so produziert hat. Einerseits kann man sich dadurch selbst gut zureden, dass man trotz aller Zweifel an der eigenen Blogfähigkeit doch tatsächlich etwas veröffentlicht bekam. Andererseits hofft man, dass der ein oder andere imaginäre Leser (oder gar tatsächliche Leserin?) einen Post übersehen hat, der im Nachhinein doch noch von Interesse ist. Oder es gelingt sogar, durch einen solchen Rückblick Ideen für mögliche weitere Blogposts zu entwickeln.

Tatsächlich habe ich einen solchen Jahresrückblick im letzten Jahr verpasst, da das Jahresende in eine längere Blogpause fiel, aus der ich nur herausgekommen bin, indem ich ein dickes Meta bemühte. Den letzten Rückblick verfasste ich auch nicht als Schau auf das vergangene Jahr, sondern anlässlich der Lieblingsblogwahl meiner Plattform de.hypotheses im Jahr 2013. Aus dem Publikumspreis für den 4. Platz dort wurde im Jahr darauf ein geteilter 5. Platz bei der Jurywahl 2014, was mich selbstredend erfreute, wenngleich auch ein wenig überraschte.

image by cr103 - stockarch.com

Gleich drei Posts in diesem Jahr beschäftigten sich mit meiner Arbeit als Postdoc an meinem Lehrstuhl: Allgemeines zum Lehrdeputat, Spezielles zur Planung einer Lehrveranstaltung und etwas weiter Ausgeholtes zur Organisation multipler Tasks. Großes Thema in diesem Jahr war auch wieder das Voynich-Manuskript, was auch über diesen Blog hinaus Schatten warf. Ich wurde von Holger Klein für seinen Kanal Wrint interviewt und durfte meinen Post zur Theorie von Torsten Timm für die Online-Zeitung Ruhrbarone ausbauen und und in der Folge verteidigen. Die eingefleischte Garde der Voynich-Forscher wehrt sich zwar noch immer ein wenig gegen Torstens Ansatz - aber ich hoffe, dass wir im nächsten Jahr (vielleicht in einer Gemeinschaftsarbeit) dazu kommen, die Bedenkenträger durch neue informationstheoretische Belege ein wenig mehr aus der Reserve zu locken.

Komplettiert wurde der Blog in diesem Jahr von Posts, die sich in zwei Schubladen stecken lassen, die ich immer mal wieder bediene: Zum Einen habe ich einen Fetisch für statistisch-kombinatorische Probleme, die ich trotz unzureichendem mathematischen Handwerkszeug zu lösen versuche, wie hier die Wichtelproblematik (auf Twitter hatte ich das etwas großspurig als Problemlösen im 21. Jahrhundert: Googlen, Denken, Programmieren angekündigt).

Ein wenig ernsthafter unternehme ich Versuche, mich bei bestimmten Themen, bei denen ich als Computerlinguist/Sprachwissenschaftler/Informationsverarbeiter/Programmierer über ein mehr oder weniger fundiertes Wissen verfüge, in laufende Diskussionen einzumischen, wie ich das hier zu Algorithmen oder hier zu Programmiersprachen als Teil der Schulbildung getan habe.

Eine Handvoll Ideen sind mir nun tatsächlich während des Schreibens an diesem Blogpost gekommen - insofern hat er sich für mich schon gelohnt. Und so bleibt mir noch, allen (imaginären?) Leserinnen und Leser einen guten Start ins Jahr 2015 zu wünschen!

Quelle: http://texperimentales.hypotheses.org/1251

Artikel, mathematik, Statistik, Wissenschaft

Weihnachtspost: Selfmade Lösungsweg

22. Dezember 2014 Keine Kommentare

Die Wochen vor Weihnachten sind die Zeit der Weihnachtsfeiern und Weihnachtsfeiern sind die Gelegenheit zum Wichteln. Für mich ein willkommener Anlass, darüber nachzudenken, wie wahrscheinlich es ist, dass das Wichteln in einer Wichtelcommunity schief läuft, d.h. - je nach Wichtelspielvariante - dass man sich selbst beschenken muss bzw. dass man das eigene Geschenk zieht. Inwiefern ist diese Wahrscheinlichkeit abhängig von der Teilnehmerzahl? Aus welchem Grund auch immer ich vernarrt bin in solche Denksportaufgaben, schlage ich mich gerne damit herum. Etwa wenn ich mitten in der Nacht aufwache und nicht mehr einschlafen kann.

Natürlich ist die Lösung des Problems ist relativ einfach googlebar (Wichteln ist ja ein wichtiges, allgemein bekanntes und sehr weit verbreitetes Thema), was für die meisten Probleme, mit denen ich mich sonst so rumschlage, leider nicht gilt. Mehr oder weniger zu Übungszwecken war es deshalb mein Ansporn, durch eigenständiges Nachdenken auf die Lösung zu kommen. Schnell merkte ich, dass das Problem nicht ganz elementar ist - zwischenzeitlich hatte ich drei verschiedene Lösungswege, die zu drei unterschiedlichen Ergebnissen führten. Es gelang mir dann doch, diese zu synthetisieren und als ich das kundtat, wurde ich aufgefordert, meine Denk- und Irrwege darzustellen, auf dass dies einen Einblick geben könnte, wie man sich mathematische Lösungen als Geisteswissenschaftler aus gefährlichem Halbwissen zusammenkonstruiert, hinterfragt und letztlich dabei doch irgendwie erfolgreich ist.

1. Bekanntes zusammenkramen: Kombinatorik

Wie fängt man so etwas an? Man trägt zusammen, was man denn so zum Thema weiß. Wie war das noch mit der Kombinatorik? Da gab es doch Unterschiede von wegen Berücksichtigung der Reihenfolge und dem Zurücklegen. Beim Wichteln (also Geschenke ziehen) ist die Reihenfolge relevant (wer bekommt welches Geschenk) und zurückgelegt wird nicht (jedes Geschenk wird nur einmal vergeben). Das heißt, man kann alle möglichen Wichtelnde-Wichtelgeschenk-Kombinationen über die Formel N!/(N-n)! berechnen. N ist dabei die Anzahl der Geschenke, n die Anzahl der Teilnehmer|innen (oder umgekehrt, es ist ja auch vollkommen gleich, da ja genau ein Geschenk auf eine|n Teilnehmer|in kommt. Jedenfalls wenn alle ein Geschenk mitbringen). Da N-n damit 0 und 0!=1 ist, bleiben N! mögliche Kombinationen von Geschenkreihenfolgen. Hilft einem das irgendwie bei der Frage, wie viele dieser Kombinationen gute (jede|r Teilnehmende hat ein Geschenk von jemand anderem) und wie viele schlechte Kombinationen (Mindestens ein|e Teilnehmende|r hat das eigene Geschenk gezogen) sind.

2. Bekanntes kombinieren: Mach dir ein Bild

In einem ersten Schritt habe ich nun tatsächlich die verschiedenen Kombinationen (die Permutationen genannt werden) aufgezeichnet und sie von Hand sortiert.

Mögliche Geschenkzuteilungen von 2 (links) und 3 (rechts) Mitwichtlern

Das Ergebnis sieht man in den Tabellen links: Großbuchstaben in der ersten Zeile stehen für Wichtel-Teilnehmende, die entsprechenden Kleinbuchstaben für deren Geschenke. Rot markiert sind Kombinationen, bei denen Teilnehmende eigene Geschenke erwichtelt haben (fortan Kollisionen genannt). Grün gefärbt sind die Reihen, die keine Kollisionen aufweisen, d.h. wo alle Teilnehmenden ein fremdes Geschenk erwichtelt haben. Im Fall von 2 Teilnehmenden (linke Tabelle) ist ist das in einem von zwei (also in der Häfte aller Fälle), bei drei Teilnehmenden in 2 von 6 möglichen Permutationen (also nur noch bei einem Drittel der Fälle) gegeben. Steigt also die Wahrscheinlichkeit der Kollisionen also mit steigender Teilnehmerzahl? Das hieße nichts gutes für unser Institutsweihnachtswichteln, wo sich 16 Mitspielende angekündigt hatten. Bevor ich mir aber die Mühe machte, Tabellen mit 16! (etwa 21 Billionen Zeilen) verschiedenen Kombinationen aufzumalen, suchte ich nach einem anderen Lösungsweg.

3. Holzwege abklappern: Der Baum der falschen Erkenntnis

Ein erweiterbarer Wahrscheinlichkeitsbaum: Bei 4 Mitspielern hat der erste eine Chance von 1/4, das eigene Geschenk zu erwichteln. Wenn danach noch jemand drankommt (in 3/4 aller Fälle), hat dieser 1/3 Chancen auf sein eigenes Geschenk, usw. Richtig?

Bei zwei Mitwichtlern gibt es genau zwei Möglichkeiten: Jeder bekommt das eigene Geschenk oder das des anderen. Also fifty-fifty. Kann man das nicht irgendwie auf drei Mitwichtelnde erweitern? Der erste hat eine Chance von 2/3, nicht das eigene Geschenk zu ziehen, in dem Fall liegt der zweite dann doch wieder 50/50.

Bei jedem weiteren Wichtler muss der Wahrscheinlichkeitsbaum nur nach vorne erweitert werden, so wie ich dies in der nebenstehenden Graphik versucht habe, abzubilden: Demnach müsste die Zahl der geglückten Runden bei 3 Mitwirkenden 2/3*1/2, also 1/3 betragen, bei 4 Mitwirkenden entsprechen 3/4*2/3*1/2, also 1/4 usw. betragen. Aber kann das stimmen? Das würde ja heißen, dass die Wahrscheinlichkeit für nicht geglückte Wichtelrunden umso unwahrscheinlicher wird, je mehr Leute mitwichteln. Bei unserer Institutsfeier wäre die Chance also gerade mal 1/16, läge also bei mageren 6,25%.

4. Halbwissen hinterfragen: Mal's noch einmal, Sam

Ich war jetzt doch soweit, den kombinatorischen Lösungsweg weiter zu verfolgen. 4!, also 24 mögliche Geschenkzuteilungskombinationen bekommt man ja noch auf ein DIN-A4- Blatt gemalt und, wie man links sieht, auch in einem Blogpost untergebracht. Jetzt nur noch die validen Kombinationen ermitteln und durchzählen - und merken, dass tatsächlich ein anderes Ergebnis als beim Wahrscheinlichkeitsbaum herauskommt: Offenbar gibt es nämlich nicht die von meiner Baumüberlegung vorhergesagten 6 von 24 Möglichkeiten (was 1/4 entsprechen würde), sondern ganze 9/24 (was 1,5/4 entspricht).

Da sich die Kombinatorik nur recht selten zu irren pflegt, musste also mein Wahrscheinlichkeitsbaum falsch sein. Aber warum? Und wie berechne ich die Wahrscheinlichkeit für mehr Teilnehmer? Weder meine Mathematik noch mein gesunder Baum-Entwurfs-Menschenverstand, noch meine DIN-A4-Blätter schienen auzureichen, um auf die richtige Lösung zu kommen. Den Gesichtsverlust durch Googlen wollte ich mir vorerst noch ersparen. Und was bleibt da? Ach, ich kann ja noch programmieren.

5. Der Rechner kann's zufällig: Millionenfaches Wichteln

Erster Programmieransatz war ein einfacher empirischer Test (auch Monte-Carlo-Methode genannt, danke an Till für den Hinweis). Ich brauche einfach eine Liste von Geschenken und lasse die Mitspielenden nacheinander ein Geschenk blind (über einen Zufallsgenerator) ziehen. Wenn jemand sein eigenes Geschenk zieht, ist die Runde gescheitert, wenn alle Geschenke gezogen wurden, ohne dass dies passierte, ist sie geglückt. Computer spielen schnell, es ist also kein Problem, 1 Millionen Runden oder mehr zu spielen (gut, wenn es tausende Mitspielende werden, muss man schon etwas warten, aber ich hatte ja nur 16). Außerdem kann man Ergebnisse für eine ganze Reihe unterschiedlicher Mitspielender ermitteln. Bei zweien glückt etwa jede zweite Runde, bei dreien etwa jede dritte - soweit gingen mein Baummodell und die Kombinatorik ja auch noch d'accord. Bei vier Mitspielenden liegt das Ergebnis um 0,375 herum, also so viel, wie meine Kombinationstabelle aussagte und 50% mehr, als der Wahrscheinlichkeitsbaum mich vermuten ließ.

Tatsächlich leuchtete mir dann ein, dass mein Baum zu simpel konstruiert war, da die Fälle für "nicht das eigene Geschenk" nicht hätten zusammengefasst werden dürfen. Wenn nämlich A das Geschenk von B zieht, und B ist danach an der Reihe, ist die Wahrscheinlichkeit für B genau Null, das eigene Geschenk zu ziehen. Der Wahrscheinlichkeitsbaum müsste also so viele Zweige haben, wie die Permutationstabelle Zeilen hat und wäre damit eben keine Vereinfachung mehr.

Die Permutationstabelle wird bei 5 und mehr Mitspielenden zu groß, mein vereinfachter Wahrscheinlichkeitsbaum ist unbrauchbar. Bleibt also vorerst nur die empirische Methode über Zufallsexperimente. Die liefert bei steigender Mitspielerzahl immer fast den gleichen Wert, der zwischen 3,6 und 3,7 liegt. Interessant, aber unbefriedigend, wenn man nicht genau versteht, weshalb das so ist.

6. Der Rechner kann's auch strukturiert: Spiel die Welt durch

Also noch einmal programmieren - statt einfach zufällig Geschenke zu ziehen, kann man auch einfach alle Permutationen von Geschenkabfolgen konstruieren, um sie hernach von den Mitspielern in immer der gleichen Reihenfolge ziehen zu lassen (oder umgekehrt, das ist völlig gleichgültig). Schließlich malt der Rechner nicht auf DIN-A4-Blätter und müsste auch mit mehr Tabellenzeilen zurecht kommen. Wobei N! natürlich trotzdem relativ schnell an Speicherplatz- und Prozessorgrenzen stößt.

Eine Liste in alle möglichen Permutationen zu überführen, ist eine sehr schöne Rekursionsaufgabe, die ich irgendwann einmal implementiert und wieder vergessen habe. Da ich dazu neige, viel Gehirnschmalz und Zeit bei solchen Aufgaben zu verlieren, habe ich mir dann doch eine Lösung von hier geklaut und auf meine Bedürfnisse angepasst. Jetzt konnte ich da drumrum ein Programm schreiben, welches alle Permutationen erzeugt und gegen die Mitwichtlerreihenfolge abprüft. Ergebnis: Je größer n, desto mehr nähert sich der Anteil der geglückten Wichtelrunden der Zahl 0,3678 an. Für n=10 dauert die Berechnung schon eine ganze Weile und ab n=11 gibt es einen OutOfMemory-Error, wenn man den Speicherplatz für die virtuelle Maschine nicht hochsetzt (ja, ich weiß, es ist nicht nötig, alle Permutationen zu speichern, an der Laufzeitproblematik ändert sich dadurch ja auch nichts).

Ausgabe meines maschinellen Wichtelprogramms. Links Anzahl der Teilnehmer, Mitte Ergebnis von 1 Mio Zufallsexperimenten, Rechts Ergebnis aller möglichen Permutationen.

Die sehr viel schnellere Zufallsgenerierungsmethode nähert sich bei größeren n auch immer mehr dieser Zahl an, so dass ich ihr vertraute, dass auch bei n=16 eine knapp 5/8 Wahrscheinlichkeit besteht, dass jemand von den 16 Mitwichtlern unserer Weihnachtsfeier das eigene Geschenk ziehen würde. Klar könnte man einfach die Runde wiederholen, aber da das Ganze anonym stattfinden sollte, wäre es schwierig gewesen mit dem Outing, das eigene Geschenk zu haben. Ich habe mir dann lieber eine 2-Gruppen-Lösung ausgedacht, wo man das Geschenk in die eine Wichtelgruppe gibt und eins aus der anderen Gruppe zieht. Klappt allerdings nur bei einer Mitspielerzahl, die nicht prim ist.

Über die richtige Lösung berichtete am Tag nach unserer Weihnachtsfeier auch DIE ZEIT Online und Post hoc ließ ich mich auch noch auf Google ein und fand diese diese nett gemachte Erläuterung. Mathematisch korrekt und ohne Umwege. Aber dass es eine solche gibt, hatte ich ja gar nicht in Abrede gestellt. Ich habe eigene Lösungswege gesucht, um meinen Denkapparat ein wenig zu ölen, damit er auch bei nicht-googlebaren Lösungen seinen Dienst tut. Ich habe dies hier aufgeschrieben, weil mein Kneipenlog-Kollege Dierk meinte, es würde vielleicht einen Einblick in (geistes)wissenschaftliche Prozesse geben.

[Code des Wichtelprogramms poste ich bei Interesse noch auf GitHub]

Quelle: http://texperimentales.hypotheses.org/1225

Artikel, meta, Wissenschaft

Die Wissenschaft vom Multitask

5. Dezember 2014 Keine Kommentare

Wenn ich als Kind gerade nicht Schriftsteller werden wollte, war definitiv Wissenschaftler mein Berufswunsch. Ich weiß nicht, ob es euch auch so ging, aber ich hatte da einen verschrobenen Geist vor Augen, der sich 24 Stunden täglich und an sieben Tagen in der Woche um eine Forschungsfrage kümmern kann, die er dann irgendwann löst. Und wenn ich mir jetzt meine tägliche Arbeit so anschaue, muss ich feststellen, dass die Wirklichkeit bei mir - wie bei eigentlich allen Kolleg|inn|en in meinem näheren Umfeld - doch ein wenig anders aussieht.

Ich will hier jetzt gar nicht das große Klagelied anstimmen, dass ja sowieso immer alles auf den Mittelbau abgewälzt wird, der dazu meist noch unter dem Damoklesschwert der Befristung darbt. Nein, ich glaube, insgesamt geht es sicher auch der Professor|inn|enschaft nicht besser, die zwischen Lehre und administrativen Aufgaben auch um Zeit ringen muss, sich mit der eigenen Forschung beschäftigen zu können (was der PHD-Comic ganz nett einfängt, wobei der eher die amerikanischen Hochschullehrer abbildet).

PHD comics by Jorge Cham
www.phdcomics.com

Da meine Aufgaben in letzter Zeit immer mehr zerfaserten, musste ich eine Organisationsstruktur zurechtlegen, die mich überall einigermaßen auf dem Laufenden halten kann, welche Aufgaben dringend der Behandlung bedürfen, ohne aus den Augen zu verlieren, was noch so alles erledigt werden muss. Was habe ich nicht alles ausprobiert - Tafelbilder auf dem Whiteboard hinter mir oder Task-Listen auf Schmierzetteln vor mir festgehalten, e-Mails sortiert, zweistellige Zahlen von Google-Docs angelegt und dazu To-Do-Listen auf unterschiedlichen Plattformen ausprobiert. Momentan bin ich dabei angekommen, auf Evernote je eine Notiz zu allen verschiedenen Aufgaben, die ich im Moment betreue, anzulegen und dort wichtige Termine und ToDos festzuhalten. Momentan liegen in dem Ordner zehn dieser gegliederten Notizzettel. Über jeden dieser Zettel könnte ich eigentlich mal einen Blogpost schreiben, es sind durchweg interessante Aufgaben, denen ich aber leider immer nur einen Teil meiner Zeit opfern kann.

Da muss ich z.B. meine Lehrveranstaltungen vorbereiten, managen und eventuelle Prüfungsleistungen korrigieren. Mit dem Kollegen dessen Dissertation besprechen. Oder den BA-Studiengang Informationsverarbeitung für die Re-Evaluierung neu strukturieren. Den MA-Studiengang als 1-Fach-Master völlig neu konzipieren, Austauschmodule zu anderen Studiengängen entwerfen und absegnen. Mit meinen Kollegen Überlegungen zur strategischen Ausrichtung des Institutes anstellen, mit verwandten Fachbereichen Kooperationen absprechen, überlegen, wie wir uns besser in das Cologne Center for e-Humanities eingliedern, und ob ich dort meine Pflichten als stellvertretender Sprecher irgendwie besser ausfüllen könnte. Mögliche Forschungsprojekte ausdenken, ausgedachte anschieben, angeschobene beantragen, bewilligte beaufsichtigen, weiterdenken, Zwischen- und Abschlussberichte verfassen, Ergebnisse veröffentlichen, diverse Formblätter zur Drittmittelanzeige, zur Vollkostenkalkulation, zur Rechnungsstellung ausfüllen, vom Justiziariat belehrt werden, was der Unterschied zwischen Auftragsforschung und Kooperationsverträgen ist, Meetings ansetzen mit Projektmitarbeiter|inne|n, mit unseren Admins, mit dem gesamten Lehrstuhl, mit dem gesamten Institut, mit der CCeH-Geschäftsführung. Dazu irgendwie auf dem Stand der Forschung bleiben in so hochdifferenzierten und weitläufigen Bereichen wie der Computerlinguistik, der Softwaretechnologie und der Wissenschaftskommunikation.

Noch einmal: Ich will nicht jammern, im Gegenteil bin ich in meinem Job wirklich glücklich (gut, ohne Befristung schliefe ich besser). Man muss halt Kompromisse oder Synergien finden - eine Lehrveranstaltung bspw. an ein Thema koppeln, zu dem man gerade ein Projekt leitet. Projekte anschieben, die kompatibel mit dem eigenen Forschungsvorhaben sind. Teile der eigenen Forschung in davon unabhängig gestellte Projekte einbringen. Delegieren, netzwerken, den Überblick behalten. Ich war nie ein besonders guter Multitasker und ich werde es vermutlich auch nie werden. Mit der Nutzung geeigneter Software (Evernote für mich, Google Drive für die Bearbeitung gemeinsamer Dokumente, mitunter, wenn viel Kleinkram auf einmal kommt, auch eine ToDo-Liste wie Wunderlist) ist es mir aber in Teilen möglich, die Multitasks auf eine Reihe von Einzeltasks aufzuteilen, die mein Hirn nicht überfordern. Auch wenn ich froh sein werde, wenn die aktuellen Notizzettel weniger werden sollten, kann ich so noch eine Weile produktiv (Selbstbild) arbeiten. Immerhin hatte ich ja Zeit, diesen Blogpost zu schreiben. Und bald sind ja auch Weihnachtsferien, in denen man dann all das, was in den letzten Monaten hinten runter gefallen ist, aufarbeiten kann...

Quelle: http://texperimentales.hypotheses.org/1208

Artikel, Programmierung, sprache

Programm und Sprache

22. Oktober 2014 Keine Kommentare

Eigentlich hatte ich einen Artikel zu meiner Sicht auf das Verhältnis zwischen Programmiersprachen und Fremdsprachen hier in diesem Blog geplant. Monsieur @quantenwelt, der mit einem Tweet meinen Nachdenkprozess überhaupt erst in Gang gesetzt hatte, schlug aber vor, dass wir das im Kneipenlog an der Bar klären. Und wer schlägt schon eine Einladung in die eigene Lieblingskneipe aus? Zum Gespräch also hier entlang.

Quelle: http://texperimentales.hypotheses.org/1200

Algorithmen, Artikel, ingenieur, maschinelles lernen

Algorithmen für Ängstliche

20. August 2014 Keine Kommentare

In jüngerer Zeit kam die Berichterstattung über Algorithmen wieder auf die Tagesordnung und man ist fast versucht, als Tenor “Lasst, die ihr eintretet, alle Hoffnung fahren!” zu vernehmen: Die Welt ist beherrscht von einer weithin unbekannten Supermacht, die das Dasein jedes Einzelnen und das Zusammenleben aller durch unsichtbare Fäden aus dem Hintergrund lenkt. Da werden Frauen über ihr Konsumverhalten als schwanger kategorisiert, ehe sie sich dessen selbst bewusst werden. Da bekommen Lebensgemeinschaften keinen Kredit, weil sie am falschen Ende der Straße wohnen. Da plant ein Online-Versand, Kunden die gewünschten Waren zuzusenden, bevor sie überhaupt daran dachten, diese zu bestellen. Und das alles nur, weil da jemand die “richtige mathematische Formel” gefunden hat und in der Lage war, diese “auf einem Computer zu programmieren”. Und jetzt sind die so geschaffenen Algorithmen dabei, sich von ihren Schöpfern loszusagen und die gesamte Menschheit bis zum Sankt Nimmerleinstag zu knechten.

Der Zaubertrank: Deep Learning

Ich habe zunächst versucht, den Wahrheitsgehalt dieser Darstellungen in meinem Unwissen zu finden, was mir nicht sonderlich gut gelang. Sollten etwa die anderen doch nicht mit Wasser kochen und das, was ich so über das Thema weiß, überholtes Wissen sein? Ja, natürlich gibt es auf der einen Seite den Deep-Learning-Ansatz, der – salopp gesagt – irgendwie sowas wie die Architektur des menschlichen Gehirns auf einem künstlichen Rechnersystem nachbildet und das Ergebnis mit Beispielen füttert, auf dass es eigenständige Kategorisierungen vornehme. Ein solcher Ansatz benötigt allerdings auch in unserer Zeit schneller Desktop-PCs noch nicht-alltägliche Rechneranlagen, eine Menge Spezialisten für die Implementation und das Training neuronaler Netzwerke sowie eine hohe Frustrationstoleranz, weil relativ schwer analysierbar ist, was genau passiert und wie man Ergebnisse verbessern kann. Der Deep-Learning-Ansatz wird deswegen vor allem von großen Forschungseinrichtungen und Unternehmen eingesetzt, Google etwa hat Ray Kurzweil darauf angesetzt.

Deep-Learning-Techniken eignen sich vor allem für Aufgaben, wo Muster erkannt werden müssen, die sich nicht oder nur schwer durch spezifische Merkmale beschreiben lassen. So werden sie z. B. die Spracherkennungssyteme von iOS und Andoid eingesetzt. Soweit ich das beurteilen kann, wird der Ansatz abgesehen davon in freier Wildbahn noch kaum angewendet, weil er einfach noch nicht gut genug modellierbar ist.

Der Kochtopf mit Wasser: Maschinelles Lernen

Realweltszenarien, in denen Algorithmen eingesetzt werden, lassen sich fast alle durch Klassifikations- oder Gruppierungsproblem formulieren: Ist die Nutzerin schwanger oder nicht? Welche Kreditkonditionen bekommen die Kunden in der Gruppe, in die der potentielle Kreditnehmer eingeordnet wurde? Produkte welcher Warengruppe haben die anderen Käufer des Artikels noch erworben? Ist der Autor des unbekannten Pamphlets Donald Rumsfeld oder der Una-Bomber? Will die Politikerin Europa – ja oder nein? Oder – wie in der Facebook-Studie damals - ist der Nutzer bzw. die Nutzerin heterosexuell oder irgendwas anderes (sic!)?

Es ist hier nicht mein Punkt, welche der möglichen Anwendungsszenarien methodisch zweifelhaft oder gar ethisch verwerflich sind. Was gemacht werden kann, wird wahrscheinlich eh irgendwo durchgeführt werden, da habe ich wenig Illusionen. Mir geht es hier nur darum, aufzuzeigen, dass dort in den seltensten Fällen neue mathematische Formeln ersonnen werden, die dann irgendwer auf dem Computer programmiert. Vielmehr steht ein ganzer Werkzeugkasten bekannter Verfahren zur Klassifikation und Gruppierung (Clustering) von Objekten zur freien Verfügung. Theoretisch könnte sich also jede|r daran bedienen und für welche Typisierungen auch immer anwenden. Mit ein wenig Geduld kommt man auch mit so mächtigen Programmen wie WEKA zurecht (da bekommt man auch eine graphische Benutzeroberfläche). Oder man ist so verwegen und installiert sich die entsprechenden Pakete für R.

Und schon ist man Data Scientist. Eigentlich, denn der Teufel liegt mal wieder … in den Daten. Um Objekte zu klassifizieren, muss man sie zunächst durch Merkmale beschreiben, jedenfalls wenn man nicht einen solchen Zauber-Neuronalen-Netzwerk-Ansatz wie oben beschrieben verfolgt. Texte kann ich z.B. beschreiben über die Wörter, die sie enthalten; Menschen über ihre Augenfarbe, ihre Größe, ihr Geschlecht, ihren Wohnort oder eben über die Bücher, die sie bisher erworben haben. Oder ich kombiniere einfach mehrere Merkmale. Und gewichte sie dann möglicherweise unterschiedlich – Augenfarbe ist wichtig, Anzahl der Muttermale etwas weniger relevant. Was auch immer ich messen oder abzählen kann, ist als Merkmal verwendbar. Schwierig ist die Mischung von Merkmalen unterschiedlicher Skalenniveaus, aber auch das ist mit ein wenig Phantasie meist lösbar. Augenfarbe könnte etwa über RGB-Werte angegeben werden – dann hätte ich statt eines nominalskalierten Merkmals gleich drei verhältnisskalierte. Diesen Vorgang – die Zuordnung von Merkmalen zu Objekten – nennt man Feature Engineering. Am Ende dieses Schrittes hat man zu jedem Objekt, das man gruppieren oder klassifizieren möchte, eine Reihe von Zahlen. Und mit diesen Zahlen kann ich dann meinen Algorithmus füttern. Bei der Gruppierung gebe ich die Objekte einfach alle hinein und bekomme am Ende Gruppen (immer hinsichtlich der ausgewählten Merkmale) homogener Objekte zurück. Das nennt man auch unüberwachtes Lernverfahren, weil ich die ursprünglichen Objekte nicht vorklassifizieren musste, um sie in Gruppen einzuteilen.

Ein weiteres bekanntes Verfahren ist das überwachter Art: Hierfür werden Trainingsobjekte benötigt, die bereit vor Anwendung des Algorithmus mit ihrer Klasse versehen sind (+/-schwanger, Text von Rumsfeld, Text vom Una-Bomber etc). Über diese Trainingsobjekte bildet sich der Algorithmus ein Modell, das er zu Rate zieht, wenn er weitere, nicht vorausgezeichnete Objekte zuweisen soll.

Was ich eigentlich damit sagen will

Hinter dem was landläufig als Algorithmen bezeichnet wird, die einen immer größeren Einfluss auf unser Leben haben, verbergen sich meist maschinelle Lernverfahren. In denen steckt zwar ein wenig was an Mathematik drin, vor allem bei der Gewichtung von Merkmalen, bei der Distanzberechnung von Merkmalskombinationen und eben bei der Gruppierung oder Klassifikation. Dies sind aber in den meisten Fällen frei zugängliche Formeln oder gar fertige Implementationen, die über graphische Oberflächen von eigentlich jedem zu bedienen sind. Manche dieser Verfahren liefern für bestimmte Anwendungsfälle bessere, für andere wieder schlechtere Ergebnisse. Zumindest in meinem Bereich, der Computerlinguistik, lässt sich meist schwer voraussagen, welche der Kombinationen gut funktioniert. Man probiert halt einfach alle aus und schaut dann, welche am besten performt (ja, manchmal sind wir halt einfach Ingenieure).

Mit das Wichtigste für die Funktion der Verfahren ist allerdings die Auswahl an Merkmalen, mit denen die Objekte beschrieben werden. Und anstatt darüber zu mosern, dass Algorithmen Entscheidungen für oder über uns treffen, sollte man vielleicht besser darauf drängen, offenzulegen, auf welcher Grundlage sie dies tun. Welche Merkmale erhebt die Schufa? Liest Amazon meine History aus oder beruhen die Empfehlungen nur auf den Daten, die ich ihnen gegeben habe? Vor allem: Kann ich das abschalten? Was der Algorithmus dann hinterher draus macht, kann ja auch mal hilfreich sein. Demnächst hoffentlich hier an einem konkreten Beispiel gezeigt.

Quelle: http://texperimentales.hypotheses.org/1111

Artikel, voynich, Wissenschaftskommunikation

Verwaschene Texte

18. August 2014 Keine Kommentare

Artikel zum Voynich-Manuskript (VMS) ziehen meist auch Kommentare an, in denen sich die Kommentarist|inn|en darüber äußern, welche Theorie sie sich mal so überlegt haben, was das VMS sein könnte und wie der Text interpretiert werden kann. In den allermeisten Fällen muss man die Ausführungen nicht ganz ernst nehmen, da sich ein fundiertes Gespräch zu diesem mehr oder weniger komplexen Thema schlecht in Kommentaren führen lässt. Die Darstellung eigener Hypothesen benötigt mehr Platz, einen gegliederten Text und eventuell Abbildungen. Das alles können Kommentarspalten nicht so recht bieten. Es besteht natürlich die Möglichkeit, auf externe Seiten zu verlinken. Ich sehe mir diese dann auch meist an und gebe ein kurzes Feedback. Eine wirklich ausgearbeitete und nachvollziehbare Theorie ist mir dabei allerdings noch nicht untergekommen. Beispiele gefällig? Voilà: [1] [2] [3] [4] [5]

Ein Kommentar in der Nacht

Für einen Kommentar, der in der Nacht zum Sonntag unter meinem Gast-Post bei den Ruhrbaronen landete, muss ich allerdings eine Ausnahme machen, ist der Absender doch Thomas Ernst (wenn er denn wirklich dahinter steckt und mir nicht jemand einen Streich spielen möchte. Es fällt mir aber niemand ein, der Ernsts Stil so gut nachzuahmen verstünde). Traurigerweise werden sich jetzt nicht wenige der Leserinnen und Leser hier fragen, wer denn dieser Thomas Ernst sei. Seine Heldensage ist leider noch immer weithin unbekannt, das hat wohl auch mein Blogpost über dieses Husarenstück nicht wirklich geändert. Mit der Entschlüsselung der Steganographia III hat er sich unsterblich gemacht, seine Darlegung zum Thema ist mehr als lesenswert und sei jedem zur Lektüre empfohlen. Es ist ein Krimi, verborgen im Pelz einer vor amüsant vorgetragener Gelehrsamkeit strotzenden wissenschaftlichen Abhandlung. Mir fehlen die Worte, um hier festzuhalten, wie sehr ich Ernst dafür bewundere. Wenigstens einen New-York-Times-Artikel hat er dafür bekommen.

Die geheimnisumwitterte Steganographia von Johannes Trithemius.

Und nun äußert dieser Thomas Ernst – wenn ich das richtig verfolgt habe – zum ersten Mal seine Hypothese zum VMS, was ich allein für sich genommen schon ziemlich sensationell finde. Gewissermaßen vermutet auch er, beim VMS sei ein Kopist am Werke gewesen. Dieser sei jedoch kein Autokopist, der immer wieder Zeichenketten von sich selbst abschreibt und verfremdet, sondern ein Fremdkopist, der ein Werk abschreibt, dessen Zeichen ihm nicht geläufig sind und dessen Inhalt er dementsprechend nicht versteht. So sehr ich ihn sonst bewundere – hier liegt Ernst meiner Meinung nach falsch. Der Text des VMS weist einfach zu viele Eigenschaften auf, die mit dieser Hypothese nicht in Deckung gebracht werden können. Ich greife mir hier zwei dieser seltsamen Merkmale heraus, die sich in der gegebenen Kürze erklären lassen.

Entropie: Zuwenig Information an Bord

Über das Maß der Entropie lassen sich Aussagen über den Informationsgehalt einer Nachricht machen, und das, ohne den Inhalt (die Semantik) der Nachricht zu kennen. Dafür muss man lediglich die Häufigkeitsverteilung der einzelnen Zeichen kennen (um die Zeichenentropie – H₀ – zu errechnen) sowie die Häufigkeit, mit der bestimmte Zeichen auf bestimmte andere folgen (um die Verbundentropie – H₁ – zu errechnen). Da H₁ abhängig ist vom Umfang des zugrundeliegenden Alphabets, sollte man – um Texte mit unterschiedlich vielen verschiedenen Zeichen zu vergleichen – die Differenz zwischen H₀ und H₁ heranziehen. Dies tut z.B. Dennis Stallings in seiner Analyse zum VMS und kann damit aufzeigen, dass sich der Text des VMS hinsichtlich dieses Differenzwertes signifikant von allen bekannten natürlichen Schriftsprachsystemen unterscheidet. Das VMS scheint viel weniger Information (d.h. mehr Redundanzen) zu enthalten, als alle vergleichbar langen natürlichsprachlichen Texte, die man bisher untersucht hat. Dies gilt unabhängig davon, ob es sich dabei um Zeichen-, Silben- oder Alphabetschriften handelt.

Wortlängen: Zeilen als funktionale Einheit

Zeilen scheinen im VMS so etwas wie funktionale Einheiten zu bilden, d.h. sie scheinen auf irgend eine Weise gleich zu funktionieren. Bei natürlichen Sprachen ist dies auch zu beobachten, z.B. in der Lyrik oder bei Spruchsammlungen. Ein Text, bei dem auf 200 Seiten die Zeilen so aufgebaut sind, dass ihr jeweils erstes Wort – im Vergleich zur durchschnittlichen Wortlänge – signifikant länger, das jeweils zweite Wort aber signifikant kürzer ist, ist mir allerdings (abgesehen vom VMS, was Elmar Vogt schön ausführt) nicht untergekommen. Dazu wirken die Zeilen wie in Blocksatz gesetzt, ohne dass etwas darauf hindeutet, dass Wörter am Zeilenende getrennt worden wären oder dass der Abstand zwischen den Wörtern merklich differieren würde. Stattdessen scheint der Schreiber bzw. die Schreiberin einfach am Ende der Zeile ein Wort eingefügt zu haben, das längenmäßig passte. Ein solches Gebahren lässt sich meiner Ansicht nach nicht mit der Abschrift eines natürlichsprachlichen Textes in Deckung bringen.

Bloß ein starker Waschgang?

Die beiden kurz ausgeführten Indizien sind nicht die einzigen, die gegen die Hypothese sprechen, dem Text liege ein unverschlüsselter, natürlichsprachlicher zugrunde. Auch wenn man annimmt, der Text sei durch eine verständnislose, fehlerhafte Abschrift unter Zeitnot quasi einem Waschgang unterzogen worden, der ihn nahezu unkenntlich gemacht hat, kann das meiner Meinung nach diese Eigenschaften nicht erklären. Vielmehr deuten die Entropiewerte darauf hin, dass – wenn der Text des VMS eine Botschaft enthält – diese ein gutes Stück kürzer ist, als das die Länge des Textes suggeriert. Das heißt, dass die kleinsten Informationseinheiten des VMS länger sind als unsere Schriftzeichen. Das seltsame positionsabhängige Wortlängengebahren scheint mir auf einen Auswahlprozess irgendeiner Art hinzudeuten. Insofern denke ich, dass die Hypothesen, die

aufgestellt wurden, in Vergleich zu der Ernst’schen die vorzuziehenden sind. Wie man sie gegeneinander evaluieren kann, darüber denke ich demnächst mal nach. Aber vielleicht nimmt mir das ja jemand ab.

Quelle: http://texperimentales.hypotheses.org/1155

Artikel, Blog, Populär, Voynich Manuskript

Wer einmal fremdschreibt…

10. August 2014 Keine Kommentare

… tut das offensichtlich auch ein zweites Mal. Wie schon damals mit der Ausrede, das alles nur für die Mehrung von Ruhm und die Ehre der Blogplattform hypotheses.org zu tun. Dieses Mal fragte mich Sebastian Bartoschek von den Ruhrbaronen, ob ich meinen letzten Artikel zum Voynich Manuskript nicht auch auf dieser populären Blogplattform veröffentlichen und ihn in diesem Zuge vielleicht für ein breiteres Publikum aufhübschen wolle. Das habe ich natürlich gerne getan und dabei versucht, sowohl kürzere Sätze als auch gliedernde Zwischenüberschriften zu nutzen. Den Titel meines letzten Postes habe ich beibehalten, der Text ist allerdings durch eine allgemeine Einleitung zum Voynich Manuskript erweitert worden. Zu finden ist er hier.

Ich danke Sebastian für die Gelegenheit und hoffe, dass Mareike mir nicht allzu oder allzu lange böse ist.

Quelle: http://texperimentales.hypotheses.org/1118

Artikel, Textgenerierung, Voynich Manuskript

Voynich Manuskript das Werk eines Autokopisten?

29. Juli 2014 Keine Kommentare

“Schon wieder eine neue Theorie zum Voynich Manuskript?” mögen sich die geneigten Leserinnen und Leser dieses Blogs fragen. “Da lässt der Hermes doch bestimmt wieder kein gutes Haar dran.” Tatsächlich warfen die jüngsten Veröffentlichungen zum Thema weit mehr Fragen bei mir auf, als sie nachvollziehbare Antworten gaben. Um so erfreulicher finde ich, dass ich nun endlich einmal von einer aktuellen Veröffentlichung berichten kann, die ich für sehr überzeugend halte, vielleicht sogar für überzeugender als meine eigene Theorie.

Vor etwa vier Monaten wurde ich per Mail nett gefragt, ob ich bereit wäre, einen Paper-Entwurf zum Voynich Manuskript kritisch gegenzulesen. Die Bitte kam von Torsten Timm, der – wie so viele Voynich-Forscher – nicht mit der Wissenschaft sein Geld verdient. Wer weiß, wie gerne ich mich zwischendurch immer wieder mit dem Voynich Manuskript (VMS) beschäftige, kann natürlich ahnen, wie bereitwillig ich dieser Bitte nachkam. Vom ersten Augenblick an erschien mir Timms Hypothese plausibel und einen fruchtbaren Austausch per Mail und Skype später bin ich nach wie vor überzeugt davon, dass seine Theorie das Potential hat, die Entstehung des VMS-Textes zu erklären. Timm hat sie inzwischen (lobenswerterweise als Open Access Paper, daran bin ich auch nicht ganz unschuldig, glaube ich) auf arxiv.org veröffentlicht, so dass sich jede|r selbst ein Bild machen kann. Zu wünschen ist, dass sich Peer Reviewers finden, so dass das Paper auch auf einer publikumswirksameren Plattform veröffentlicht werden kann.

Kurz zum Inhalt: Timm begibt sich – wie ich das auch tat – auf die Suche nach einer Textgenerierungsmethode, deren Anwendung ein Resultat ergibt, dass die sonderbare distributionellen und statistischen Eigenschaften des VMS-Textes wiederspiegelt. Timm bezieht sich dabei vor allem auf die seltsame Eigenschaft, dass sich das Auftreten, die Häufigkeit und die Position (n-te Zeile, n-te Position in der Zeile) von VMS-Wörtern relativ gut vorhersagen lassen aus dem Auftreten, der Häufigkeit und der Position ähnlich aussehender Wörter. Da Timm ausschließt, dass dem Schreiber/der Schreiberin des VMS im späten Mittelalter/der frühen Neuzeit ein Instrumentarium zur Verfügung stand, das es erlaubte, eine solche Verteilung mathematisch herzuleiten, vermutet er, dass sie das Resultat eines Seiteneffekts einer einfacheren Methode der Textgenerierung ist.

Kern dieser angenommenen Methode ist ein Kopiervorgang des Schreibenden: Dieser erfand initial eine Reihe von unterschiedlichen Zeichenfolgen, die er im Anschluss immer wieder abwandelte. Timm weist nach, das teilweise ganze Zeilen voneinander kopiert scheinen, wobei immer leichte Abwandlungen in den Kopierprozess eingeflochten wurden, so dass nie gleiche, sondern immer nur ähnliche Zeichenketten entstanden. Auf den ersten Blick mag diese Methode als zu simpel bzw. zu abwegig erscheinen – wer zur Hölle soll sich hinsetzen und mehr als hundert Seiten auf diese sinnlose Art füllen? Allerdings wird die Hoax-Hypothese zum VMS (die Zeichen des VMS tragen keinen Inhalt, es wurde nicht zum Austausch bzw. zur Bewahrung von Information angefertigt) schon länger verbreitet und Timm belegt seine Vermutungen durch eine ganze Reihe von Indikatoren, im Paper selbst und vor allem in seinem Anhang, dem man ansieht, dass sich da jemand gewissenhaft mit der Materie auseinandergesetzt hat.

Ausschnitt aus der Seite f100r des VMS. Darauf farblich markiert von Timm angenommene kopierte, abgewandelte “Wörter” in wiederkehrenden Positionen.

Zum Ende geht Timm auch noch auf meine PIII-Hypothese ein, zu der er – nach meiner Ansicht – die bisher beste Alternativhypothese aufgestellt hat. Wir vermuten beide eine Textgenerierungsmethode hinter dem VMS-Text, und doch es gibt zwei entscheidende Unterschiede:

Für meine PIII-Hypothese ist ein Codebuch notwendig, da dort die verschiedenen Chiffren auf Klartextbuchstaben abgebildet werden. Ein solches Codebuch wurde bisher nie gefunden, die Chiffrierungsmethode ist (wie ich selbst zugebe und Timm noch einmal schön ausführt) extrem kompliziert handzuhaben, v.a. bei der Dechiffrierung. Da Timms Kopisten-Hypothese ohne ein solches Codebuch auskommt, weil der Text einfach durch dauernde Abwandlung von sich selbst zustande kommt, sehe ich meine Hypothese hier klar im Nachteil.
Das Resultat der Kopisten-Methode ist ein sinnfreier Text (den man textlinguistisch wohl noch nicht mal als Text bezeichnen dürfte). Mit ihm kann man nichts weiter anfangen, als jemanden zu täuschen, um sich dadurch irgendeine Art von Vorteil zu verschaffen. Ob dies tatsächlich eine solche Mühe, welche die Erzeugung des VMS gekostet haben muss, rechtfertigen kann, sei dahingestellt. Mit einer PIII-artigen Methode aber ist es möglich, Informationen zu verbergen, und zwar so gut, dass diese evtl. mit der Technik des 21. Jahrhunderts nicht entschlüsselt werden können. Lässt sich das nicht vielleicht als stärkerer Antrieb annehmen?

Ich gebe hier Occams Rasiermesser den geneigten Leser|inne|n in die Hand. Mögen sie beurteilen, welche Hypothese sie für plausibler halten. Mir sind ein paar Dinge in den Kopf gekommen, die man überprüfen und das Lot damit in die eine oder andere Richtung ausschlagen lassen könnte. Das ist mir aber noch zu unausgegoren, als dass ich mich dazu jetzt schon äußern möchte. Ich freue mich jedenfalls, dass Torsten die Muße und den Mut gefunden hat, seine Theorie so gewissenhaft auszuarbeiten und der Öffentlichkeit zu präsentieren. Möge dies ein weiterer Anstoß sein, die zukünftige VMS-Forschung auf eine solidere Basis zu stellen.

_______

Timm, Torsten (07/2014): How the Voynich Manuskript was created. Publication: eprint 2014arXiv1407.6639T

Hermes, Jürgen (2012) Textprozessierung – Design und Applikation. Dissertation, Universität zu Köln. Publication eprint http://kups.ub.uni-koeln.de/id/eprint/4561

Quelle: http://texperimentales.hypotheses.org/1076

« Zurück 1 … 6 7 8 9 10 11 Weiter »