Weihnachtspost: Selfmade Lösungsweg

Die Wochen vor Weihnachten sind die Zeit der Weihnachtsfeiern und Weihnachtsfeiern sind die Gelegenheit zum Wichteln. Für mich ein willkommener Anlass, darüber nachzudenken, wie wahrscheinlich es ist, dass das Wichteln in einer Wichtelcommunity schief läuft, d.h. - je nach Wichtelspielvariante - dass man sich selbst beschenken muss bzw. dass man das eigene Geschenk zieht. Inwiefern ist diese Wahrscheinlichkeit abhängig von der Teilnehmerzahl? Aus welchem Grund auch immer ich vernarrt bin in solche Denksportaufgaben, schlage ich mich gerne damit herum. Etwa wenn ich mitten in der Nacht aufwache und nicht mehr einschlafen kann.

Natürlich ist die Lösung des Problems ist relativ einfach googlebar (Wichteln ist ja ein wichtiges, allgemein bekanntes und sehr weit verbreitetes Thema), was für die meisten Probleme, mit denen ich mich sonst so rumschlage, leider nicht gilt. Mehr oder weniger zu Übungszwecken war es deshalb mein Ansporn, durch eigenständiges Nachdenken auf die Lösung zu kommen. Schnell merkte ich, dass das Problem nicht ganz elementar ist - zwischenzeitlich hatte ich drei verschiedene Lösungswege, die zu drei unterschiedlichen Ergebnissen führten. Es gelang mir dann doch, diese zu synthetisieren und als ich das kundtat, wurde ich aufgefordert, meine Denk- und Irrwege darzustellen, auf dass dies einen Einblick geben könnte, wie man sich mathematische Lösungen als Geisteswissenschaftler aus gefährlichem Halbwissen zusammenkonstruiert, hinterfragt und letztlich dabei doch irgendwie erfolgreich ist.

1. Bekanntes zusammenkramen: Kombinatorik

Wie fängt man so etwas an? Man trägt zusammen, was man denn so zum Thema weiß. Wie war das noch mit der Kombinatorik? Da gab es doch Unterschiede von wegen Berücksichtigung der Reihenfolge und dem Zurücklegen. Beim Wichteln (also Geschenke ziehen) ist die Reihenfolge relevant (wer bekommt welches Geschenk) und zurückgelegt wird nicht (jedes Geschenk wird nur einmal vergeben). Das heißt, man kann alle möglichen Wichtelnde-Wichtelgeschenk-Kombinationen über die Formel N!/(N-n)! berechnen. N ist dabei die Anzahl der Geschenke, n die Anzahl der Teilnehmer|innen (oder umgekehrt, es ist ja auch vollkommen gleich, da ja genau ein Geschenk auf eine|n Teilnehmer|in kommt. Jedenfalls wenn alle ein Geschenk mitbringen). Da N-n damit 0 und 0!=1 ist, bleiben N! mögliche Kombinationen von Geschenkreihenfolgen. Hilft einem das irgendwie bei der Frage, wie viele dieser Kombinationen gute (jede|r Teilnehmende hat ein Geschenk von jemand anderem) und wie viele schlechte Kombinationen (Mindestens ein|e Teilnehmende|r hat das eigene Geschenk gezogen) sind.

2. Bekanntes kombinieren: Mach dir ein Bild

In einem ersten Schritt habe ich nun tatsächlich die verschiedenen Kombinationen (die Permutationen genannt werden) aufgezeichnet und sie von Hand sortiert.

Mögliche Geschenkzuteilungen von 2 (links) und 3 (rechts) Mitwichtlern

Mögliche Geschenkzuteilungen von 2 (links) und 3 (rechts) Mitwichtlern

Das Ergebnis sieht man in den Tabellen links: Großbuchstaben in der ersten Zeile stehen für Wichtel-Teilnehmende, die entsprechenden Kleinbuchstaben für deren Geschenke. Rot markiert sind Kombinationen, bei denen Teilnehmende eigene Geschenke erwichtelt haben (fortan Kollisionen genannt). Grün gefärbt sind die Reihen, die keine Kollisionen aufweisen, d.h. wo alle Teilnehmenden ein fremdes Geschenk erwichtelt haben. Im Fall von 2 Teilnehmenden (linke Tabelle) ist ist das in einem von zwei (also in der Häfte aller Fälle), bei drei Teilnehmenden in 2 von 6 möglichen Permutationen (also nur noch bei einem Drittel der Fälle) gegeben. Steigt also die Wahrscheinlichkeit der Kollisionen also mit steigender Teilnehmerzahl? Das hieße nichts gutes für unser Institutsweihnachtswichteln, wo sich 16 Mitspielende angekündigt hatten. Bevor ich mir aber die Mühe machte, Tabellen mit 16! (etwa 21 Billionen Zeilen) verschiedenen Kombinationen aufzumalen, suchte ich nach einem anderen Lösungsweg.

3. Holzwege abklappern: Der Baum der falschen Erkenntnis

Bildschirmfoto 2014-12-21 um 16.57.08

Ein erweiterbarer Wahrscheinlichkeitsbaum: Bei 4 Mitspielern hat der erste eine Chance von 1/4, das eigene Geschenk zu erwichteln. Wenn danach noch jemand drankommt (in 3/4 aller Fälle), hat dieser 1/3 Chancen auf sein eigenes Geschenk, usw. Richtig?

Bei zwei Mitwichtlern gibt es genau zwei Möglichkeiten: Jeder bekommt das eigene Geschenk oder das des anderen. Also fifty-fifty. Kann man das nicht irgendwie auf drei Mitwichtelnde erweitern? Der erste hat eine Chance von 2/3, nicht das eigene Geschenk zu ziehen, in dem Fall liegt der zweite dann doch wieder 50/50.

Bei jedem weiteren Wichtler muss der Wahrscheinlichkeitsbaum nur nach vorne erweitert werden, so wie ich dies in der nebenstehenden Graphik versucht habe, abzubilden: Demnach müsste die Zahl der geglückten Runden bei 3 Mitwirkenden 2/3*1/2, also 1/3 betragen, bei 4 Mitwirkenden entsprechen 3/4*2/3*1/2, also 1/4 usw. betragen. Aber kann das stimmen? Das würde ja heißen, dass die Wahrscheinlichkeit für nicht geglückte Wichtelrunden umso unwahrscheinlicher wird, je mehr Leute mitwichteln. Bei unserer Institutsfeier wäre die Chance also gerade mal 1/16, läge also bei mageren 6,25%.

4. Halbwissen hinterfragen: Mal's noch einmal, Sam

Bildschirmfoto 2014-12-21 um 17.09.25Ich war jetzt doch soweit, den kombinatorischen Lösungsweg weiter zu verfolgen. 4!, also 24 mögliche Geschenkzuteilungskombinationen bekommt man ja noch auf ein DIN-A4- Blatt gemalt und, wie man links sieht, auch in einem Blogpost untergebracht. Jetzt nur noch die validen Kombinationen ermitteln und durchzählen - und merken, dass tatsächlich ein anderes Ergebnis als beim Wahrscheinlichkeitsbaum herauskommt: Offenbar gibt es nämlich nicht die von meiner Baumüberlegung vorhergesagten 6 von 24 Möglichkeiten (was 1/4 entsprechen würde), sondern ganze 9/24 (was 1,5/4 entspricht).

Da sich die Kombinatorik nur recht selten zu irren pflegt, musste also mein Wahrscheinlichkeitsbaum falsch sein. Aber warum? Und wie berechne ich die Wahrscheinlichkeit für mehr Teilnehmer? Weder meine Mathematik noch mein gesunder Baum-Entwurfs-Menschenverstand, noch meine DIN-A4-Blätter schienen auzureichen, um auf die richtige Lösung zu kommen. Den Gesichtsverlust durch Googlen wollte ich mir vorerst noch ersparen. Und was bleibt da? Ach, ich kann ja noch programmieren.

5. Der Rechner kann's zufällig: Millionenfaches Wichteln

Erster Programmieransatz war ein einfacher empirischer Test (auch Monte-Carlo-Methode genannt, danke an Till für den Hinweis). Ich brauche einfach eine Liste von Geschenken und lasse die Mitspielenden nacheinander ein Geschenk blind (über einen Zufallsgenerator) ziehen. Wenn jemand sein eigenes Geschenk zieht, ist die Runde gescheitert, wenn alle Geschenke gezogen wurden, ohne dass dies passierte, ist sie geglückt. Computer spielen schnell, es ist also kein Problem, 1 Millionen Runden oder mehr zu spielen (gut, wenn es tausende Mitspielende werden, muss man schon etwas warten, aber ich hatte ja nur 16). Außerdem kann man Ergebnisse für eine ganze Reihe unterschiedlicher Mitspielender ermitteln. Bei zweien glückt etwa jede zweite Runde, bei dreien etwa jede dritte - soweit gingen mein Baummodell und die Kombinatorik ja auch noch d'accord. Bei vier Mitspielenden liegt das Ergebnis um 0,375 herum, also so viel, wie meine Kombinationstabelle aussagte und 50% mehr, als der Wahrscheinlichkeitsbaum mich vermuten ließ.

Tatsächlich leuchtete mir dann ein, dass mein Baum zu simpel konstruiert war, da die Fälle für "nicht das eigene Geschenk" nicht hätten zusammengefasst werden dürfen. Wenn nämlich A das Geschenk von B zieht, und B ist danach an der Reihe, ist die Wahrscheinlichkeit für B genau Null, das eigene Geschenk zu ziehen. Der Wahrscheinlichkeitsbaum müsste also so viele Zweige haben, wie die Permutationstabelle Zeilen hat und wäre damit eben keine Vereinfachung mehr.

Die Permutationstabelle wird bei 5 und mehr Mitspielenden zu groß, mein vereinfachter Wahrscheinlichkeitsbaum ist unbrauchbar. Bleibt also vorerst nur die empirische Methode über Zufallsexperimente. Die liefert bei steigender Mitspielerzahl immer fast den gleichen Wert, der zwischen 3,6 und 3,7 liegt. Interessant, aber unbefriedigend, wenn man nicht genau versteht, weshalb das so ist.

6. Der Rechner kann's auch strukturiert: Spiel die Welt durch

Also noch einmal programmieren - statt einfach zufällig Geschenke zu ziehen, kann man auch einfach alle Permutationen von Geschenkabfolgen konstruieren, um sie hernach von den Mitspielern in immer der gleichen Reihenfolge ziehen zu lassen (oder umgekehrt, das ist völlig gleichgültig). Schließlich malt der Rechner nicht auf DIN-A4-Blätter und müsste auch mit mehr Tabellenzeilen zurecht kommen. Wobei N! natürlich trotzdem relativ schnell an Speicherplatz- und Prozessorgrenzen stößt.

Eine Liste in alle möglichen Permutationen zu überführen, ist eine sehr schöne Rekursionsaufgabe, die ich irgendwann einmal implementiert und wieder vergessen habe. Da ich dazu neige, viel Gehirnschmalz und Zeit bei solchen Aufgaben zu verlieren, habe ich mir dann doch eine Lösung von hier geklaut und auf meine Bedürfnisse angepasst. Jetzt konnte ich da drumrum ein Programm schreiben, welches alle Permutationen erzeugt und gegen die Mitwichtlerreihenfolge abprüft. Ergebnis: Je größer n, desto mehr nähert sich der Anteil der geglückten Wichtelrunden der Zahl 0,3678 an. Für n=10 dauert die Berechnung schon eine ganze Weile und ab n=11 gibt es einen OutOfMemory-Error, wenn man den Speicherplatz für die virtuelle Maschine nicht hochsetzt (ja, ich weiß, es ist nicht nötig, alle Permutationen zu speichern, an der Laufzeitproblematik ändert sich dadurch ja auch nichts).

Bildschirmfoto 2014-12-21 um 21.32.31

Ausgabe meines maschinellen Wichtelprogramms. Links Anzahl der Teilnehmer, Mitte Ergebnis von 1 Mio Zufallsexperimenten, Rechts Ergebnis aller möglichen Permutationen.

Die sehr viel schnellere Zufallsgenerierungsmethode nähert sich bei größeren n auch immer mehr dieser Zahl an, so dass ich ihr vertraute, dass auch bei n=16 eine knapp 5/8 Wahrscheinlichkeit besteht, dass jemand von den 16 Mitwichtlern unserer Weihnachtsfeier das eigene Geschenk ziehen würde. Klar könnte man einfach die Runde wiederholen, aber da das Ganze anonym stattfinden sollte, wäre es schwierig gewesen mit dem Outing, das eigene Geschenk zu haben. Ich habe mir dann lieber eine 2-Gruppen-Lösung ausgedacht, wo man das Geschenk in die eine Wichtelgruppe gibt und eins aus der anderen Gruppe zieht. Klappt allerdings nur bei einer Mitspielerzahl, die nicht prim ist.

Über die richtige Lösung berichtete am Tag nach unserer Weihnachtsfeier auch DIE ZEIT Online und Post hoc ließ ich mich auch noch auf Google ein und fand diese diese nett gemachte Erläuterung. Mathematisch korrekt und ohne Umwege. Aber dass es eine solche gibt, hatte ich ja gar nicht in Abrede gestellt. Ich habe eigene Lösungswege gesucht, um meinen Denkapparat ein wenig zu ölen, damit er auch bei nicht-googlebaren Lösungen seinen Dienst tut. Ich habe dies hier aufgeschrieben, weil mein Kneipenlog-Kollege Dierk meinte, es würde vielleicht einen Einblick in (geistes)wissenschaftliche Prozesse geben.

[Code des Wichtelprogramms poste ich bei Interesse noch auf GitHub]

Quelle: http://texperimentales.hypotheses.org/1225

Weiterlesen

„Chacun de ces dialectes a plusieurs patois…“ – Zur napoleonischen Sprachenstatistik in den rheinischen Departements, 1


Landeshauptarchiv Koblenz, Bestand 276, Präfektur des Saardepartements zu Trier, Sachakte 1965: Notiz von Wyttenbach über die Sprachen im Departement, 9. 9. 1811

Friedrich Anton Wyttenbach: Porträt seines Vaters Johann Hugo Wyttenbach, undatiert, Lithografie (A. Nußbaumer), 35 x 26 cm, Stadtmuseum Simeonstift Trier http://de.wikipedia.org/wiki/Friedrich_Anton_Wyttenbach#mediaviewer/File:Wyttenbach_Portrait_Johann_Hugo_Wyttenbach.jpg

Friedrich Anton Wyttenbach: Porträt seines Vaters Johann Hugo Wyttenbach, undatiert, Lithografie (A. Nußbaumer), 35 x 26 cm, Stadtmuseum Simeonstift Trier
http://de.wikipedia.org

„Trèves le 9 sept[embre] 1811.

À Monsieur de Moulon,

Chef du Bureau à la Préfecture.

Monsieur,

J’ai l’honneur de vous transmettre par la présente quelques notes relatives aux renseignemens demandés par Son Excellence le Ministre de l’Intérieur.

La langue allemande a deux dialectes principaux (Mundarten); savoir: le dialecte de la Germanie supérieure, et celui de la Germanie inférieure. Le bon allemand saxon (das Hochdeutsche) vient d’une petite partie de la Germanie inférieure, ou du nord de ce pays. Chacun de ces dialectes a des plusieurs [sic] patois, et il y a certainement une différence sensible entre ces patois. Leur nombre est infini.

On pourrait peut-être fixer quatre patois marquans dans notre département; savoir celui de Trèves et ses environs, dans un rayon plus ou moins de quatre lieux; celui des habitans de la Moselle inférieure, celui de Hundruck [Hunsrück] et de l’arrondissement de Sarrebruck, et enfin de l’arrond[issement] de Prum [Prüm].

D’un côté le patois de Trèves est parlé jusqu’aux frontières du département des Forêts. En traversant seulement la petite rivière de la Saur, on peut faire cette remarque.

Dans le patois de notre ville on observe les singularités suivantes:

1°. La lettre o aime à jouer un grand rôle, et elle est presque toujours substitué[e] à la lettre a; par exemple: au lieu dado. &c.

2°. Quand on emploi cette dernière lettre a, notre patois la prolonge, et traine les mots, toujours outre mesure; p.e. au lieu de BachBaag, manmaan &c.

3°. La voyelle i est dans beaucoup [de] mots transformée en eu, p. exemple: au lieu de dire icheuch, michmeuch, KirchKeurch.

4°. Il s’y trouve un nombre de contradictions; p. ex. : ich habeeuch hongesagetgesot, es regnetet rehnt &c.

5°. On préfère presque toujours le g au ch; p. ex. TochterDogter, SpracheSprog. &c.

Encore deux singularités marquantes se font entendre dans notre patois.

1°. Au lieu de dire: er wird sterben, on dit généralement: eh geit sterwen, c’est-à-dire, il va mourir, comme dans le français. Cette phrase est déjà d’un ancien usage dans notre patois, et paraît être empruntée de la langue française, qui fut toujours parlée sur nos frontières.

2°. La seconde singularité consiste en permutation presque constante du verbe werden en verbe geben, comme p. exemple: er wird groß – eh geft grus &c.

Quant aux traductions de la parabole citée dans la lettre de S. Excellence, j’ai l’honneur de vous nommer Mr. le curé du canton Schreiber, ou Mr. le curé Devora, qui pourront vous fournir des [sic] pareilles traductions.

Recevez, Monsieur De Moulon, je vous en prie, ces notes avec bonté, et regardez les comme l’obole du pauvre dans l’Évangile.

Je suis, Monsieur, avec la considération la plus distinguée, votre très humble serviteur.

Wyttenbach

N. En général le patois de la Moselle ressemble beaucoup à celui de Coblenz; celui de Prum [Prüm] au patois de Cologne; et le troisième de Hundruck [Hunsrück] au patois déjà mieux cultivé de Mayence.“

 

Zur Quelle

Das Büro für Statistik im französischen Innenministerium führte zwischen 1806 und 1812 eine umfassende Sprachenerhebung innerhalb des napoleonischen Kaiserreichs und in den angrenzenden Regionen der Nachbarstaaten durch. Ziel war die Bestimmung der Sprachgrenzen und der Sprecherzahlen aller im Kaiserreich gesprochenen Sprachen sowie die Identifizierung und sprachliche Klassifizierung der Dialekte. Geleitet wurde die Erhebung von Charles-Étienne Coquebert de Montbret, dem Direktor des Büros für Statistik, und seinem ebenfalls dort beschäftigten Sohn Eugène. Die konkrete Ausführung oblag dann den Präfekturen in den Departements. Diese mobilisierten vor Ort geeignete Informanten aus der Verwaltung und der Zivilgesellschaft, um Auskünfte und Sprachproben zu liefern. Insbesondere wurden zahlreiche Übersetzungen des Gleichnisses vom Verlorenen Sohn zum Zweck des Sprachvergleichs gesammelt. Erfasst wurden auch deutschsprachige Gebiete: Elsass-Lothringen, die Departements Saar, Roer und Rhein-Mosel am linken Rheinufer (Deutschland), das mehrheitlich heute niederländische und belgische Gebiete umfassende Departement Niedermaas, deutschsprachige Gemeinden im Departement Ourthe (Belgien), das Wälderdepartement (Luxemburg) sowie Teile der deutschsprachigen Schweiz und schließlich deutsche Sprachinseln in Oberitalien.

Das obige Schreiben war Teil der Antwort auf die Anfrage des Innenministeriums im Saardepartement. Sein Verfasser ist Johann Hugo Wyttenbach (1767–1848), der als herausragender Trierer Gelehrter das Geistesleben der Stadt in den ersten Jahrzehnten des 19. Jahrhunderts entscheidend prägte. Laut F.X. Kraus war Wyttenbach die „Seele aller auf Erforschung der Trierischen Geschichte und Alterthümer ausgehenden Bestrebungen“ (Kraus 1898, 106). Nach einem abgebrochenen Theologiestudium wurde er in den 1790er Jahren zunächst Hauslehrer und bewarb sich dann bei der französischen Zentralverwaltung des Saardepartements. Er wurde Mitglied der Schulkommission und unterrichtete an der städtischen höheren Schule, der er von 1804 bis 1846 als Direktor vorstand. Seit 1799 war er außerdem Bibliothekar der neugeschaffenen Stadtbibliothek Trier sowie 1801 Gründungsmitglied der Gesellschaft für nützliche Forschungen. 1810 erschien der erste Band seines „Versuchs einer Geschichte von Trier“, mit dem er seinen Ruf als Lokalhistoriker bekräftigte, war er doch schon 1792 dem durchreisenden Goethe als ein bestens mit der Geschichte der Stadt und ihrer Umgebung vertrauter junger Lehrer aufgefallen. Seine Mitwirkung in der ministeriellen Sprachenerhebung ist insofern nicht ungewöhnlich. Auch andernorts wurden Personen eingebunden, die sich durch eine literarisch-historische Vorbildung auswiesen. Mehrfach finden sich so unter den Informanten Mitglieder gelehrter Zirkel, Lehrer und Bibliothekare.

Die der Notiz Wyttenbachs zu Grunde liegende Bitte um Auskünfte über die Dialekte datiert auf den 20. Juni 1811. Anders als die meisten innerfranzösischen Departements wurde die Saar nicht durch eines der gezielten Rundschreiben der Jahre 1807 und 1808 in die Sprachenerhebung einbezogen, sondern erst außerhalb der eigentlichen Untersuchung in der Fortsetzung einer Korrespondenz zur Arbeitermigration. Tatsächlich war nach dem Ausscheiden Charles-Étienne Coqueberts de Montbret aus dem Büro für Statistik Ende 1810 die Sprachenerhebung nahezu vollständig zum Erliegen gekommen und konnte erst 1812 durch zwei letzte Rundschreiben wiederbelebt werden. Die isolierte Anfrage im Sommer 1811 geht also ganz auf die Initiative Eugène Coqueberts de Montbret zurück, den auch die Handschrift des Briefes als Verfasser verrät. Der Inhalt der Anfrage entspricht indes ganz dem der früheren Rundschreiben zur Erhebung der Dialekte im Inneren Frankreichs. Hauptsächlich ging es hier zum einen darum, die Unterschiede zwischen den Dialekten („patois“) und der Hochsprache („le bon allemand saxon“)  auszumachen, zum anderen die Dialekte einzeln zu identifizieren und miteinander zu vergleichen:

„Je vous engage en même temps à me transmettre des détails sur les divers dialectes allemands qui sont d’un usage vulgaire parmi les habitans de la partie de l’Empire que vous administrez. Je désire que vous me fassiez connaître quels sont les principaux caractères de ces patois soit par rapport à l’accent et à la prononciation, soit par l’emploi de mots et de tournures de phrases inusités dans le bon allemand saxon. Il serait à désirer que vous pussiez à l’aide de quelques personnes au fait de l’idiôme populaire (il doit s’en trouver notamment parmi les ecclésiastiques) m’envoyer la liste des expressions les plus remarquables de ces dialectes, accompagnée de quelques échantillons en chacun d’eux, notamment d’une ou plusieurs traductions de la parabole de l’enfant prodigue telle qu’elle se trouve dans l’évangile selon saint Luc, chapitre XV. Ce morceau de la Bible me paraît très propre à servir d’exemple parce qu’il ne renferme que des idées simples et familières à tout le monde et j’ai cru par cette raison devoir le choisir comme terme commun de comparaison entre les divers langages sur lesquels mon ministère possède déjà des renseignements. Supposé que les patois en usage dans votre département présentent entr’eux des différences assez marquées pour devenir sensibles dans la traduction de cette parabole je vous saurais gré de m’indiquer quelles sont à peu près les limites de l’étendue de pays où chacun de ces dialectes se parle.“ (Quelle: Lha Koblenz, Bestand 276, Präfektur des Saardepartements zu Trier, Sachakte 1965)

Nach Wyttenbachs Schreiben zu urteilen, wurde die Anfrage von einem der Bürochefs der Präfektur bearbeitet. Es scheint aber auch, dass dieser sie vollständig an Wyttenbach weitergeleitet hat, der dann die Notiz als Antwort verfasste sowie geeignete Informanten für die Erstellung der Sprachproben empfahl. Sicherlich war Wyttenbach besser als die französischen Verwaltungsbeamten mit den lokalen Dialekten vertraut, wenngleich auch seine Beschreibung der Dialektverteilung recht vage ausfällt. In seinen eigenen Publikationen hat er sich nicht mit dialektologisch-ethnographischen Fragen auseinandergesetzt.

Die Resultate wurden am 11. Oktober 1811 nach Paris übersandt. Das Dossier befindet sich heute in der Französischen Nationalbibliothek (Fonds Coquebert de Montbret, NAF 5912) und umfasst das Antwortschreiben des Präfekten, eine Abschrift der Notiz Wyttenbachs ohne die einleitenden Zeilen an Moulon sowie drei Übertragungen des Gleichnisses vom Verlorenen Sohn. Umfang und Zusammensetzung der Auskünfte – insofern sie vollständig überliefert sind – entsprechen damit allerdings kaum dem Verlangten: Wortlisten wurden nicht angefertigt, von den drei Gleichnissen stammt nur eines aus der Saar, die anderen beiden aus dem Großherzogtum Berg, weitere andersartige Sprachproben (z.B. Volkslieder) fehlen gänzlich. Die Beschreibung dialektaler Merkmale in der Notiz bezieht sich ausschließlich auf die Trierer Mundart. Das Begleitschreiben des Präfekten an das Innenministerium spricht zudem von nur zwei Gleichnissen, da wahrscheinlich die beiden Versionen aus Berg nicht unterschieden wurden.

Alle drei Gleichnisse sind von Pfarrer V.J. Devora unterzeichnet. Da sie auf den 8. Oktober 1811 datiert sind – also nach dem Schreiben Wyttenbachs an Moulon – wurde dieser vermutlich erst nach der Empfehlung durch Wyttenbach eingebunden. Victor Josef Devora (1774–1837, auch Victor Joseph Dewora) wurde 1808 zum Pfarrer der Trierer Vorstadt St. Matthias ernannt. Ab 1810 organisierte er mit Unterstützung der französischen Behörden die erste Lehrerausbildung im damaligen Departement. Später wurde er Domkapitular, Dompfarrer und Stadtdekan in Trier und war auch über seine Region hinaus als Verfasser mehrerer theologischer und pädagogischer Schriften bekannt. Gebürtig stammte Devora jedoch aus Hadamar (heute in Hessen), das von 1806 bis 1813 zum Großherzogtum Berg gehörte. Die beiden bergischen Gleichnisübertragungen spiegeln also vermutlich seine individuelle Dialektkenntnis wider. Dem entspricht, dass eine der beiden die Mundart „comme on le parlait encore vers 1780“ darstellt, also zur Zeit von Devoras Kindheit und Jugend in Hadamar. Das dritte Gleichnis – aus Gerolstein – ist ebenfalls von Devora unterzeichnet, obschon dort eigentlich von 1803–1812 Peter Josef Kremer als Pfarrer tätig war. Bedauernswert ist, dass nun weder Devora noch Wyttenbach selbst eine Übertragung in die Trierer Mundart beigesteuert haben.

Hat Wyttenbach in seiner Notiz zumindest die Verteilung der Dialekte zutreffend beschrieben? Das nicht mit dem Saarland zu verwechselnde Departement Saar erstreckte sich über das Gebiet des sog. Rheinischen Fächers, d.h. des dialektalen Übergangsgebiets vom Niederfränkischen im Nordwesten über das Moselfränkische zum Rheinfränkischen im Südosten (nach heutiger Begrifflichkeit). Der größte Teil des Departements lag im moselfränkischen Raum, der Süden im rheinfränkischen Gebiet, die beiden bergischen Sprachproben verweisen in den niederfränkischen Dialektraum. Sprachlich bot das Departement also durchaus eine interessante wenngleich auch komplexe Situation. Zum Moselfränkischen zählen das „Trierer Platt“ ebenso wie die Mundarten in der südlichen Eifel und im Hunsrück sowie das Luxemburgische (Wälderdepartement) und die Koblenzer Mundart (Rhein-Mosel-Departement). Wyttenbachs Bemerkung, dass der Trierer Patois nur bis an die Grenze des Wälderdepartements reiche, ist also mindestens fragwürdig. Gleiches gilt für die Ähnlichkeit zwischen den Dialekten von Hunsrück und Mainz, da das Mainzerische bereits ein rheinfränkischer Dialekt ist. Überzeugender ist die Ähnlichkeit zwischen den Mundarten der Mosel und dem Koblenzerischen.

Insgesamt hinterlässt die Notiz den Eindruck, dass mangels genauer metasprachlicher Kenntnisse die Verwaltungsgliederung der Region Wyttenbachs Sicht auf die Sprachlandschaft stark beeinflusst hat. Damit veranschaulicht sie auch ganz allgemein die Schwierigkeiten, vor denen die beiden Coqueberts de Montbret in der Spracherhebung und besonders der Bestimmung der Dialektgeographie standen. Die Art und die Zuverlässigkeit der Aussagen der Korrespondenten variierten mitunter so stark, dass letztlich nur mittels seriell erhobener Sprachdaten die Überprüfbarkeit der subjektiven Aussagen und der Dialektvergleich gewährleistet werden konnten. Die Wahl eines einheitlichen Vergleichstexts in Form des Gleichnisses vom Verlorenen Sohn war dabei der entscheidende Schritt hin zu einer empirisch fundierten Dialektdokumentation. Mit dieser methodischen Entscheidung beeinflusste die napoleonische Sprachenerhebung als Vorbild nachhaltig die Entwicklung der Dialektologie und Sprachgeographie im 19. Jahrhundert. Ein Beispiel für eine Gleichnisübertragung aus dem deutschen Sprachraum soll im nächsten Beitrag vorgestellt werden.

 

Weiterführend

Gabriele B. Clemens, Die Notabeln der Franzosenzeit, in: Unter der Trikolore/Sous le drapeau tricolore. Trier in Frankreich – Napoleon in Trier/Trèves en France – Napoléon à Trèves, 1794-1814, Bd. 1, Hg. von Elisabeth Dühr und Christl Lehnert-Leven, Trier 2004, S. 105–180.

Kellner, Heinrich, Dewora, Victor Joseph, in: Allgemeine Deutsche Biographie. Bd. 44, Leipzig 1877, S. 431–434. Digitale Volltext-Ausgabe in Wikisource.

F.X. Kraus, Wyttenbach, Johann Hugo, in: Allgemeine Deutsche Biographie. Bd. 5, Leipzig 1898, S. 106–107.

Wolfang Hans Stein (Bearb.), Die Akten der Verwaltung des Saardepartements 1798-1813. Inventar der Bestände Landeshauptarchiv Koblenz Bestand 276 und Landesarchiv Speyer Bestand G 9. Koblenz 1991.

 

Quelle: http://naps.hypotheses.org/999

Weiterlesen

Bedeutet der Abbau des Sozialstaates den Abbau der Sozialstatistik?

In einer Zeit, wo „Austerität“ die Rede ist und Regierungen versuchen, ihre Ausgaben zusammenzustreichen, entgehen Ausgaben für amtliche Statistik nicht der Aufmerksamkeit. Es lässt sich auch glauben, dass je weniger der Staat eine aktive und umfangreiche Sozialpolitik betreibt, umso weniger muss er über soziale Tatbestände wissen – oder, wenn man es zynisch ansähe, umso weniger will er darüber wissen (lassen).

Sicherlich war dies der Fall am Anfang der 80er in Großbritannien. Als Thatcher zum ersten Mal zur Macht kam, gab sie eine Untersuchung des Umfanges und der Struktur der amtlichen Statistik bekannt. Diese Untersuchung wurde von dem ehemaligen Unternehmer Derek Rayner geleitet und der Vollzug seiner Empfehlungen wurde die „Rayner Reforms“ benannt1. Diese führten zu erheblichen Verringerungen des statistischen Personals (zu etwa 30%) und der Ausgaben sowohl der Streichung einiger Erhebungen, z.B. die zur Vermögensverteilung. Zu derselben Zeit in Deutschland, wo die amtliche Sozialstatistik noch schwach im Vergleich mit der Wirtschaftsstatistik blieb, war es gefürchtet, dass der bestehende Fortschritt in diesem Bereich durch Kürzungen gefährdet würde.

In den ersten Jahren der Regierung Camerons (2010-) in Großbritannien gab es Anlass zu denken, dass die amtliche Statistik einen solchen Abbau erleidet. Es wurden zwei große Erhebungen (The Citizenship Survey und The Places Survey) beendet, der Stichprobenumfang der Family Resources Survey, die die wichtigste Quelle für Einkommensstatistiken darstellt, wurde unter anderen gekürzt, und eine Reihe von Konsultationen drohten weitere Sparmaßnahmen.

Infolgedessen kündigte die UK Statistics Authority (UKSA), die seit 2008  dem „Statistics and Registration Act 2007“ gemäß den Vollzug der amtlichen Statistik unabhängig kontrolliert, eine laufende Beobachtung der Kürzungen an. Die Folgen der Streichung statistischer Datenreihen und Berichte lassen sich sehr schwierig kürzfristig bewerten. Die von UKSA erstellten Daten über statistisches Personal sind aber selbst schon interessant. Die Grafik2 zeigt, wie schnell dessen Anzahl in den 2000ern stieg und wie sie immer noch zu steigen scheint.

Number of statisticians in the Government Statistical Services 2000-2013

Wie kann man es deuten, dass mit dem derzeitigen Abbau des britischen Sozialstaates keine Verringerung des statistischen Personals einhergeht? Ein Grund ist vielleicht, dass die verstärkte Kontrolle der amtlichen Statistik durch die UKSA und die Formalisierung des Konsultationsverfahrens Kürzungen einschränkten. Es liegt aber auch daran, dass die zunehmende Privatisierung der sozialen Dienstleistungen (Arbeitsvermittlung, Gesundheitswesen, Bildung u.s.w.) wesentlich eine statistische Infrastruktur erfordert. Koordination und verträgliche Beziehungen zwischen Staat und Unternehmern gehen nicht ohne Statistik. Die Schaffung eines Marktes setzt Marktinformationen voraus. So Hayek über Statistik und änliche Aktiväten: „[a]ll these activities of government are part of its efforts to provide a favourable framework for individual decisions; they supply means which individuals can use for their own purposes“3.

Ein längeres Blog zu diesem Thema ist auf StatsLife / LSE Policy & Politics blog zu finden. Ein Working Paper ist auch auf Anfrage verfügbar.

  1. Die Geschichte der „Rayner Reforms“ und seine Wirkungen auf die Sozialstatistik wird ausführlich von Ruth Levitas dargestellt: Levitas, R., 1996. The Legacy of Rayner. In R. Levitas & W. Guy, eds. Interpreting Official Statistics. London: Routledge.
  2. Data are collated from the minutes of the Committee for Official Statistics, 2011 to 2013. Note that the move from a headcount to full-time equivalent basis means the figures from 2012 are not directly comparable with those from 2000 to 2011
  3. Hayek (2006) The Constitution of Liberty. Routledge. Ich danke Rikki Dean für das Zitat.

Quelle: http://etatsocial.hypotheses.org/300

Weiterlesen

Wer produzierte das Wissen, auf das sich die Geschichte des 19. Jh. stützt? Zwei Tagungen

Dass historische Quellen – welcher Art auch immer – keinesfalls jene „transparenten Fenster“ in die Vergangenheit sind1, als welche sie die Geschichtswissenschaft früherer Generationen benutzen zu können glaubte, ist eine Erkenntnis, die unter HistorikerInnen heute kaum mehr explizit bestritten werden dürfte. Mit ihrer Anwendung in der geschichtswissenschaftlichen Praxis sieht es freilich je nach Quellengattung, Epoche und Einzelfall noch recht unterschiedlich aus, und auch die quellenkundliche Forschung, die sich darauf richtet, Überlieferungen in ihrer unhintergehbaren Gemachtheit zu verstehen, hat in vielen Bereichen noch große Aufgaben vor sich.

Dabei dürften gerade Materialien aus der jüngeren und jüngsten Vergangenheit ein besonderes Risiko in sich tragen. In ihrer sprachlichen und medialen Form wirken sie oft verhältnismäßig vertraut und leicht verständlich – wodurch die Illusion von Transparenz leichter entsteht als bei mittelalterlichen Urkunden oder antiken Inschriften. Daher rührt wohl in erster Linie die relative Schwäche und geringe Verbreitung quellenkundlicher und historisch-grundwissenschaftlicher Forschung zum 19. und 20. Jahrhundert, die in diesem Blog auch kürzlich im Hinblick auf den Vergleich zwischen Aktenkunde und Diplomatik zur Sprache kam.

Die beiden Veranstaltungen, auf die hier hingewiesen werden soll, vertreten zwei Forschungsgebiete, die in dieser Hinsicht in neuester Zeit wichtige Beiträge leisten und eine breite Kenntnisnahme verdienen: die Geschichte der amtlichen Statistik und jene der Archive. Beide Institutionen erlebten im 19. Jahrhundert einen bemerkenswerten Aufschwung, der mit dem Ausbau und der Professionalisierung der staatlichen Verwaltung ebenso zusammenhing wie mit der Arbeit an der Konstruktion nationalstaatlicher Identitäten, die auf entsprechend zusammengestellte Wissensbestände gestützt wurden. Die Ergebnisse ihrer Tätigkeit sind noch heute unumgängliche Arbeitsgrundlagen für HistorikerInnen, die aber eben nicht als „transparente Fenster“ benutzt, sondern als selektiv und intentional konstruiertes Wissen angesehen werden müssen. Die Erforschung ihrer Produktionsbedingungen und ihrer Funktionen im Kontext der Entstehungszeit bildet einen Überschneidungsbereich zwischen Politik- und Verwaltungsgeschichte einerseits, Wissenschafts- und Wissensgeschichte andererseits; und die aus dieser Forschung zu schöpfenden Reflexionen sind einerseits bei der Arbeit zur Geschichte des 19. Jahrhunderts konsequent im Auge zu behalten, andererseits aber auch durchaus für das Verhältnis von Wissenschaft und Politik in der Gegenwart relevant.

Call for Papers: Die Zählung der Welt. Kulturgeschichte der Statistik vom 18. bis 20. Jahrhundert

Für die Tagung, die im September 2015 in Göttingen stattfinden soll, endet in wenigen Tagen die Einreichfrist für Abstracts. Die Veranstalter Stefan Haas, Michael C. Schneider und Nicolas Bilo schreiben über ihre Perspektive und Ziele Folgendes:

„Bisher sind Statistiken im Wesentlichen als sozialpolitisches oder sozioökonomisches Phänomen, in historischer Perspektive als Datengrundlage der Sozial- und Wirtschaftsgeschichte thematisiert worden. Die Tagung möchte diesen Blick um eine kulturhistorische Perspektive erweitern. Statistiken bilden eine (historische) Wirklichkeit nicht nur rational ab, sie tragen vielmehr durch Kategorisierung und Taxonomie von Daten zu einer spezifischen Konstruktion von Realität bei, ja mehr noch: Die Erhebung der Daten selbst basiert bereits auf vorgängigen Entscheidungen über die Realitätskonstruktion, die nicht immer offengelegt werden.

Die Tagung verfolgt zwei Ziele: Erstens will sie ein Forum schaffen, Statistiken als Medium moderner Politik und gesellschaftlicher Aushandlungsprozesse zu historisieren. Durch die Verortung im Kontext der Erfindung der Nationalstaaten und im transnationalen Vergleich soll gefragt werden, welche historischen Bedingungen für die Entwicklung und den Einsatz von Statistik Bedeutung hatten. Zweitens soll gefragt werden, wie Statistiken Realität repräsentieren und wie sie dadurch eine kulturelle Wirklichkeit erzeugen, die dann geschichtswirksam wird. Dazu möchte die Tagung einen Zeitraum von der Einführung von Statistiken im 18. Jahrhundert bis zum Beginn des Kalten Krieges umfassen. Räumlich und kulturell will sie sich nicht auf eine westliche Binnenperspektive verengen, sondern auch Platz für transkulturelle und transnationale Vergleiche bieten. Schließlich fragt die Tagung nach dem wachsenden Einfluss der Mathematisierung auf die verschiedenen Agenturen der Datenerhebung seit dem Beginn des 20. Jahrhunderts und das Verschmelzen mathematisch-probabilistischer Methoden mit den herkömmlichen Praktiken der Datenauswertung.“

Der vollständige Call for Papers ist auf HSK zu finden.

Tagung: Archives and History. Making Historical Knowledge in Europe during the Long Nineteenth Century

Ebenfalls in Göttingen findet vom 26. bis 28. Juni 2014 diese Tagung statt, in der das Verhältnis von Archiven und Geschichtswissenschaft im 19. Jahrhundert thematisiert wird. Zur Sprache kommen sowohl die Frage, wie Archive und Archivbestände gebildet wurden, als auch die Bedingungen der geschichtsforschenden Arbeit in und mit ihnen. Aus der Ankündigung durch den Veranstalter Philipp Müller:

Under which institutional conditions were historians able to undertake historical studies in archives? And how did these conditions of historical-archival research impinge on the production of historical knowledge? In looking into these two inextricably interlinked matters, the symposium highlights an essential, and ultimately scientific, attribute of historical work, rising to prominence in Europe during the long nineteenth century. In order to advance our understanding of the history of the study of records and files, its performance and ramifications for the making of historical knowledge, the symposium draws on different strands of scholarship and gathers experts from different fields of research such as the history of historiography, the history of sciences, anthropology and the history of archives.

Das Programm ist gleichfalls auf HSK abrufbar.

  1. Die Metapher ist hier entlehnt nach GEARY, Patrick J.: Entre gestion et gesta. Aux origines des cartulaires, in: GUYOTJEANNIN, Olivier – MORELLE, Laurent – PARISSE, Michel (Hrsg.): Les cartulaires. Actes de la Table ronde organisée par l’École nationale des chartes et le G.D.R. 121 du C.N.R.S. (Paris, 5–7 décembre 1991) (Mémoires et documents de l’École des chartes 39), Paris 1993, 13–26, hier 13. Vgl. die daran geknüpfte Diskussion bei KURATLI HÜEBLIN, Jakob: Archiv und Fälscherwerkstatt. Das Kloster Pfäfers und sein Umgang mit Schriftgut, 10. bis 18. Jahrhundert (Studia Fabariensia. Beiträge zur Pfäferser Klostergeschichte 4), Dietikon – Zürich 2010, 16–18.

Quelle: http://achtundvierzig.hypotheses.org/559

Weiterlesen

Datenauswertung in practise

Ich bin gerade mal wieder mit der Feldpost von Philipp Weinheimer beschäftigt. Ich habe nun die Hälfte der Feldpostdaten systematisch gesammelt – allerdings erst die des Eingangs. Ich nutze dafür, recht primitiv, Excel. Senkrecht links die Namen, die ich dann … Continue reading

Quelle: http://ockenheim.hypotheses.org/343

Weiterlesen

Graphisch aufbereitete Blog-Statistik für 2013 (seit Mai)

http://jetpack.me/annual-report/30731069/2013 Crunchy numbers. A New York City subway train holds 1,200 people. This blog was viewed about 3,900 times in 2013. If it were a NYC subway train, it would take about 3 trips to carry that many people. In 2013, there were 148 new posts, growing the total archive of this blog to 254 […]

Quelle: http://www.einsichten-online.de/2013/12/4852/

Weiterlesen

Wenn Physiker Voynich-Forschung betreiben

Nein, das geht hier gar nicht gegen Physiker im Allgemeinen – das könnte ich mir schon allein deswegen nicht erlauben, weil ich mit zwei von ihnen das Kneipenlog gegründet habe. Der Titel ist nur eine Anlehnung an den Artikel von Ben Zimmer, der Anfang des Jahres im Boston Globe erschien (“When physicists do linguistic”) und in dem recht anschaulich dargestellt wird, dass Fachfremdheit nicht immer ein Vorteil sein muss. Ich las mal die Anekdote, dass die Soziologin, die gewisse Dinge nicht erklären kann, diese an die Biologin weiterreicht. Was die Biologie nicht erfassen kann, wird an die Chemie delegiert. Die Chemikerin schließlich nimmt alles, was nicht in ihr Modell passt und schanzt es der Physikerin zu, die dann leider niemanden mehr hat, an den sie Unklarheiten weitergeben kann.* So ist es nicht weiter verwunderlich, dass das Voynich Manuskript (VMS, ich schrieb schon mehrfach darüber), mittlerweile schon über 100 Jahre völlig unverstanden, inzwischen auch bei den Physikerinnen gelandet ist, die es nun mit ihren Methoden untersuchen. Das ist auch gar nicht so falsch, das Lustige am Voynich-Manuskript ist ja, dass jede|r daherkommen und irgendwelche Analysen anstellen kann – schließlich sind bisher noch nicht wirklich viele Fortschritte geleistet worden, auf die man sich irgendwie beziehen müsste (man verzeihe mir den Sarkasmus).

So sind kürzlich gleich zwei wissenschaftliche Studien erschienen, die relativ ähnlich geraten sind (schließlich stecken hinter beiden Autoren aus der Physik, man verzeihe mir auch noch, dass ich sie hier beide in einen Topf werfe), von denen die eine aber ein sehr viel höheres Maß an Aufmerksamkeit erhielt – inklusive BBC-Bericht, Spiegel-Online-Artikel, Klaus Schmehs Kryptologieblog usw. Das lag wahrscheinlich daran, dass sie in der inzwischen (erfreulicherweise) sehr renommierten Open Access Zeitschrift PLOS ONE erschienen ist.1 Sie ist damit Peer Reviewed, was für die andere Studie, die bei ArXiv.org hochgeladen wurde, offenbar noch nicht gilt.2

Beide Studien untersuchen den Text des VMS, indem sie informationstheoretische Maße auf ihn anwenden. Das ist tatsächlich auch eine gute Idee, schließlich entband Claude Shannon den Informationsbegriff von allem semantischen Ballast, so dass man den Informationsgehalt einer Nachricht (hier des VMS-Textes) auch untersuchen kann, wenn man keinen Plan hat, was deren Inhalt ist. Ein Großteil der Experimente meiner Dissertation hatten genau diese Zielrichtung, jetzt machen das also ein paar Physiker.

Voynich Manuscript (178)

Drei der Seiten aus dem “geheimnisvollsten Manuskripts der Welt”

Und, was finden die Herren (ja, dem Namen nach sind das ausschließlich Herren) Physiker so heraus? Dass die untersuchten informationstechnologischen Maße (die Autoren der PLOS-ONE-Studie untersuchen gar nur eins) dafür sprechen, dass der VMS-Text eine Nachricht enthält und keine sinnlose Aneinanderreihung von Phantasiewörtern ist. Woraus schließen sie das? Daraus, dass die Eigenschaften des VMS-Text eher mit denen von Texten natürlicher Sprachen vergleichbar sind, als mit

  • einem Text, verfasst in der Programmiersprache Fortran
  • Pilz-DNA (beides PLOS-ONE-Studie) oder
  • computationell erzeugten Zufallsfolgen (ArXiv-Studie).

Ach. Wer hätte gedacht, dass etwas, das von einem Mittelalter/Frühneuzeitmenschen geschrieben wurde (die Außerirdischentheorie lasse ich mal außer acht), eher einer natürlichen Sprache als verschriftlichen Algorithmen, einer computergenerierten Zufallsfolge oder der Basenabfolge von Pilz-DNA entspricht?

Dass am Ende mit Schlussfolgerungen, die weitestgehend daneben sind, so geklingelt wird, ist wirklich ärgerlich. Die beiden Studien sind teilweise wirklich innovativ, die Ergebnisse wären allerdings sehr viel besser als Grundlage für weitere Forschungen nutzbar, wenn die durchgeführten Experimente vielleicht irgendwo mit Software und Daten zugänglich wären. Tut mir leid, dass ich da so oft drauf hinweise. Aber es wird einfach nicht besser, auch wenn alle Welt von Open Science redet. Die Art, wie im PLOS-ONE-Artikel die betreffenden Formeln für die Berechnung versteckt werden, halte ich persönlich auch für eine Frechheit. Wenn schon die Schlussfolgerungen für die Tonne sind, hätte man hier bei mir einige Punkte holen können.

So aber muss ich den Autoren ihre Werte entweder glauben oder die Formeln zusammensuchen, selbst implementieren und am Ende wahrscheinlich feststellen, dass ich andere Werte herausbekomme. Ich hätte auch keinen Plan, welche Transkription ich denn verwenden soll, beide Studien verweisen darauf, dass sie mit der “EVA-Transkription” arbeiten. Das ist allerdings nur das Transkriptionsalphabet, darin sind mehrere Transkriptionen unterschiedlicher Voynich-Forscher verfasst, die teilweise stark voneinander abweichen. Sie sind in einem Archive-File zusammengefasst, das, wenn man es falsch ausliest, für völlig wirklichkeitsfremde Ergebnisse sorgt. Weshalb ich mich darum sorge? Weil die Autoren teilweise eine beängstigende Unkenntnis an den Tag legen, was Spracheigenschaften angeht. Ein Beispiel aus der ArXiv-Studie: Es gibt die Vermutung, dass der VMS-Text in einer Kunstsprache verfasst ist, deswegen vergleichen wir seine Eigenschaften mal mit Esperanto. Zamenhofs Esperanto ist aber eine synthetische Sprache a posteriori, also nach natürlichsprachlichem Vorbild angelegt. So eine Kunstsprache unterscheidet sich fast gar nicht von natürlichen Sprachen. Beim VMS-Text gibt es die Vermutung, er basiere auf einer Kunstsprache a priori, die abweichend von natürlichsprachlichen Vorbildern entworfen wurde (da schreibe ich auch mal was zu). Die Untersuchung von Esperanto ist also genauso irreführend wie sinnlos. Es gibt noch eine Menge Punkte mehr, die ich ansprechen könnte, aber der Post ist eh schon zu lang. Glaubt nur Statistiken, die ihr selbst gefälscht habt. Oder denen, die ihr reproduzieren könnt.

Ja, da hat der Hermes aber wieder viel zu mosern, werdet ihr jetzt wohl sagen. Weshalb reicht er denn nicht einfach mal selbst was ein? Und ja, da habt ihr Recht. Ich werde nach dem Semester wohl mal einen Versuch wagen, meine P.III-Hypothese in einem englischsprachigen Magazin unterzubringen. Mit Daten und Experimenten. :)

_________________________________

1 [Montemurro MA, Zanette DH (2013): Keywords and Co-Occurrence Patterns in the Voynich Manuscript: An Information-Theoretic Analysis. PLoS ONE 8(6): e66344.]

2 [Diego R. Amancio, Eduardo G. Altmann, Diego Rybski, Osvaldo N. Oliveira Jr., Luciano da F. Costa: Probing the statistical properties of unknown texts: application to the Voynich Manuscript. arXiv:1303.0347]

* Noch eine wichtige nachträgliche Ergänzung eines Twitter-Kollegen, nebst meiner Antwort:

 

 

Quelle: http://texperimentales.hypotheses.org/939

Weiterlesen

Opuscula im RI-Opac – zugleich: Eine Zwischenbilanz nach einem halben Jahr

Schon vor einiger Zeit erreichte uns aus Mainz die mehr als erfreuliche Nachricht, dass unsere Beitragskategorie der Opuscula – gedacht als Wiedergeburt der Miszelle im Geist des Open Access – in die größte mediävistische Literaturdatenbank des deutschsprachigen Raums aufgenommen werden, den RI-Opac. Wir danken sehr herzlich Paul-Joachim Heinig und Dieter Rübsamen von den Regesta Imperii für ihre Offenheit und dieses für uns sehr wichtige Entgegenkommen.

Und tatsächlich: Nach dem letzten Update sind bereits die Beiträge unserer Autorinnen Evina Steinová, Anette Löffler und Christine Seidel im RI-Opac recherchierbar. Das ist zum einen eine Anerkennung der Qualität der Beiträge. Es bedeutet aber auch, dass die Opuscula auf mittelalter.hypotheses.org für die mediävistische Community sichtbar und zitierbar werden: Ein sicher nicht unwichtiger Faktor bei der Überlegung, ob es sich lohnt, elektronisch und dann gerade auf diesem Blog zu publizieren.

Ein halbes Jahr mittelalter.hypotheses.org

Zugleich ist es heute genau sechs Monate her, dass auf mittelalter.hypotheses.org der erste Beitrag gepostet wurde. Dies war bezeichnenderweise der Online-Rezensionsüberblick, den es ähnlich auch für die Frühe Neuzeit und die Ordensgeschichte gibt bzw. auch schon früher gab. Dabei handelt es sich vermutlich um die Beitragsform mit dem ausgeprägtesten Service-Charakter, die uns – v.a. Björn und Karoline – aber auch am meisten Arbeit macht. Umso erfreulicher ist es, dass wir bald vom Institut für Geschichte der TU-Darmstadt eine studentische Hilfskraft finanziert bekommen, die uns u.a. bei dieser mühseligen Arbeit unterstützen wird. Dafür danken wir sehr herzlich! Das Darmstädter Fachgebiet Mittelalter in Person von Gerrit J. Schenk hatte uns bereits beim Druck der Blog-Flyer unterstützt. Darin zeigt sich u.a., dass gerade an einer Technischen Universität das Mittelalter an der Spitze des Fortschritts marschieren kann.

Gut etabliert hat sich auch unsere Kategorie ‘1000 Worte Forschung‘, die in knapper Form laufende oder abgeschlossene Forschungsprojekte (bisher ausschließlich Dissertationen) aus verschiedenen mediävistischen Disziplinen vorstellt. Anders als etwa das Jahrbuch der historischen Forschung und die Promotio-Datenbank des Historikerverbandes bietet diese Kategorie nicht nur Titel oder ein sehr kurzes Abstract, sondern tatsächlich einen Einblick in Fragen und Ergebnisse der jeweiligen Projekte. Durch den Fokus auf mediävistische Themen ist eine epochenspezifische Wahrnehmung aktuelle Forschung sehr vereinfacht.

Wie steht es um unseren Anspruch auf Interdisziplinarität? Wir hatten neben Beiträgen aus der Geschichtswissenschaft auch solche aus der Nordistik, der Kunstgeschichte, der Archäologie und der Kodikologie. Allein die mediävistischen Philologien machen sich noch allzu rar. Überhaupt, wir möchten noch mehr Beiträge von der Mittelalterforschung außerhalb der Geschichtswissenschaft. Außerdem hatten wir einen Beitrag zur populären Mittelalterrezeption, auch dort wäre noch an mehr zu denken. Außerdem kommen unsere Beiträge wie unsere Leser keineswegs nur aus Deutschland, sondern auch aus den Niederlanden, Frankreich,  Großbritannien und den USA. Und auch bei den Zugriffszahlen, bzw. konkret den Unique Visitors zeigt sich eine klare Aufwärtsentwicklung: Von unter 1000 Besuchen in den ersten Monaten haben wir im Mai die Zahl von 2800 Besuchern erreicht und peilen für Juni auch bei konservativer Schätzung eine Zahl von über 3300 Unique Visitors an. Damit befinden wir uns mindestens unter den ersten 20 Prozent aller Websites auf der Plattform OpenEdition, auf der unter anderem alle hypotheses-Blogs beheimatet sind. Diese breite Rezeption erreichen wir nicht zuletzt durch massive Präsenz in sozialen Medien wie Twitter (aktuell 400 Follower), Facebook (aktuell 116″Gefällt mir”-Angaben), google+, Tumblr und academia.edu.

Alles in allem eine Halbjahresbilanz, mit der wir Redaktionsangehörige sehr zufrieden sind. Natürlich wünschen wir uns noch mehr Beiträge, gerade aus den bisher noch unterrepräsentierten Disziplinen. Vor allem aber möchten wir unseren Autorinnen und Autoren danken, ohne die dieses Blog sich nicht so erfreulich entwickeln würde. Und natürlich freuen wir uns über die gute Unterstützung durch de.hypotheses.org, die große Blog-Mutter. Ein Dankeschön auch nach Bonn und Paris!

Und wie schon beim ersten Aufruf gilt auch in Zukunft Thomas a Kempis: Cur quaeris quietem, cum natus sis ad laborem? Wobei es eben auch Mühen gibt, die zugleich Vergnügen bereiten.

Quelle: http://mittelalter.hypotheses.org/1617

Weiterlesen

Statistik: Trau keiner!

<tl;dr> Ich kann mit einfachsten Verfahren phantastische Ergebnisse erzielen – wenn ich diese nur richtig überprüfe. 

Nach langer Zeit, in der ich vor allem an Dingen gearbeitet habe, die zu geheim, noch nicht spruchreif genug oder einfach zu langweilig für einen Blogpost waren, habe ich in dieser Woche endlich wieder ein lohnendes Thema gefunden. Es geht mal wieder um Statistik, diesmal allerdings mit konkretem Bezug zu einem Projekt, an dem ich gerade arbeite, aber auch zum letzten Post, den ich über das Thema verfasst habe (den über die Facebook-Likes-Studie).

Zur Zeit läuft bei uns das Nachfolgeprojekt zur Digitalen Rätoromansichen Chrestomathie, bei dem vorhandene lexikalische Ressourcen für die Annotation von bündnerromanischen Sprachdaten eingebunden werden sollen. Ich wurde mit der Evaluation beauftragt, inwieweit sich morphosyntaktische Informationen (bei Verben etwa Tempus, Numerus etc.) aus flektierten Wortformen ablesen lassen, deren Stammform sich eventuell gar nicht im Lexikon befindet. Zur Verfügung stehen mir dafür Listen über mehrere tausend Verben, die auf acht verschiedene Konjugationsklassen aufgeteilt sind. Auf Basis dieser Information sollte ich jetzt eine Art Ratespiel entwickeln, das für möglichst viele Verben die richtige Konjugationsklasse ermittelt.

Jetzt kann man sich vielerlei ausdenken, wie man die zur Verfügung stehende Information nutzt – spielt der erste Vokal, die Endung des Verbes, evtl. sogar seine Länge eine Rolle dafür, wie es konjugiert wird? Mein erster Gedanke war, genau solche Merkmale für die vorsortierten Verben zu ermitteln, um damit ein Modell zu trainieren, welches mir unbekannte Verben klassifiziert.

Zunächst wollte ich aber eine vernünftige Baseline haben – welche Ergebnisse liefert ein Verfahren, das nicht eigens entwickelt werden muss, sondern das ich direkt anwenden kann? Dafür bot sich ein n-Gramm-Rang-Modell an, das auch eingesetzt wird, um bei kurzen Texten zu erraten, in welcher Sprache sie verfasst sind. Dabei werden für möglichst viele Sprachen die Buchstabenfolgen bestimmter Länge (n-Gramme – bei Bigrammen zwei Buchstaben, bei Trigrammen drei usw.) nach ihrer Häufigkeit in Trainingstexten sortiert. Man spricht hier auch davon, dass ein Modell für die Sprache gebaut wird (auch wenn das hier ein sehr einfaches Modell ist). Das gleiche wird dann für den zuzuordnenden Text gemacht. Schießlich werden die Ränge der n-Gramme aus dem Testtext mit den Rängen aller Sprachmodelle verglichen  - es gewinnt die Sprache, bei der der geringste Unterschied besteht, was auch erstaunlich gut funktioniert.

Dieses Verfahren habe ich nun auf mein Rateproblem bezogen. Dabei habe ich aus 90% der Verbformen in meinen Listen n-Gramm-Modelle für die acht Konjugationsklassen gebaut und versucht die restlichen 10% diesen Klassen zuzuordnen. Eigentlich hatte ich keine großen Erwartungen an das Verfahren, da mir die Daten als zu kurz (meist <12 Zeichen) und zu wenig (einige Klassen enthalten weniger als 100 Einträge) erschienen, um verwendbare Modelle zu bauen. Um statistisch valide zu arbeiten, habe ich die Daten der einzelnen Klassen gescrambelt und das Leave-One-Out-Kreuzvalidierungsverfahren eingesetzt.

Die Ergebnisse dieses einfachen Modells erstaunten mich dann doch, auch die Tatsache, dass sie umso besser wurden, je größer ich das n der n-Gramme werden ließ. Nach der Kreuzvalidierung lag bereits das Unigrammmodell (also einfaches Buchstabenzählen) in über 50% der Zuteilungen richtig, das Bigrammmodell in über 70%, das Trigrammmodell in über 75%, ab dem Tetragrammmodell pendelt sich der Wert bei über 80% ein (der Erwartungswert wäre jeweils 12,5% gewesen). Ich konnte die Ergebnisse noch verbessern, indem ich die Daten vorsortierte:  Jeweils zwei der Klassen enden ihre Infinitivform auf -er bzw. -ir; drei der Klassen auf -ar. Wenn ich etwa für -er-Verben nur die betreffenden Klassen zur Auswahl stelle (also ausgehend von einem Erwartungswert 50%), habe ich bereits bei Trigrammen eine fast perfekte Zuordnung (99%), die dann ab Tetragrammen tatsächlich perfekt ist (100%). Bei -ar-Verben gilt das leider nicht in dem Umfang – mehr als 79% richtige Zuordnungen habe ich dabei nicht erreicht (Erwartungswert 33%). Naja, es sollte ja sowieso nur eine Baseline für ein elaborierteres Modell sein.

An dem Punkt erinnerte ich mich aber an die Studie, die behauptete, aus Facebook-Likes von Personen deren sexuelle Orientierung und noch einiges mehr ermitteln zu können. So sollten bspw. Personen mit homosexueller Orientierung vom System mit 88%iger Sicherheit erkannt werden. Allerdings wurde das in meinen Augen über eine etwas seltsame Methode evaluiert (ich schrieb drüber) – nämlich indem dem Algorithmus je eine Person mit homo- bzw. heterosexueller Orientierung präsentiert wurde und der dann nur noch entscheiden musste, welche Person zu welcher Gruppe gehört.

Ich habe jetzt diese Evaluation auch mal bei mir eingebaut, also jeweils Pärchen von Verben aus unterschiedlichen Klassen auf genau diese Klassen verteilen lassen. Auf einmal hatte ich jetzt nicht mehr knapp 80%, sondern über 99,9% Erfolgsquote bei der Zuteilung (33.748.628 korrekte Zuteilungen stehen 22722 falsche gegenüber). Aber halt – in der Facebook-Studie waren, wenn ich das richtig sehe, noch nicht einmal Trainings- und Testdaten getrennt (d.h. das Modell wurde mit den gleichen Daten trainiert, die hernach klassifiziert werden sollten). Dann hab ich mir die Kreuzvalidierung auch mal gespart – das Ergebnis: 3.377.132 richtige Zuteilungen, 3 falsche. Erfolgsquote 99,9999%. Dass diese Zahl so gut wie nichts mit Real-World-Anwendungen zu tun hat – geschenkt. Ich sollte wohl wirklich mal meine Skepsis zu fadenscheinigen Vorgehensweisen bei der Verwendung von Evaluationsmaßen über Bord werfen und  ein paar Papers schreiben.

Quelle: http://texperimentales.hypotheses.org/911

Weiterlesen

Zahlen lügen wieder – Die Studie zu Facebook-Likes und Persönlichkeit

Wahrscheinlich ist inzwischen fast jede|r über die von Microsoft Research unterstützte Studie zu Facebook-Likes und Persönlichkeitsstruktur gestolpert. Sie ist bei PNAS Open Access erschienen, so dass sich jede|r ihr|sein eigenes Bild machen kann. Kollege Lars Fischer von den Scilogs hat das Ganze dankenswerterweise mal aufgegriffen, ich habe mich ein wenig in den Kommentaren vergangen und schließlich beschlossen, mich hier etwas länger auszulassen. Wenn ich mich nicht irre, gibt es nämlich Erstaunliches zu berichten. Ich habe ja schon öfter hier zur Statistik geschrieben und dabei auch erwähnt, dass ich keine wirkliche Ausbildung auf dem Gebiet genossen habe, sondern allenfalls eine gefährliche Mischung aus Bauchgefühl und angelesenem Halbwissen zum besten geben kann. Ich lasse mich also gerne verbessern.

Zunächst zu den Ergebnissen – die Studie behauptet z.B. zwischen Homo- und Heterosexuellen Männern zu 88% richtig zu diskriminieren (“The model correctly discriminates between homosexual and heterosexual men in 88% of cases”). Da es mehr als zwei Spielarten der sexuellen Orientierung gibt, die Autoren aber ein binäres Merkmal (also +/-) haben wollen, vereinfachen sie so, dass jeder Mann, der nicht ausschließlich Männer als mögliche Sexualpartner angegeben hat, das heterosexuelle Merkmal trägt. Was aber bedeuten die 88%? Lars meinte (durchaus nachvollziehbar, das dürften die meisten so interpretieren, hier z.B. auch die Zeit), der Algorithmus läge in 88% der Fälle richtig, d.h. von 100 Homosexuellen erkennt er 88 als homosexuell, 88 von 100 Heterosexuellen als heterosexuell. Wenn jetzt das Verhältnis sehr unwuchtig wird (d.h. eine Gruppe im Vergleich zur anderen sehr klein wird), bekommt man verhältnismäßig viele falsche Zuordnungen (falsch positive) in der kleineren Gruppe. Genau das habe ich in meinem Weihnachtsblogpost anhand eines anderen Beispiels thematisiert.

Schaut man in die Studie, so geben dort 4,3% der Männer an, sie seien homosexuell veranlagt. Insofern hätte ich einen guten Algorithmus an der Hand, der 95,7% der Probanden richtig zuordnet – indem nämlich alle als heterosexuell eingeordnet werden.

Ganz so einfach ist es dann doch nicht – die 88% sind nämlich (sorry, ich drück mich ums Übersetzen) “the prediction accurancy of dichotomous variables expressed in terms of the area under the receiver-operating characteristic curve (AUC)”. Puh, Integralrechnung, denkt sich der Kenner, alle anderen lesen den anschließenden Halbsatz “which is equivalent to the probability of correctly classifying two randomly selected users one from each class (e.g., male and female).” Übertragen auf unser Beispiel: Man nehme zwei Individuen, eines, das sich das homosexuelle, eines, das das heterosexuelle Merkmal gegeben hat. Der Algorithmus, basierend auf vergebenen Facebook-Likes (mit einer mehr oder weniger aufwändigen Hauptkomponentenanalyse dahinter), ordnet einem der Individuen das homosexuelle, dem anderen das heterosexuelle Merkmal zu.

Und da frag ich mich jetzt, ob das Ergebnis besonders gut oder zumindest aussagekräftig ist. Betrachten wir zuerst die Baseline: Die Wahrscheinlichkeit, völlig uninformiert richtig zu liegen, beträgt 50%. Offenbar leistet der Algorithmus also gute Arbeit, 88% sind ja ne ganze Stange mehr richtige Vorhersagen, von 100 Paaren werden nur 12 falsch zugeordnet. Aber was hat man davon? Wann in der Welt hat man es denn mit einem Personenpaar zu tun, von dem man weiß, dass nur eine Person ein Merkmal trägt (also z.B. heterosexuell ist), die andere aber auf keinen Fall. Und beauftragt dann einen Algorithmus, der mehr oder weniger sicher herausfindet, welche die Merkmalsperson ist? Also, der Messwert scheint zwar in Ordnung zu sein, sagt uns aber nichts darüber, in wie vielen Fällen der Algorithmus richtig läge, würde ihm nur ein Individuum präsentiert. Die Zahl wäre aber die Interessante gewesen (bzw. derer vier: Anzahl der richtig positiven, der falsch positiven, der falsch negativen und der richtig negativen). Kann sich jetzt jede|r selbst zusammenreimen, weshalb die Autoren sie nicht angeben.

So bin ich lediglich erstaunt darüber, wie eine Studie, die eine sehr eingeschränkte Aussage trifft, auf so große Resonanz stößt. Es gibt auch noch ein paar weitere Dinge zu bemängeln, etwa, dass offenbar direkt auf den Trainingsdaten klassifiziert wurde, statt Testdaten dafür zu erheben. Das würde in keiner Studie zur Sprachverarbeitung so durchgehen. Aber irgendwas scheint hier anders zu funktionieren.

Not facebook not like thumbs down

By Enoc vt (File:Botón Me gusta.svg) [Public domain or CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/841

Weiterlesen