Wie man Äpfel mit Birnen vergleicht

Zur Abwechslung unternehme ich heute mal einen Ausflug in die Statistik. Ein Anlass dafür ist eine Diskussion auf Twitter, die ich kurz vor meinem Urlaub geführt habe (s.u.), ein anderer der, dass ich manchmal eine große Diskrepanz wahrnehme, zwischen der Rolle, die statistische Aussagen inzwischen in fast sämtlichen Forschungsbereichen spielen und dem Unverständnis, das dem Gebiet von weiten Teilen der Bevölkerung (darunter auch viele Wissenschaftler, die es eigentlich besser wissen müssten) entgegengebracht wird. Falsch angewendete quantitative Verfahren sind vielleicht auch mit ein Grund für Rants wie diesen, in dem statistischen Aussagen die potentielle Erklärkraft für die Geistes- und Sozialwissenschaften abgesprochen wird.

So tief will ich jetzt gar nicht in die Diskussion einsteigen (vielleicht mal in einem eigenen Post, der zoonpoliticon von den ScilogsenceBlogs ist auch schon darauf eingegangen). Vielmehr beschäftige ich mich mal mit dem geflügelten Wort, dass man Äpfel nicht mit Birnen vergleichen kann. Was ist, wenn man tatsächlich vor einem Problem steht, genau dies tun zu müssen? Wenn ich z.B. aus einer Sammlung von 50 Äpfeln und 33 Birnen, 10 Früchte auswählen darf und ich genau die besten Früchte erwischen will? Gibt es da nicht eine Methode, die mir die 10 besten Früchte ermittelt?

Nun ja, dazu benötigt man erst einmal ein Merkmal, das eine gute Frucht von schlechteren unterscheidet. Das ist in der Realität wahrscheinlich schlecht zu ermitteln, da dies hier ja nur ein Blogbeitrag ist (der mit der Realität also herzlich wenig zu tun hat) kann ich mir einfach ein solches Merkmal ausdenken. Möglich wäre z.B. ein schön ausgewogenes Verhältnis zwischen Fruchtumfang und Höhe. Oder eine besonders rothaltige Farbe. Oder eben ein möglichst hoher Fruchtzuckergehalt (abgekürzt FZG). Der Chefkoch auf der gleichnamigen Webseite (das ist die erste die meine Suchmaschine zu „Frauchtzuckergehalt Apfel Birne“ ausspuckte) behauptet, dass der durchschnittliche FZG von Äpfeln bei 5,7g/100g Frucht liegt, der von Birnen bei 6,7g/100g. Auf dieser Basis habe ich mir eine Verteilung für 50 Äpfel und 33 Birnen ausgedacht, die in folgender Abbildung visualisiert ist (x-Achse: FZG in mg/100g, y-Achse Anzahl der Früchte):
Ich habe hier ein wenig gepfuscht – der FZG-Gehalt wird wohl nicht durch eine stetige Variable dargestellt, sondern durch eine kontinuierliche. Um ein schönes Balkendiagramm hinzubekommen, musste ich die Werte also in Klassen einteilen. Beschriftet ist jeweils die Klassenmitte – unter 6000 finden sich also alle Früchte mit einem 5750 < FZG < 6249. Wenn ich mir jetzt einfach die Früchte mit dem höchsten FZG greife, dann bekomme ich ne Menge Birnen und nur wenige Äpfel, das liegt an der Natur, die Birnen mit mehr Süße ausgestattet hat (oder an den Züchtern, die genau dies forciert haben). Wenn ich aber irgendwie nur besonders (im Vergleich zu anderen) gute Birnen und besonders (in Vergleich zu anderen) gute Äpfel haben möchte, muss ich mir irgendwas überlegen, wie ich vergleichbare Werte bekomme.

Tatsächlich gibt es einen statistischen Kniff, den ich genau dafür anwenden kann – die sogenannte z-Transformation. Die funktioniert eigentlich ganz einfach – ich muss lediglich vom FZG jeder Frucht den FZG-Mittelwert abziehen und das Ergebnis durch die FZG-Standardabweichung teilen. Wenn ich verschiedene Populationen (hier z.B. Äpfel und Birnen) habe, dann errechne ich für jede den Mittelwert und die Standardabweichung getrennt. Am Ende habe ich dann vergleichbare Werte. Einfach, oder?

Vielleicht sollte ich noch kurz eine kleine Erläuterung zu den beiden Werten einstreuen. Der Begriff „Mittelwert“ (MW, Definition hier) sollte eigentlich jedem klar sein – es ist einfach der Durchschnitt über alle Einzelwerte. Für Äpfel ergibt sich im obigen Beispiel der MW 5500mg/100g Frucht, für Birnen der MW 6470. Der Begriff „Standardabweichung“ (SD, Definition hier) ist vielleicht nicht so geläufig. Er beschreibt die Streuung von Werten – hat eine Verteilung eine niedrige SD, so gruppieren sich die Werte enger um den MW, als bei Verteilung, die eine hohe SD haben – für das obige Beispiel habe ich die SDs 775 (für Äpfel) und 521 (für Birnen) ermittelt – Birnen haben durchschnittlich also einen höheren FZG, streuen aber weniger als Äpfel (d.h. ihre FZG-Verteilung ist homogener).

Was erreicht man jetzt genau damit, dass man von den ursprünglichen FZG-Werten den Mittelwert abzieht und dann das Ergebnis durch die Standardabweichung teilt? Man harmonisiert beide Verteilungen – beide haben fortan ihren MW bei 0 und auch ihre Streuung ist vergleichbar geworden (wenn Werte vorher zwischen -1000 und 1000 gestreut haben und die SD bei 500 lag, streuen sie jetzt zwischen -2 und 2. Gleiches gilt für Werte, die vorher zwischen -1 und 1 gestreut haben bei einer SD von 0,5). Für unser Beispiel ergibt sich nach der z-Tansformation folgendes Bild (und ja, ich habe aus Darstellungsgründen wieder unerlaubt klassifiziert und gerundet):

Man sieht direkt, dass die beiden Verteilungen jetzt voreinander liegen und ich nun wesentlicht mehr Äpfel als Birnen erhalte, wenn ich die Früchte auf der rechten Seite der Grafik (das sind die mit dem verhältnismäßig hohen Fruchtzuckergehalt) abgreife. Das liegt nun daran, dass die Apfel-Population auch ursprünglich größer war als die der Birnen. Man merke sich: Wenn beide Populationen hinsichtlich des gewählten Merkmals normalverteilt sind, dann entspricht das Verhältnis der Ergebnismenge im ungefähren dem der Ausgangsmengen.

Natürlich ist das ein an den Haaren herbeigezogenes Beispiel – niemand kommt auf die Idee, von jeder Frucht, die er/sie im Supermarkt auswählt, erstmal den Fruchtzucker zu messen. Allerdings wird genau dieses Verfahren von der Universität Wien angewendet, um ihre Medizinstudienplätze zu vergeben. Auf Twitter bat der @Fatmike182 darum, ob ihm jemand das z-Transformationsverfahren erklären könnte, was ich dann (auf Twitter kurz, hier länger) auch versucht habe. Später ging es dann auch noch darum, ob das Verfahren gerecht oder doch sexistisch ist. Schwierige Frage, ich halte es nicht unbedingt für gerecht – erstens sehe ich nicht ganz ein, weshalb man Männer und Frauen in unterschiedliche Populationen einteilt und damit für beide unterschiedliche SDs und MWs errechnet. Ja, es mag sein, dass Mädchen durch das (hier: österreichische) Schulsystem benachteiligt werden, so dass ihre Ergebnisse beim Eignungstest unter dem der (österr.) Buben liegen. Dann sollte man aber meiner Meinung nach an dem Punkt einhaken, wo diese Ungleichheit entsteht, nicht da, wo sie sich auswirkt. Zweitens ist ein solches Verfahren manipulierbar – man muss nur ne Menge Leute eines bestimmten Geschlechts überzeugen, auch (aber bitte erfolglos) beim  Test mitzumachen, um die geschlechtsspezifischen Bewerberquoten zu erhöhen. Das hat dann zur Folge, dass die gleichgeschlechtlichen Bewerber ihre Chancen auf einen Studienplatz erhöhen.

Der @Fatmike182 hatte noch eingewendet, dass man sich die Rechnerei sparen könnte, wenn man einfach vorher festlegt, in welcher Zahl man Frauen und Männer ins Studium aufnimmt. Für normalverteilte Daten hat er da tatsächlich recht, allerdings kann es ja tatsächlich auch  zu einer Verteilung wie dieser kommen: Nach der z-Transformation bleibt der kleine Hügel rechts in der Verteilung so bestehen. Um sicherzugehen, dass man überdurchschnittlich gute Bewerber/Äpfel auch tatsächlich berücksichtigt, kommt man also an ein wenig Rechnerei nicht vorbei.

Quelle: http://texperimentales.hypotheses.org/406

Weiterlesen

aussichten Nr. 24 [30.04.2012]: Neue Einträge bei aussichten-online.net; Digest 01.04.2012-30.04.2012

Hans Rosling’s Joy of Stats: New insights on poverty http://www.aussichten-online.net/2012/04/2602 http://www.ted.com/talks/hans_rosling_reveals_new_insights_on_poverty.html Hans Rosling nutzt seine modernen Darstellungsmethoden von Statistiken, um aufzuzeigen, wie Länder sich selbst aus der Armut herausentwickelten. Er stellt das Verhältnis des Pro-Kopf-Einkommens zur Kindersterblichkeit in animierten Grafiken dar und unternimmt hierbei auch eine Projektion in die Zukunft. .................................................. 5. Juni 1858: Tsunami [...]

Quelle: http://www.einsichten-online.de/2012/04/2732/

Weiterlesen

aussichten Nr. 20 [22.12.2011]: Neue Einträge bei aussichten-online.net; Digest 01.12.-22.12.2011

aventinum. Fachnotizen der Studentischen Publikationsplattform Geschichte http://www.aussichten-online.net/2011/12/2408/ http://www.aventinus-online.de/news/notizenarchiv Seit nunmehr über einem Jahr ist "aventinus. Studentische Publikationsplattform Geschichte" am Netz und kann dabei auf eine mehr als fünfjährige Geschichte zurückblicken. Hierbei war es stets das erklärte Ziel von aventinus, neben studentischen Forschungsergebnissen auch Angebote für Studierende zu bewerben. Diese im Bereich "Notizen" erscheinenden Mitteilungen werden [...]

Quelle: http://www.einsichten-online.de/2011/12/2212/

Weiterlesen

Der 23.000ste Zugriff. Ein paar Worte zur Blogstatistik.

Ich glaube, das ist gerade mal ein guter Zeitpunkt, um ein paar Zahlen zu diesem Blog zu publizieren. Denn:

  1. war der letzte Monat von den Zugriffszahlen her (1.264) der bislang erfolgreichste und
  2. verzeichnete das Blog den 23.000 sten Zugriff seit Mai/Juni 2009.

Man kann sagen, Kritische Geschichte hat im Schnitt so 200 bis 300 Zugriffe die Woche. Solche Statistiken sind freilich mit Vorsicht zu lesen: Allein über den Anti-Spam-Service Akismet wurden bislang 2.600 Spamkommentare weggefiltert, die meines Wissens ja auch als Zugriffe zählen.

Den Ausschlag für die vielen Zugriffe im November 2011 gab nicht zuletzt der Beitrag über den Eichmann-Prozess auf YouTube, der auf Facebook öfters geteilt wurde. Auch der Beitrag über den bayerischen Historiker Karl Bosl und die Frage nach einer nicht-eurozentrischen Kapitalismuskritik haben ihr Publikum gefunden. Es werden aber auch viele Artikel aufgerufen, die schon lange von der Startseite verschwunden sind. Das zeigen die 15 meistgeklickten Artikel dieses Blogs:

Statistik zum Vergrößern anklicken

Statistik zum Vergrößern anklicken

Mich freut beim Anblick solcher Zahlen, dass Kritische Geschichte eine einigermaßen breite Themenpallette anbietet, die auch in dieser Breite wahrgenommen wird. Natürlich fehlt vieles, aber wir machen eben nicht nur Postkolonialismus, Faschismus oder Arbeiterbewegung. Das würde uns sicher eine konstantere und größere Leserschaft sichern, aber wir würden gleichzeitig eine verbreitete Themenbeschränkung zementieren, die ich schon geschichtspolitisch für viel zu eng halte.

Aber lassen wir die Kirche im Dorf. Die Zahlen sind OK, nicht berauschend. Das Blog Kritische Geschichte macht ganz klar ein Nischenprogramm, schon weil es sich gewissermaßen am Rand der akademischen Fachdisziplin bewegt. Aber den Vergleich mit vielen Printpublikationen muss es nicht scheuen. Warum beispielsweise Rezensionen überhaupt noch gedruckt werden, verstehe ich persönlich immer weniger. Über Weblogs ist diese Arbeit viel effektiver, schneller und zielgenauer zu erledigen. Und man kriegt Feedback. Außerdem werden die Inhalte im Web gut gefunden.

Sicher, man könnte die Reichweite dieses Blogs noch deutlich ausbauen. In Blogrankings bewegt sich Kritische Geschichte weit hinter Archivalia oder Adresscomptoir, was aus meiner Sicht damit zu tun hat, dass diese beiden Beispiele schon durch ihre vielen Hinweise auf neue Webinhalte einen wesentlich höheren Nachrichtenwert besitzen und damit ihre Leserinnen und Leser enger binden.
Eine Möglichkeit wäre, noch interessantere, konfliktreiche und tagesaktuellere Themen zu posten. Oder man bringt sich stärker in laufende Debatten auf anderen Blogs ein. Das würde nicht nur inhaltlich mehr Leben in die Bude bringen. Aber Asche aufs Haupt, das ist leider keine Interessens-, sondern eine ganz simple Zeitfrage.  Dennoch, es geht voran :-)


Einsortiert unter:Website

Quelle: https://kritischegeschichte.wordpress.com/2011/12/04/der-23-000ste-zugriff-ein-paar-worte-zur-blogstatistik/

Weiterlesen

Data Driven Date Prediction?

Die Datierung historischer Dokumente und Texte gehört zu einem der wichtigsten Aufgaben der archivischen und historischen Tätigkeit. Die historischen Hilfswissenschaften stellen dazu auch ein breites Set von Verfahren und Herangehensweisen zur Verfügung. Wie das geht, hat wohl ausnahmslos jeder angehende Historiker, jede angehende Historikerin bei Ahasver von Brandt einmal gelesen. Was aber der gute Herr [...]

Quelle: http://weblog.hist.net/archives/5248

Weiterlesen