Zur Abwechslung unternehme ich heute mal einen Ausflug in die Statistik. Ein Anlass dafür ist eine Diskussion auf Twitter, die ich kurz vor meinem Urlaub geführt habe (s.u.), ein anderer der, dass ich manchmal eine große Diskrepanz wahrnehme, zwischen der Rolle, die statistische Aussagen inzwischen in fast sämtlichen Forschungsbereichen spielen und dem Unverständnis, das dem Gebiet von weiten Teilen der Bevölkerung (darunter auch viele Wissenschaftler, die es eigentlich besser wissen müssten) entgegengebracht wird. Falsch angewendete quantitative Verfahren sind vielleicht auch mit ein Grund für Rants wie diesen, in dem statistischen Aussagen die potentielle Erklärkraft für die Geistes- und Sozialwissenschaften abgesprochen wird.
So tief will ich jetzt gar nicht in die Diskussion einsteigen (vielleicht mal in einem eigenen Post, der zoonpoliticon von den ScilogsenceBlogs ist auch schon darauf eingegangen). Vielmehr beschäftige ich mich mal mit dem geflügelten Wort, dass man Äpfel nicht mit Birnen vergleichen kann. Was ist, wenn man tatsächlich vor einem Problem steht, genau dies tun zu müssen? Wenn ich z.B. aus einer Sammlung von 50 Äpfeln und 33 Birnen, 10 Früchte auswählen darf und ich genau die besten Früchte erwischen will? Gibt es da nicht eine Methode, die mir die 10 besten Früchte ermittelt?
Nun ja, dazu benötigt man erst einmal ein Merkmal, das eine gute Frucht von schlechteren unterscheidet. Das ist in der Realität wahrscheinlich schlecht zu ermitteln, da dies hier ja nur ein Blogbeitrag ist (der mit der Realität also herzlich wenig zu tun hat) kann ich mir einfach ein solches Merkmal ausdenken. Möglich wäre z.B. ein schön ausgewogenes Verhältnis zwischen Fruchtumfang und Höhe. Oder eine besonders rothaltige Farbe. Oder eben ein möglichst hoher Fruchtzuckergehalt (abgekürzt FZG). Der Chefkoch auf der gleichnamigen Webseite (das ist die erste die meine Suchmaschine zu „Frauchtzuckergehalt Apfel Birne“ ausspuckte) behauptet, dass der durchschnittliche FZG von Äpfeln bei 5,7g/100g Frucht liegt, der von Birnen bei 6,7g/100g. Auf dieser Basis habe ich mir eine Verteilung für 50 Äpfel und 33 Birnen ausgedacht, die in folgender Abbildung visualisiert ist (x-Achse: FZG in mg/100g, y-Achse Anzahl der Früchte):
Ich habe hier ein wenig gepfuscht – der FZG-Gehalt wird wohl nicht durch eine stetige Variable dargestellt, sondern durch eine kontinuierliche. Um ein schönes Balkendiagramm hinzubekommen, musste ich die Werte also in Klassen einteilen. Beschriftet ist jeweils die Klassenmitte – unter 6000 finden sich also alle Früchte mit einem 5750 < FZG < 6249. Wenn ich mir jetzt einfach die Früchte mit dem höchsten FZG greife, dann bekomme ich ne Menge Birnen und nur wenige Äpfel, das liegt an der Natur, die Birnen mit mehr Süße ausgestattet hat (oder an den Züchtern, die genau dies forciert haben). Wenn ich aber irgendwie nur besonders (im Vergleich zu anderen) gute Birnen und besonders (in Vergleich zu anderen) gute Äpfel haben möchte, muss ich mir irgendwas überlegen, wie ich vergleichbare Werte bekomme.
Tatsächlich gibt es einen statistischen Kniff, den ich genau dafür anwenden kann – die sogenannte z-Transformation. Die funktioniert eigentlich ganz einfach – ich muss lediglich vom FZG jeder Frucht den FZG-Mittelwert abziehen und das Ergebnis durch die FZG-Standardabweichung teilen. Wenn ich verschiedene Populationen (hier z.B. Äpfel und Birnen) habe, dann errechne ich für jede den Mittelwert und die Standardabweichung getrennt. Am Ende habe ich dann vergleichbare Werte. Einfach, oder?
Vielleicht sollte ich noch kurz eine kleine Erläuterung zu den beiden Werten einstreuen. Der Begriff „Mittelwert“ (MW, Definition hier) sollte eigentlich jedem klar sein – es ist einfach der Durchschnitt über alle Einzelwerte. Für Äpfel ergibt sich im obigen Beispiel der MW 5500mg/100g Frucht, für Birnen der MW 6470. Der Begriff „Standardabweichung“ (SD, Definition hier) ist vielleicht nicht so geläufig. Er beschreibt die Streuung von Werten – hat eine Verteilung eine niedrige SD, so gruppieren sich die Werte enger um den MW, als bei Verteilung, die eine hohe SD haben – für das obige Beispiel habe ich die SDs 775 (für Äpfel) und 521 (für Birnen) ermittelt – Birnen haben durchschnittlich also einen höheren FZG, streuen aber weniger als Äpfel (d.h. ihre FZG-Verteilung ist homogener).
Was erreicht man jetzt genau damit, dass man von den ursprünglichen FZG-Werten den Mittelwert abzieht und dann das Ergebnis durch die Standardabweichung teilt? Man harmonisiert beide Verteilungen – beide haben fortan ihren MW bei 0 und auch ihre Streuung ist vergleichbar geworden (wenn Werte vorher zwischen -1000 und 1000 gestreut haben und die SD bei 500 lag, streuen sie jetzt zwischen -2 und 2. Gleiches gilt für Werte, die vorher zwischen -1 und 1 gestreut haben bei einer SD von 0,5). Für unser Beispiel ergibt sich nach der z-Tansformation folgendes Bild (und ja, ich habe aus Darstellungsgründen wieder unerlaubt klassifiziert und gerundet):
Man sieht direkt, dass die beiden Verteilungen jetzt voreinander liegen und ich nun wesentlicht mehr Äpfel als Birnen erhalte, wenn ich die Früchte auf der rechten Seite der Grafik (das sind die mit dem verhältnismäßig hohen Fruchtzuckergehalt) abgreife. Das liegt nun daran, dass die Apfel-Population auch ursprünglich größer war als die der Birnen. Man merke sich: Wenn beide Populationen hinsichtlich des gewählten Merkmals normalverteilt sind, dann entspricht das Verhältnis der Ergebnismenge im ungefähren dem der Ausgangsmengen.
Natürlich ist das ein an den Haaren herbeigezogenes Beispiel – niemand kommt auf die Idee, von jeder Frucht, die er/sie im Supermarkt auswählt, erstmal den Fruchtzucker zu messen. Allerdings wird genau dieses Verfahren von der Universität Wien angewendet, um ihre Medizinstudienplätze zu vergeben. Auf Twitter bat der @Fatmike182 darum, ob ihm jemand das z-Transformationsverfahren erklären könnte, was ich dann (auf Twitter kurz, hier länger) auch versucht habe. Später ging es dann auch noch darum, ob das Verfahren gerecht oder doch sexistisch ist. Schwierige Frage, ich halte es nicht unbedingt für gerecht – erstens sehe ich nicht ganz ein, weshalb man Männer und Frauen in unterschiedliche Populationen einteilt und damit für beide unterschiedliche SDs und MWs errechnet. Ja, es mag sein, dass Mädchen durch das (hier: österreichische) Schulsystem benachteiligt werden, so dass ihre Ergebnisse beim Eignungstest unter dem der (österr.) Buben liegen. Dann sollte man aber meiner Meinung nach an dem Punkt einhaken, wo diese Ungleichheit entsteht, nicht da, wo sie sich auswirkt. Zweitens ist ein solches Verfahren manipulierbar – man muss nur ne Menge Leute eines bestimmten Geschlechts überzeugen, auch (aber bitte erfolglos) beim Test mitzumachen, um die geschlechtsspezifischen Bewerberquoten zu erhöhen. Das hat dann zur Folge, dass die gleichgeschlechtlichen Bewerber ihre Chancen auf einen Studienplatz erhöhen.
Der @Fatmike182 hatte noch eingewendet, dass man sich die Rechnerei sparen könnte, wenn man einfach vorher festlegt, in welcher Zahl man Frauen und Männer ins Studium aufnimmt. Für normalverteilte Daten hat er da tatsächlich recht, allerdings kann es ja tatsächlich auch zu einer Verteilung wie dieser kommen: Nach der z-Transformation bleibt der kleine Hügel rechts in der Verteilung so bestehen. Um sicherzugehen, dass man überdurchschnittlich gute Bewerber/Äpfel auch tatsächlich berücksichtigt, kommt man also an ein wenig Rechnerei nicht vorbei.