Zahlen lügen wieder – Die Studie zu Facebook-Likes und Persönlichkeit

Wahrscheinlich ist inzwischen fast jede|r über die von Microsoft Research unterstützte Studie zu Facebook-Likes und Persönlichkeitsstruktur gestolpert. Sie ist bei PNAS Open Access erschienen, so dass sich jede|r ihr|sein eigenes Bild machen kann. Kollege Lars Fischer von den Scilogs hat das Ganze dankenswerterweise mal aufgegriffen, ich habe mich ein wenig in den Kommentaren vergangen und schließlich beschlossen, mich hier etwas länger auszulassen. Wenn ich mich nicht irre, gibt es nämlich Erstaunliches zu berichten. Ich habe ja schon öfter hier zur Statistik geschrieben und dabei auch erwähnt, dass ich keine wirkliche Ausbildung auf dem Gebiet genossen habe, sondern allenfalls eine gefährliche Mischung aus Bauchgefühl und angelesenem Halbwissen zum besten geben kann. Ich lasse mich also gerne verbessern.

Zunächst zu den Ergebnissen – die Studie behauptet z.B. zwischen Homo- und Heterosexuellen Männern zu 88% richtig zu diskriminieren (“The model correctly discriminates between homosexual and heterosexual men in 88% of cases”). Da es mehr als zwei Spielarten der sexuellen Orientierung gibt, die Autoren aber ein binäres Merkmal (also +/-) haben wollen, vereinfachen sie so, dass jeder Mann, der nicht ausschließlich Männer als mögliche Sexualpartner angegeben hat, das heterosexuelle Merkmal trägt. Was aber bedeuten die 88%? Lars meinte (durchaus nachvollziehbar, das dürften die meisten so interpretieren, hier z.B. auch die Zeit), der Algorithmus läge in 88% der Fälle richtig, d.h. von 100 Homosexuellen erkennt er 88 als homosexuell, 88 von 100 Heterosexuellen als heterosexuell. Wenn jetzt das Verhältnis sehr unwuchtig wird (d.h. eine Gruppe im Vergleich zur anderen sehr klein wird), bekommt man verhältnismäßig viele falsche Zuordnungen (falsch positive) in der kleineren Gruppe. Genau das habe ich in meinem Weihnachtsblogpost anhand eines anderen Beispiels thematisiert.

Schaut man in die Studie, so geben dort 4,3% der Männer an, sie seien homosexuell veranlagt. Insofern hätte ich einen guten Algorithmus an der Hand, der 95,7% der Probanden richtig zuordnet – indem nämlich alle als heterosexuell eingeordnet werden.

Ganz so einfach ist es dann doch nicht – die 88% sind nämlich (sorry, ich drück mich ums Übersetzen) “the prediction accurancy of dichotomous variables expressed in terms of the area under the receiver-operating characteristic curve (AUC)”. Puh, Integralrechnung, denkt sich der Kenner, alle anderen lesen den anschließenden Halbsatz “which is equivalent to the probability of correctly classifying two randomly selected users one from each class (e.g., male and female).” Übertragen auf unser Beispiel: Man nehme zwei Individuen, eines, das sich das homosexuelle, eines, das das heterosexuelle Merkmal gegeben hat. Der Algorithmus, basierend auf vergebenen Facebook-Likes (mit einer mehr oder weniger aufwändigen Hauptkomponentenanalyse dahinter), ordnet einem der Individuen das homosexuelle, dem anderen das heterosexuelle Merkmal zu.

Und da frag ich mich jetzt, ob das Ergebnis besonders gut oder zumindest aussagekräftig ist. Betrachten wir zuerst die Baseline: Die Wahrscheinlichkeit, völlig uninformiert richtig zu liegen, beträgt 50%. Offenbar leistet der Algorithmus also gute Arbeit, 88% sind ja ne ganze Stange mehr richtige Vorhersagen, von 100 Paaren werden nur 12 falsch zugeordnet. Aber was hat man davon? Wann in der Welt hat man es denn mit einem Personenpaar zu tun, von dem man weiß, dass nur eine Person ein Merkmal trägt (also z.B. heterosexuell ist), die andere aber auf keinen Fall. Und beauftragt dann einen Algorithmus, der mehr oder weniger sicher herausfindet, welche die Merkmalsperson ist? Also, der Messwert scheint zwar in Ordnung zu sein, sagt uns aber nichts darüber, in wie vielen Fällen der Algorithmus richtig läge, würde ihm nur ein Individuum präsentiert. Die Zahl wäre aber die Interessante gewesen (bzw. derer vier: Anzahl der richtig positiven, der falsch positiven, der falsch negativen und der richtig negativen). Kann sich jetzt jede|r selbst zusammenreimen, weshalb die Autoren sie nicht angeben.

So bin ich lediglich erstaunt darüber, wie eine Studie, die eine sehr eingeschränkte Aussage trifft, auf so große Resonanz stößt. Es gibt auch noch ein paar weitere Dinge zu bemängeln, etwa, dass offenbar direkt auf den Trainingsdaten klassifiziert wurde, statt Testdaten dafür zu erheben. Das würde in keiner Studie zur Sprachverarbeitung so durchgehen. Aber irgendwas scheint hier anders zu funktionieren.

Not facebook not like thumbs down

By Enoc vt (File:Botón Me gusta.svg) [Public domain or CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/841

Weiterlesen