Jürgen Hermes – Seite 10

Statistik: Trau keiner!

21. Juni 2013 Keine Kommentare

<tl;dr> Ich kann mit einfachsten Verfahren phantastische Ergebnisse erzielen – wenn ich diese nur richtig überprüfe.

Nach langer Zeit, in der ich vor allem an Dingen gearbeitet habe, die zu geheim, noch nicht spruchreif genug oder einfach zu langweilig für einen Blogpost waren, habe ich in dieser Woche endlich wieder ein lohnendes Thema gefunden. Es geht mal wieder um Statistik, diesmal allerdings mit konkretem Bezug zu einem Projekt, an dem ich gerade arbeite, aber auch zum letzten Post, den ich über das Thema verfasst habe (den über die Facebook-Likes-Studie).

Zur Zeit läuft bei uns das Nachfolgeprojekt zur Digitalen Rätoromansichen Chrestomathie, bei dem vorhandene lexikalische Ressourcen für die Annotation von bündnerromanischen Sprachdaten eingebunden werden sollen. Ich wurde mit der Evaluation beauftragt, inwieweit sich morphosyntaktische Informationen (bei Verben etwa Tempus, Numerus etc.) aus flektierten Wortformen ablesen lassen, deren Stammform sich eventuell gar nicht im Lexikon befindet. Zur Verfügung stehen mir dafür Listen über mehrere tausend Verben, die auf acht verschiedene Konjugationsklassen aufgeteilt sind. Auf Basis dieser Information sollte ich jetzt eine Art Ratespiel entwickeln, das für möglichst viele Verben die richtige Konjugationsklasse ermittelt.

Jetzt kann man sich vielerlei ausdenken, wie man die zur Verfügung stehende Information nutzt – spielt der erste Vokal, die Endung des Verbes, evtl. sogar seine Länge eine Rolle dafür, wie es konjugiert wird? Mein erster Gedanke war, genau solche Merkmale für die vorsortierten Verben zu ermitteln, um damit ein Modell zu trainieren, welches mir unbekannte Verben klassifiziert.

Zunächst wollte ich aber eine vernünftige Baseline haben – welche Ergebnisse liefert ein Verfahren, das nicht eigens entwickelt werden muss, sondern das ich direkt anwenden kann? Dafür bot sich ein n-Gramm-Rang-Modell an, das auch eingesetzt wird, um bei kurzen Texten zu erraten, in welcher Sprache sie verfasst sind. Dabei werden für möglichst viele Sprachen die Buchstabenfolgen bestimmter Länge (n-Gramme – bei Bigrammen zwei Buchstaben, bei Trigrammen drei usw.) nach ihrer Häufigkeit in Trainingstexten sortiert. Man spricht hier auch davon, dass ein Modell für die Sprache gebaut wird (auch wenn das hier ein sehr einfaches Modell ist). Das gleiche wird dann für den zuzuordnenden Text gemacht. Schießlich werden die Ränge der n-Gramme aus dem Testtext mit den Rängen aller Sprachmodelle verglichen - es gewinnt die Sprache, bei der der geringste Unterschied besteht, was auch erstaunlich gut funktioniert.

Dieses Verfahren habe ich nun auf mein Rateproblem bezogen. Dabei habe ich aus 90% der Verbformen in meinen Listen n-Gramm-Modelle für die acht Konjugationsklassen gebaut und versucht die restlichen 10% diesen Klassen zuzuordnen. Eigentlich hatte ich keine großen Erwartungen an das Verfahren, da mir die Daten als zu kurz (meist <12 Zeichen) und zu wenig (einige Klassen enthalten weniger als 100 Einträge) erschienen, um verwendbare Modelle zu bauen. Um statistisch valide zu arbeiten, habe ich die Daten der einzelnen Klassen gescrambelt und das Leave-One-Out-Kreuzvalidierungsverfahren eingesetzt.

Die Ergebnisse dieses einfachen Modells erstaunten mich dann doch, auch die Tatsache, dass sie umso besser wurden, je größer ich das n der n-Gramme werden ließ. Nach der Kreuzvalidierung lag bereits das Unigrammmodell (also einfaches Buchstabenzählen) in über 50% der Zuteilungen richtig, das Bigrammmodell in über 70%, das Trigrammmodell in über 75%, ab dem Tetragrammmodell pendelt sich der Wert bei über 80% ein (der Erwartungswert wäre jeweils 12,5% gewesen). Ich konnte die Ergebnisse noch verbessern, indem ich die Daten vorsortierte: Jeweils zwei der Klassen enden ihre Infinitivform auf -er bzw. -ir; drei der Klassen auf -ar. Wenn ich etwa für -er-Verben nur die betreffenden Klassen zur Auswahl stelle (also ausgehend von einem Erwartungswert 50%), habe ich bereits bei Trigrammen eine fast perfekte Zuordnung (99%), die dann ab Tetragrammen tatsächlich perfekt ist (100%). Bei -ar-Verben gilt das leider nicht in dem Umfang – mehr als 79% richtige Zuordnungen habe ich dabei nicht erreicht (Erwartungswert 33%). Naja, es sollte ja sowieso nur eine Baseline für ein elaborierteres Modell sein.

An dem Punkt erinnerte ich mich aber an die Studie, die behauptete, aus Facebook-Likes von Personen deren sexuelle Orientierung und noch einiges mehr ermitteln zu können. So sollten bspw. Personen mit homosexueller Orientierung vom System mit 88%iger Sicherheit erkannt werden. Allerdings wurde das in meinen Augen über eine etwas seltsame Methode evaluiert (ich schrieb drüber) – nämlich indem dem Algorithmus je eine Person mit homo- bzw. heterosexueller Orientierung präsentiert wurde und der dann nur noch entscheiden musste, welche Person zu welcher Gruppe gehört.

Ich habe jetzt diese Evaluation auch mal bei mir eingebaut, also jeweils Pärchen von Verben aus unterschiedlichen Klassen auf genau diese Klassen verteilen lassen. Auf einmal hatte ich jetzt nicht mehr knapp 80%, sondern über 99,9% Erfolgsquote bei der Zuteilung (33.748.628 korrekte Zuteilungen stehen 22722 falsche gegenüber). Aber halt – in der Facebook-Studie waren, wenn ich das richtig sehe, noch nicht einmal Trainings- und Testdaten getrennt (d.h. das Modell wurde mit den gleichen Daten trainiert, die hernach klassifiziert werden sollten). Dann hab ich mir die Kreuzvalidierung auch mal gespart – das Ergebnis: 3.377.132 richtige Zuteilungen, 3 falsche. Erfolgsquote 99,9999%. Dass diese Zahl so gut wie nichts mit Real-World-Anwendungen zu tun hat – geschenkt. Ich sollte wohl wirklich mal meine Skepsis zu fadenscheinigen Vorgehensweisen bei der Verwendung von Evaluationsmaßen über Bord werfen und ein paar Papers schreiben.

Quelle: http://texperimentales.hypotheses.org/911

Artikel, Open University, Watson

Vom weltweit größten Watson-Tutorial

19. März 2013 Keine Kommentare

Anfang der Woche fand in Darmstadt im beeindruckenden Hörsaal im “Alten Maschinenhaus” ein Tutorial zu den Hintergründen des Computer-Jeopardy!-Spielers Watson von IBM statt. Eingeladen hatte Chris Biemann vom Fachbereich Informatik der Uni Darmstadt, erschienen waren der Dozent Alfio Massimiliano Gliozzo (IBM Research) sowie mehr als 130 interessierte Zuhörer, welche die Veranstaltung dann auch zum “biggest Watson-Tutorial wordwide so far” machten.

Watson ist eine von IBM entwickelte und auf spezieller Hardware umgesetzte Software, der es im Frühjahr 2011 gelungen ist, das Spiel Jeopardy! gegen die bis dahin erfolgreichsten (menschlichen) Kandidaten zu gewinnen. Dieses Ereignis hatte ich damals hier im Blog aufgegriffen, als Paradebeispiel dafür, was man in meinem Fach Informationsverarbeitung bzw. Computerlinguistik so alles anstellen kann. Für uns war diese Meldung eine echte Sensation, weil sie viel unvorhergesehener kam als der Sieg von Deep Blue (dem ungleich berühmteren Schachprogramm, ebenfalls von IBM entwickelt) über den Schachweltmeister Garry Kasparov 14 Jahre zuvor. Weshalb aber wurde das Schachproblem viel früher als das Jeopardy!-Problem gelöst? Lösen heißt hier: Gegen die ausgewiesen besten Menschen in dem Spiel zu gewinnen.

Watson bei IBM: Eine zimmergroße Maschine. Bild: Clockready CC-BY-SA-3.0

Schach – so unendlich groß die Zahl der möglichen Spiele auch sein mag (selbst Deep Blue konnte bei weitem nicht alle möglichen Züge analysieren) – ist ein rein mathematisches Problem. Es gibt eine begrenzte Menge an Zuständen, die in eine ebenfalls begrenzte Anzahl von Folgezuständen überführt werden können. Menschen waren dem Computer lange überlegen, weil sie Muster in Schachspielen erkennen konnten, die sie mögliche Gewinnstrategien entwerfen ließen. Die ersten Schachcomputer hatten dann auch eine erbärmliche Performance. Später schlugen sie Anfänger, irgendwann Hobbyspieler und am Ende dann eben auch den amtierenden Weltmeister (Deep Blue 1997). Letzteres allerdings auch erst im zweiten Versuch, das erste Aufeinandertreffen hatte Kasparov 1996 noch für sich entschieden. Nebenbei: Der auf gewisse Weise entthronte Weltmeister unkte nach der Niederlage 1997, Deep Blue hätte zwischendurch Hilfestellungen durch Menschen bekommen. Der Vorwurf wurde nie wirklich aufgeklärt, weil IBM keine Untersuchung zuließ und Deep Blue dann auch demontierte. Insgesamt sind lediglich 12 Partien des Rechners öffentlich bekannt – jeweils 6 in den Jahren 1996 und 1997, sämtlich mit Kasparov als Gegner. Da aber in der Zwischenzeit Deep Fritz, ein Programm, um das sehr viel weniger Geheimhaltungs-Popanz gemacht wurde, 2006 den damaligen Weltmeister Wladimir Kramnik mit 4:2 schlug, zweifelt niemand mehr ernsthaft daran, dass Computer in der Lage sind, Menschen jederzeit im Schach zu schlagen.

Der Sieg von Watson über Ken Jennings und Brad Rutter kam dagegen gewissermaßen aus dem Nichts. Nie zuvor hatte jemand versucht, eine Maschine in einem Spiel wie Jeopardy! einzusetzen, wo es darum geht die zugehörigen Fragen zu sehr trickreich formulierten Antworten herauszufinden (also schlicht ein umgedrehtes Frage-Antwort-Spiel). Um ein Beispiel zu geben:

Antwort: “Aufgezeichnete Sachverhalte oder Gedanken, bisweilen mit Tagebuchcharakter, die auf einer Webseite zu finden sind.”

Die dazu passende Frage wäre: “Was ist ein Blog?”

Die Themenkomplexe, aus denen die Antworten stammen, sind dabei nicht eingegrenzt, sollten aber die Zuschauer interessieren – schließlich handelt es sich um eine Fernsehshow, die von den Einschaltquoten lebt. Man benötigt also ein breites Wissen, um in dem Spiel zu bestehen. Dieses dürfte zwar tatsächlich vollständig oder zumindest in großen Teilen irgendwo hinterlegt sein, wo es auch für Computer zugänglich ist – im Zweifelsfall eben in der Wikipedia. Die drei größten Herausforderungen bestehen aber darin,

Die Antworten richtig zu interpretieren, um eine Ahnung davon zu bekommen, wonach überhaupt gefragt wird.
Eine Wissensbasis so zu gestalten, dass interpretierte Antworten auf mögliche Fragen abgebildet werden können.
Aus möglichen Fragen diejenige auszuwählen, die als die passenste erscheint.

Um gut Schach spielen zu können, genüge es, Mathematik zu beherrschen; Jeopardy! aber gründe in der menschlichen Kognition, sagte Gliozzo. Statt wohldefinierter Zustände in begrenzter Zahl hat man es mit prinzipiell unendlich vielen Ausdrücken zu tun, die auch noch verschiedene Bedeutungen tragen können. Die Antworten, mit denen ein Jeopardy!-Kandidat konfrontiert wird sind genauso wie der größte Teil des verfügbaren Wissens in menschlicher Sprache hinterlegt und damit ambig, kontextabhängig und teilweise implizit.

Welche Ansätze IBM dabei verfolgte, die Aufgabe anzugehen und erfolgreich zu gestalten, war Thema des Workshops und Gliozzo gelang es aus meiner Sicht wirklich gut, dieses ansprechend und informativ darzulegen. Insgesamt bestand der Vortrag aus vier etwa zweistündigen Blöcken, einer Art eingedampften Form eines Kurses, den Gliozzo auch an der New Yorker Columbia Universität anbietet. Zwischendurch wurden immer wieder von IBM produzierte Filme zu Watson, der Jeopardy!-Challenge und der Zukunft des Systems gezeigt, die aus unterrichtstechnischen Gründen angebracht waren (inmitten des sehr anspruchsvollen Stoffs konnte man sich mal zurücklehnen und konsumieren), die auf mich als europäischen Wissenschaftler mitunter aber etwas überproduziert und pathetisch wirkten (Dan Ferrucci, Leiter des Watson-Projekts mit Tränen in den Augen und so, auf der IBM-Seite kann man sich selbst ein Bild davon machen).

Sehr gut hat mir die Live-Demo gefallen, eine Art simuliertes Spiel Watson gegen Vortragspublikum. Dabei zeigte sich auch, dass die Maschine mit denen eigens für das europäische Publikum ausgewählten Fragen offensichtlich nicht besonders gut zurecht kam. So war Watsons Vermutung, wo nach dem Schengen-Abkommen keine Kontrollen mehr stattfinden: passport. Erst danach folgte das korrekte borders, witzigerweise dicht gefolgt von Austria.

In den einzelnen Sessions ging Gliozzo auf die Teilbereiche (I) DeepQA-Architecture, (II) Natural Language Processing Components, (III) Structured Knowledge Components und (IV) Adaption to the Medical Domain ein. Die Klammer um das Ganze war ein Diagramm, das die Performances von Jeopardy!-Gewinnern und Watson, ausgestattet mit bestimmten Komponenten zeigte. War die Maschine anfangs noch meilenweit von einer Performance entfernt, auch nur ein einziges der historischen Jeopardy-Spiele zu gewinnen, sah man, dass die Zuschaltung der nacheinander erläuterten Komponenten immer weitere Fortschritte brachte. Das war als roter Vortragsfaden schon ziemlich genial. Detailliert berichte ich davon vielleicht mal an anderer Stelle. Schließen möchte ich mit einer Reihe von Aspekten, die ich aus dem Tutorial mitnehmen durfte:

Watson versteht nicht. Er gleicht Muster ab und führt eine unglaubliche Anzahl von Bewertungsfunktionen durch. Die Entwickler haben eine Unzahl verschiedener Techniken gegeneinander evaluiert und diejenigen, welche sich in Tests als erfolgreich herausstellten, im System behalten.
IBM hat nicht gezaubert oder vorher unbekannte Techniken entwickelt, sondern einfach nur bekanntes miteinander kombiniert. Gliozzo ist auf so gut wie jeden Schritt aus einem anfangs völlig undurchschaubar komplizierten Workflow-Diagramm eingegangen (natürlich nicht immer im Detail) und meinte am Ende so in etwa: “Jetzt kann das jeder von euch nachbauen. Viel Spaß!” Dabei unterschlug er allerdings nicht, dass eine selbstgebaute Antwortmaschine wahrscheinlich Tage für die Lieferung der Frage benötigen würde, was Watson auf seiner speziellen Hardware (3000 Prozessorkerne, 15 TeraByte RAM) in unter 3 Sekunden schaffen musste (ansonsten hätte er gegen seine menschlichen Konkurrenten keine Chance gehabt).
Watson ist eine Maschine, um Jeopardy! zu gewinnen. Die ersten Versuche, ihn einzusetzen, um bspw. Mediziner bei der Diagnose oder der Behandlung von Krankheiten zu unterstützen, waren eher ernüchternd. Nachdem viel Arbeit in die Adaption gesteckt wurde, konnten zwar Fortschritte erzielt werden, man hat es aber weiterhin mit einer domänenspezifischen Anwendungen zu tun. IBM ist das klar und sucht deshalb nach neuen Lösungen.
Offenbar war den Entwicklern vorher nicht klar, ob Watson die Challenge tatsächlich für sich entscheiden würde – man ging von einer 50% Chance aus. Im oben erwähnten Diagramm sah man, dass Jennings in vielen historischen Spielen eine deutlich bessere Performance hinlegte, als Watson am Ende seiner Jeopardy!-Entwicklung. Watson ist also – im Gegensatz zu Schachcomputern – weiterhin schlagbar.

Soweit meine (erste) Nachlese zum Watson-Tutorial. Vielleicht kann ich demnächst nochmal auf die Gesamtarchitektur oder einzelne Komponenten des Systems eingehen. Ich hoffe, mir ist es einigermaßen geglückt, auszudrücken, dass ich die Veranstaltung für wirklich gelungen hielt und möchte hier die Gelegenheit ergreifen, mich herzlich beim Organisator Chris Biemann zu bedanken. Falls so etwas noch einmal stattfinden sollte, kann ich jedem NLP-, Machine Learning- und Knowledge Engineering-Interessieren mit bestem Gewissen raten, daran teilzunehmen!

Quelle: http://texperimentales.hypotheses.org/865

Artikel, Fake, Statistik

Zahlen lügen wieder – Die Studie zu Facebook-Likes und Persönlichkeit

15. März 2013 Keine Kommentare

Wahrscheinlich ist inzwischen fast jede|r über die von Microsoft Research unterstützte Studie zu Facebook-Likes und Persönlichkeitsstruktur gestolpert. Sie ist bei PNAS Open Access erschienen, so dass sich jede|r ihr|sein eigenes Bild machen kann. Kollege Lars Fischer von den Scilogs hat das Ganze dankenswerterweise mal aufgegriffen, ich habe mich ein wenig in den Kommentaren vergangen und schließlich beschlossen, mich hier etwas länger auszulassen. Wenn ich mich nicht irre, gibt es nämlich Erstaunliches zu berichten. Ich habe ja schon öfter hier zur Statistik geschrieben und dabei auch erwähnt, dass ich keine wirkliche Ausbildung auf dem Gebiet genossen habe, sondern allenfalls eine gefährliche Mischung aus Bauchgefühl und angelesenem Halbwissen zum besten geben kann. Ich lasse mich also gerne verbessern.

Zunächst zu den Ergebnissen – die Studie behauptet z.B. zwischen Homo- und Heterosexuellen Männern zu 88% richtig zu diskriminieren (“The model correctly discriminates between homosexual and heterosexual men in 88% of cases”). Da es mehr als zwei Spielarten der sexuellen Orientierung gibt, die Autoren aber ein binäres Merkmal (also +/-) haben wollen, vereinfachen sie so, dass jeder Mann, der nicht ausschließlich Männer als mögliche Sexualpartner angegeben hat, das heterosexuelle Merkmal trägt. Was aber bedeuten die 88%? Lars meinte (durchaus nachvollziehbar, das dürften die meisten so interpretieren, hier z.B. auch die Zeit), der Algorithmus läge in 88% der Fälle richtig, d.h. von 100 Homosexuellen erkennt er 88 als homosexuell, 88 von 100 Heterosexuellen als heterosexuell. Wenn jetzt das Verhältnis sehr unwuchtig wird (d.h. eine Gruppe im Vergleich zur anderen sehr klein wird), bekommt man verhältnismäßig viele falsche Zuordnungen (falsch positive) in der kleineren Gruppe. Genau das habe ich in meinem Weihnachtsblogpost anhand eines anderen Beispiels thematisiert.

Schaut man in die Studie, so geben dort 4,3% der Männer an, sie seien homosexuell veranlagt. Insofern hätte ich einen guten Algorithmus an der Hand, der 95,7% der Probanden richtig zuordnet – indem nämlich alle als heterosexuell eingeordnet werden.

Ganz so einfach ist es dann doch nicht – die 88% sind nämlich (sorry, ich drück mich ums Übersetzen) “the prediction accurancy of dichotomous variables expressed in terms of the area under the receiver-operating characteristic curve (AUC)”. Puh, Integralrechnung, denkt sich der Kenner, alle anderen lesen den anschließenden Halbsatz “which is equivalent to the probability of correctly classifying two randomly selected users one from each class (e.g., male and female).” Übertragen auf unser Beispiel: Man nehme zwei Individuen, eines, das sich das homosexuelle, eines, das das heterosexuelle Merkmal gegeben hat. Der Algorithmus, basierend auf vergebenen Facebook-Likes (mit einer mehr oder weniger aufwändigen Hauptkomponentenanalyse dahinter), ordnet einem der Individuen das homosexuelle, dem anderen das heterosexuelle Merkmal zu.

Und da frag ich mich jetzt, ob das Ergebnis besonders gut oder zumindest aussagekräftig ist. Betrachten wir zuerst die Baseline: Die Wahrscheinlichkeit, völlig uninformiert richtig zu liegen, beträgt 50%. Offenbar leistet der Algorithmus also gute Arbeit, 88% sind ja ne ganze Stange mehr richtige Vorhersagen, von 100 Paaren werden nur 12 falsch zugeordnet. Aber was hat man davon? Wann in der Welt hat man es denn mit einem Personenpaar zu tun, von dem man weiß, dass nur eine Person ein Merkmal trägt (also z.B. heterosexuell ist), die andere aber auf keinen Fall. Und beauftragt dann einen Algorithmus, der mehr oder weniger sicher herausfindet, welche die Merkmalsperson ist? Also, der Messwert scheint zwar in Ordnung zu sein, sagt uns aber nichts darüber, in wie vielen Fällen der Algorithmus richtig läge, würde ihm nur ein Individuum präsentiert. Die Zahl wäre aber die Interessante gewesen (bzw. derer vier: Anzahl der richtig positiven, der falsch positiven, der falsch negativen und der richtig negativen). Kann sich jetzt jede|r selbst zusammenreimen, weshalb die Autoren sie nicht angeben.

So bin ich lediglich erstaunt darüber, wie eine Studie, die eine sehr eingeschränkte Aussage trifft, auf so große Resonanz stößt. Es gibt auch noch ein paar weitere Dinge zu bemängeln, etwa, dass offenbar direkt auf den Trainingsdaten klassifiziert wurde, statt Testdaten dafür zu erheben. Das würde in keiner Studie zur Sprachverarbeitung so durchgehen. Aber irgendwas scheint hier anders zu funktionieren.

By Enoc vt (File:Botón Me gusta.svg) [Public domain or CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/841

Artikel, Bloggen, résumé

Stimmungsbild, Nabelschau

1. März 2013 Keine Kommentare

Meine Blogplattform hat demnächst (9. März) Geburtstag und das ist natürlich ein Anlass zu feiern. Ich habe mich ja schon öfter mal darüber geäußert, wie froh ich bin, dass es den de-Ableger von hypotheses.org gibt und mich als einen der dort gehosteten Blogs aufgenommen hat. Die Redaktion hat den schönen Einfall gehabt, zwei Publikumspreise auszuloben – einen für den besten Blog und einen für den besten Blogbeitrag des letzten Jahres (zu den Abstimmungen). TEXperimenTales geht dabei genauso ins Rennen wie die drei Beiträge von mir, die es im Laufe des Jahres in die Slideshow auf der Hauptseite geschafft haben:

“15 Artikel an einem Tag“, den ich geschrieben habe, als ich von Posterous hierhin gezogen bin und meine wissenschaftlichen Posts mitgenommen habe,
“Reproduzierbar Wissen schaffen“, der als Beitrag in das Scilogs-Bloggewitter zum Problem nicht-reproduzierbarer Studien einging und
“Über Sprache und Tierkommunikation“, wo ich mich mit der Frage zum Wesen des Unterschieds zwischen menschlicher und nicht-menschlicher Kommunikation auseinandergesetzt habe.

Die Konkurrenz ist natürlich groß, so finden sich etwa Klaus Grafs Erwiderung auf den Blogger-Bash von Valentin Groebner und Mareike Königs berühmte Anleitung zum Twittern unter den Nominierten. Ich kenne beileibe nicht alle Blogs der Plattform, die nominiert sind, weiß aber, dass ich den Games-Blog von Sabine Scherz und der Frühneuzeit-Astrologie-Blog von Andreas Lerch immer gern gelesen habe. Dankenswerterweise hat man ja gleich mehrere Stimmen, die man verteilen kann.

Die Gelegenheit ist jetzt wohl günstig, mir auch mal Gedanken darüber zu machen, welche Artikel aus meinem Blog ich denn für gut gelungen halte. Man mag mir diese Nabelschau verzeihen, tue ich sie doch nicht nur, um für meinen Blog zu werben (naja, ein bisschen natürlich schon), sondern um selbst ein kleines Résumé zu ziehen, welche Posts mir besonders am Herzen liegen. Vielleicht gelingt es mir dabei sogar, zu vermitteln, weshalb ich das Bloggen für eine so sinnvolle Tätigkeit halte.

Platz 5: Scheitern als Chance - Dieser Post, in dem ich die Begleitumstände einer wissenschaftlichen, demnächst veröffentlichten Studie schildere, führte mir sehr deutlich vor Augen, wie Blogs ohne weiteres parallel zu Peer-Reviewed-Aufsätzen existieren können. In Zeitschriften oder Sammelbänden finden sich ja meist nur die endgültigen Versuchsaufbauten und Ergebnisse. Wie sie zustande kamen, welche Fallstricke lauerten und welche Lehren man daraus zog – um das zu schildern, braucht man wohl einen Blog. Und da gibt es manchmal vielleicht auch das Interessantere zu lesen.

Platz 4: Wie man Äpfel mit Birnen vergleicht – Über Themen der Stochastik schreibe ich am liebsten aus der Hüfte. Zu diesem Post gab es einen konkreten Anlass, den ich über die alte Weisheit zur Unvergleichlichkeit von Äpfeln und Birnen aufgriff. Das brachte mir immerhin einen Linktipp auf spektrum.de und 250 Klicks an einem Tag ein, was (wenn ich mich recht erinnere) mein bisheriger Besucherrekord war.

Platz 3: Sternstunden der Kryptoanalyse – Diese mitreißende, viel zu unbekannte Geschichte der Steganographia-III-Entschlüsselung zu erzählen, war mir ein Herzensanliegen. Zudem wurde der Protagonist dieser Entschlüsselung – Thomas Ernst – auf mich aufmerksam und kontaktierte mich, was schon zu mehrfachem fruchtbaren Austausch von Gedanken führte.

Platz 2: Über Sprache und Tierkommunikation – Für diesen Post gab ein für mich nicht zufriedenstellender Artikel in einer Wissenschaftszeitschrift den Anstoß. Eine erste Recherche ergab, dass es eigentlich keine wirklich aktuelle Darstellung zum Thema gibt (oder ich sie zumindest nicht fand) und deshalb entschloss ich mich, selbst ein paar aktuellere Studien zu wälzen und diese zusammen mit den historischen Annahmen zu verbloggen.

Platz 1: Heldensage im Reisetagebuch – Die Geschichte meiner Dissertation irgendwann einmal zu beschreiben, hatte ich schon vor, während ich an ihr arbeitete. Zu beeindruckend war für mich, wie man als Wissenschaftler (vielleicht nicht allzu oft, aber tatsächlich) Momente erlebt, in denen man das, was man da gerade tut, von ganzem Herzen liebt. Wenn ich nur einen Funken davon in diesem Blogpost vermitteln konnte, hat er sich schon gelohnt.

Soweit die sehr persönliche Rangliste meiner Blogartikel. Einer der nominierten Beiträge findet sich ja, die beiden anderen kann ich natürlich auch empfehlen, der eine ist halt eine Übersicht über meine ersten Blogs, den anderen stelle ich deshalb nicht heraus, weil ich zum Thema Reproduzierbarkeit eine ganze Reihe von Artikeln geschrieben habe. So fiel es mir schwer, mich für einen zu entscheiden. Wer noch nicht abgestimmt hat, kann das hier für die Beiträge und hier für die Blogs tun. Es muss ja auch nicht TEXperimenTales sein, außerdem hat man insgesamt fünf Stimmen, oben habe ich ja auch schon meine Favoriten genannt. Freuen würde es mich natürlich, landete mein Blog weiter vorne, ist doch klar!

——————

Bild: Sri Chinmoy Marathon Team http://www.srichinmoyraces.org/copyright

Quelle: http://texperimentales.hypotheses.org/800

Artikel, Kommunikation, linguistik, sprache, une

Über Sprache und Tierkommunikation

19. Februar 2013 Keine Kommentare

Kürzlich erschien in einer populären Wissenschaftszeitschrift ein Artikel1 zur “Gabe der Sprache”, in dem auch thematisiert wurde, ob und in wie weit sich menschliche Sprache von so genannten “Tiersprachen” unterscheidet. In der Klärung dieser Frage blieb der Artikel allerdings sehr vage, was mich ein wenig ärgerte und letztlich dazu veranlasste, selbst etwas darüber zu schreiben. Gradueller oder fundamentaler Unterschied? Die Beschäftigung mit dem Thema blickt auf eine lange Tradition zurück: Schon Aristoteles und Epikur stellten Mutmaßungen über den Status der Verständigung von Tieren untereinander an. Für René Descartes, der in seinem Dualismus streng zwischen Geist und Materie trennte, ist die Sprache Ausdruck des Verstandes, also auf der geistigen Seite der Welt verortet, während Tiere als seelenlose Automaten keine solche haben können. Einen derart fundamentalen Unterschied zwischen menschlicher Sprache und Tierkommunikation nimmt im 20. Jahrhundert auch der Linguist Noam Chomsky an, der Sprache als spezifisch menschliches Organ ansieht, das zwar genetisch determiniert ist, in der Evolution aber lediglich den Menschen zufiel.

"Gandhiji's Three Monkeys" von Kalyan Shah, CC-BY-SA

Die Gegenposition wird von den Anhängern der Kontinuitiätstheorie vertreten, die von einem Stufenmodell tierischer Kommunikation ausgehen, in dem die menschliche Sprache die höchste bekannte Stufe einnimmt. Einer ihrer Vertreter ist Charles Darwin, der viele Parallelen in der nichtsprachlichen Kommunikation von Menschen und höheren Tierarten ausmacht und die Tatsache der Entwicklung einer komplizierten Lautsprache vor allem auf die Größe und Leistungsfähigkeit des menschlichen Gehirns zurückführt. Die Kontinuitätstheorie hat auch in unserem Jahrhundert noch Anhänger, welche sich vor allem auf Studien zur Kommunikation von Tieren berufen. Natürliches Verhalten oder gezieltes Training? Kommunikation mit Artgenossen ist für viele Tierarten überlebenswichtig, etwa wenn es um die Suche nach Nahrung oder um die Warnung vor Feinden geht. Die komplexesten bekannten Beispiele sind dabei sicherlich der Schwänzeltanz von Honigbienen und das Alarmrufsystem von Meerkatzen. Neben der Beobachtung dieser natürlichen Verhaltensweisen wird oft auch versucht, der Sprachfähigkeit von Tieren über speziell entwickelte Versuchsanordnungen auf die Spur zu kommen. Dazu wird entweder das Vorhandensein von für die menschliche Sprache als grundlegend angenommene Fähigkeiten überprüft (z.B. Kombinationsfähigkeit, Verarbeitung rekursiver Strukturen; darauf gehe ich unten noch genauer ein), oder es wird sogar versucht, mit Tieren über eigens geschaffene Sprachkonstrukte zu kommunizieren. Hinsichtlich solcher sprachbasierter Mensch-Tier-Kommunikation wurden die besten Ergebnissen mit Primaten erzielt. Da Affen nicht über einen Sprechapparat verfügen, der mit dem menschlichen vergleichbar ist, konnte dabei nicht auf verbale Kommunikation zurückgegriffen werden. Stattdessen wurden Gesten oder Symbolbilder entwickelt und den Primaten beigebracht. Diese begriffen mal mehr, mal weniger schnell, dass bestimmte Symbole bzw. Gesten für bestimmte Konzepte standen und sich daraus produktiv eigenständige Kombinationen bilden ließen. So antwortete die trainierte Schimpansendame Washoe etwa, als sie aufgefordert wurde, sich zu Radieschen zu äußern (für die sie keine eigene Geste gelernt hatte) mit einer Kombination der Gesten für “Weinen”, “wehtun” und “Frucht”. Sonderlich geschmeckt hatten sie ihr also nicht. Inhaltliche oder formale Unterschiede? Die Kluft zwischen Mensch- und Tiersprachen scheint also gar nicht so weit und tief zu sein, wie manche bis zur Durchführung der Primaten-Experimente annahmen. Zumindest der produktive Einsatz von Sprachsymbolen scheint auch Tieren gelingen zu können. Ohnehin rütteln neuere Forschungsergebnisse an so gut wie jedem kategoriellen Unterschied, der zwischen der menschlichen Sprache und den Kommunikationssystemen von Tieren postuliert wurde. Der Linguist Charles Hockett erarbeitete eine Aufstellung von 13 Merkmalen, die lautsprachliche Kommunikation auszeichnen. Hockett selbst ist Anhänger der Kontinuitätshypothese, geht also davon aus, dass kein kategorieller Unterschied zwischen der Kommunikation von Tieren und menschlicher Sprache existiert. So finden sich dann auch viele der von Hockett angeführten Merkmale bei verschiedenen Ausprägungen der Tierkommunikation, etwa der Transport von Bedeutung und – wie oben gesehen – die Produktivität.2 Was bleibt also noch an spezifischen Merkmalen für die menschliche Sprache übrig? Lassen sich vielleicht auf inhaltlicher Seite Unterschiede ausmachen, also bei dem, was Anlass der Verständigung ist? Oft heißt es, animale Kommunikation sei an den Moment gebunden, Tiere verständigten sich nicht über Zukünftiges oder Vergangenes. Sie seien auch nicht fähig zur Metasprache, also der Verständigung über die Sprache selbst. Ich halte diese inhaltlich motivierten Unterschiede für schwer überprüfbar, so lange wir z.B. Vogel- und Walgesänge nicht wirklich verstehen. Bleiben die Unterschiede, welche die Form / die Organisiertheit von Sprache betreffen. Nach Chomsky ist ein Wesensmerkmal menschlicher Sprachen, dass sie rekursive Strukturen enthalten. Diese sorgen dafür, dass man mit einem begrenzten Inventar sprachlicher Einheiten und Verknüpfungsregeln prinzipiell unendlich viele Sätze erzeugen kann. Solche rekursiven Strukturen lassen sich z.B. bei sogenannten Schachtelsätzen, also der Einbettung immer neuer Relativsätze, beobachten: Der Löwe, der den Kojoten, der das Pferd, das graste, fraß, jagte, [hat schöne Augen]. Ungeachtet dessen, dass Sätze dieser Art schnell inakzeptabel werden, sind ihre Bildungen prinzipiell möglich. Sie gehorchen dem Schema anbn, das heißt für jedes a (hier: Subjekt) muss genau ein b (hier: Verb) folgen. Und zwar nicht umgehend (das entspräche dem Muster (ab)n und wäre ohne rekursive Bildungsregeln zu erfassen), sondern erst, nachdem alle a aufgezählt wurden. Um einen solchen Satz zu prozessieren ist ein sogenannter Kellerspeicher notwendig, mit dem protokolliert werden kann, wie viele a denn nun auftraten. Gemäß der Chomsky-Hierarchie formaler Sprachen ist ein solches Kommunikationssystem mindestens auf der zweiten, der kontextfreien Stufe anzusiedeln, deren Beherrschung Chomsky eben nur den Menschen zutraut. Tatsächlich schienen Studien an Liszt-Äffchen zu bestätigen, dass diese rekursive Strukturen nicht erkennen konnten. Spätere Forschungen ergaben allerdings, dass Stare damit offensichtlich kein Problem hatten. Damit bleibt eigentlich nur noch ein Strukturmerkmal übrig, das der menschlichen Lautsprache vorbehalten ist: Das Prinzip der doppelten Artikulation Das Prinzip der doppelten Artikulation oder der zweifachen Gliederung, wie es vielleicht weniger irreführend bezeichnet werden könnte, geht auf den französischen Linguisten André Martinet zurück und wird für Zeichensysteme verwendet, die mehrere Gliederungsebenen aufweisen. So findet sich in allen natürlichen Sprachen eine Ebene, welche die grundlegenden sprachlichen Einheiten enthält (Phoneme oder in der Schriftsprache Grapheme), aus denen alle anderen Einheiten zusammengesetzt sind. Diese Einheiten tragen selbst keine Bedeutung, können aber sehr wohl Bedeutung unterscheiden. Aus der Kombination dieser Grundbausteine resultieren größere Einheiten (die kleinsten davon sind Morpheme, die wiederum zu Wörtern, Phrasen, Sätzen usw. kombiniert werden können), welche dann auch mit Bedeutungen verknüpft sind. Ein Beispiel: H und F tragen an sich keine Bedeutung, unterscheiden aber auf formaler (nicht inhaltlicher) Ebene Hund von Fund (ich erspare den Lesenden hier die lautsprachliche Transkription). Dadurch, dass es ein Inventar von Einheiten gibt, die nicht an eine Bedeutung gekoppelt sind, aber Bedeutungen unterscheiden und dazu auf vielfache Art kombiniert werden können, ist die menschliche Sprache so extrem produktiv. Zwar war auch die Schimpansin Washoe produktiv – allerdings nur auf einer Ebene: Sie kombinierte bereits bedeutungstragende Einheiten miteinander. Das gleiche gilt auch für die natürlichen tierischen Kommunikationssysteme Bienentanz und Meerkatzenruf: Ein Symbol trägt eine Bedeutung, kann aber mit anderen bedeutungstragenden Symbolen kombiniert werden. Ist das Prinzip der doppelten Artikulation also die differentia specifica, die menschliche Sprachen von allen anderen Kommunikationssystemen unterscheidet? Das dachte ich zumindest noch bis vor kurzem, fand dann aber diese Studie zu lesenden Pavianen. Offenbar sind die Paviane in der Lage, kleine, an sich nicht bedeutungstragende Einheiten – hier Buchstaben/Grapheme in für sie bedeutungstragende (nämlich Futter versprechende) Wörtern zu identifizieren. Auch wenn die Autoren das nicht thematisieren (ihnen geht es vor allem darum, statistisches Lernen und visuelle Objekterkennung als artübergreifende Fähigkeiten darzustellen), ist die Studie, wenn sie bestätigt wird, ein starker Hinweis darauf, dass nicht nur Menschen doppelt gegliederte Systeme verarbeiten können. Damit wäre auch das letzte der exklusiv der menschlichen Sprach-Kommunikation vorbehaltenen Merkmale gefallen. ———— 1 Im “Gehirn und Geist” Sonderheft “Streit ums Gehirn”, erschienen 01/2013, online leider nur für Abonnenten zugänglich. Dafür hat der Spektrum Verlag aber eine große Themenseite für den Komplex Sprache eingerichtet, wo viele der Artikel frei verfügbar sind. 2 Eine Aufstellung der Hockett’schen Merkmale nebst einer übersichtlichen Tabelle findet sich etwa im (von mir immer sehr enthusiastisch empfohlenen) Buch “Die Cambridge Enzyklopädie der Sprache | The Cambrige Encyclopedia of Language” von David Crystal, CC-BY-SA

Quelle: http://texperimentales.hypotheses.org/744

Artikel, une

Reproduzierbar Wissen schaffen

29. Januar 2013 Keine Kommentare

Aktuell findet auf den Scilogs ein Bloggewitter statt, welches exakt das Thema aufgreift, das mich damals veranlasste, mit dem Bloggen anzufangen – die Frage nach der Bedeutung von Reproduzierbarkeit in der Wissenschaft. Ausgelöst wurde dieses Bloggewitter vom britischen Wissenschaftsautor Ed Yong, der in der aktuellen Ausgabe der Zeitschrift Spektrum der Wissenschaft in einem sehr lesenswerten Artikel1 darlegt, dass eine der zentralen Forderungen der Wissenschaft – eben die Reproduzierbarkeit wissenschaftlicher Ergebnisse – zumindest für das von ihm betrachtete Gebiet der Psychologie eher die Ausnahme denn die Regel darstellt. Das führte zu einer ganzen Reihe von Reaktionen, die verschiedene Sichtweisen aus sehr unterschiedlichen – bisher zumeist naturwissenschaftlichen Bereichen – darlegen.

Die Bandbreite der Reaktionen macht deutlich, dass sich die einzelnen wissenschaftlichen Disziplinen (natürlich) nicht über einen Kamm scheren lassen und das Problem der (nicht-)Reproduzierbarkeit von Ergebnissen sehr unterschiedlich ausgeprägt ist. Gleichwohl lässt sich der Tenor wahrnehmen, dass das gegenwärtige wissenschaftliche System vor allem spektakuläre und dadurch manchmal auch spekulative Studien durch Veröffentlichung belohnt, während dröge Überprüfungen von Ergebnissen anderer kaum Beachtung in den angesehenen Zeitschriften finden. Veröffentlichungen in namhaften Journals sind aber weiterhin der wichtigste Treibstoff wissenschaftlicher Karrieren. Diese Konstellation verhindert momentan noch eine wissenschaftliche Kultur, in der die Überprüfung anderer Forscher Studien zum täglichen Geschäft gehört. Abgesehen von diesem allgemeinen Konflikt ergeben sich je nach Gegenstandsbereich spezifischere Probleme, was die Reproduzierbarkeit von Studien bzw. derer Ergebnisse angeht. In der Atom- und der Astrophysik steht es damit offenbar ganz gut, weil die untersuchten Stoffe bzw. beobachteten Weltraumphänomene entweder öffentlich zugänglich oder einfach beschaffbar sind. In der organischen Chemie ist die Reproduktion von Synthesen offensichtlich gang und gäbe, es hapert aber daran, die exakten Bedingungen für Synthesen auf eine nachvollziehbare Art weiterzugeben. Größere Schwierigkeiten machen da Forschungen auf dem Gebieten Psychologie und Medizin, ist doch die Wiederholung von Studien, in denen man viele menschliche Probanden benötigt, mit hohen Kosten verbunden. Die Strategien, dem Problem nicht-reproduzierbarer Studien zu begegen, weisen in zwei Richtungen: Auf der einen Seite werden Plattformen geschaffen, auf denen wiederholte Studien veröffentlicht werden können. Das engagierteste Projekt in dieser Richtung ist sicherlich die Reproducibility Initiative, die Autoren von Studien quasi ein rundum-Sorglos-Paket anbietet, indem sie die Wiederholung der Experimente durch unabhängige Wissenschaftler organisiert. Das kostet natürlich und wird im gegenwärtigen Umfeld sicherlich noch nicht allzu stark nachgefragt werden. Wenn sich aber die wissenschaftliche Kultur ändern sollte (was sie wohl v.a. durch Druck von außen – hier von den großen Förderinstitutionen – tun dürfte), denke ich, dass einem solchen Modell die Zukunft gehört. Die andere Stoßrichtung, das Problem in den Griff zu bekommen, ist die Änderung der Veröffentlichungskultur. In Artikeln sind die durchgeführten Experimente und die zugrundeliegenden Daten meist nicht vollständig beschrieben. Solche Artikel würde wohl auch niemand lesen wollen. Es lässt sich aber im besten Fall einrichten, dass man die verwendeten Daten und die eingesetzte Software als Supplemente zu den eigentlichen Artikeln veröffentlicht. Eine solche Kultur der Transparenz würde der Überprüfung, aber auch der Weiterentwicklung der vorgestellten Methoden immens dienen. Sehr interessant ist das Virtual Observatory aus dem Bereich der Astronomie, welches in gleich zwei Artikeln des Bloggewitters thematisiert wird. Letzteres entspricht auch ungefähr dem Ansatz, den wir im Bereich der Textprozessierung mit unserem Text Engineering Software Laboratory (kurz Tesla) verfolgen. Grob kann man sich dieses virtuelle Labor als Verpackungsmaschine für Experimente vorstellen, die auf textuellen Daten operieren. Mit Texten sind dabei nicht nur natürlichsprachliche gemeint, sondern prinzipiell alles, was sich in Sequenzen diskreter Einheiten darstellen lässt – das gilt mit Einschränkungen ja auch für Proteine und Nucleinsäureketten sowie Partituren von Musikstücken. Der Ansatz ist der, dass wir einen beliebig erweiterbaren Werkzeugkasten anbieten, der als Open Source öffentlich zugänglich ist. Die Werkzeuge sind miteinander kombinierbar, so dass man daraus Workflows zusammenstellen kann, deren Konfiguration mit einer Referenz auf die verwendeten Rohdaten in einer Art virtuellem Laborbuch gespeichert werden. Aus diesem Laborbuch lassen sich einzelne Experimente freigeben und auf Plattformen zum Austausch von Workflows (z.B. MyExperiment) sharen. Sind die Rohdaten verfügbar, so lassen sich die Experimente jederzeit wiederholen, die Konfiguration der einzelnen Werkzeuge, deren Sourcecode und die Art ihrer Zusammenstellung im Workflow sind dabei vollständig transparent.

Der Workflow-Editor von Tesla. Zu sehen ist die Kombination von Werkzeugen (Kästen) durch Verbindung der Ein-/Ausgabeschnittstellen. Wir haben uns darum bemüht, die Benutzung des Werkzeugkastens/der Experimentverpackungsmaschine möglichst eingängig zu modellieren, weil wir damit die Hoffnung verbinden, dass sich möglichst viele Nutzer auf das System einlassen, einzelne Werkzeuge evaluieren und eventuell sogar neue erstellen. Die Weitergabe kompletter Experimente kann nämlich nicht nur dazu genutzt werden, um anderer Forscher Studien zu wiederholen, sondern im Idealfall auch, direkt auf diesen aufzusetzen oder durch Modifikationen (durch Austausch oder Rekonfiguration der Werkzeuge oder die Anwendung auf eine andere Datenbasis) zu besseren Ergebnissen zu kommen. Auch wenn wir noch viel Arbeit vor uns haben, was die noch einfachere Benutzbarkeit und die verbesserte Ausstattung von Tesla angeht, sind die Rückmeldungen der ersten Anwender von Tesla außerhalb unseres Lehrstuhls sehr positiv, so dass wir glauben, dass derartige Systeme in Zukunft stärker genutzt werden und die Möglichkeiten des wissenschaftlichen Austauschs sowie der Überprüfbarkeit von Studienergebnissen erweitern.

Quelle: http://texperimentales.hypotheses.org/692

Artikel, Empirie, Experiment, tesla, validität, Wissenschaftstheorie

Scheitern als Chance – Testen durch Fehler

30. November 2012 Keine Kommentare

Momentan experimentiere ich mit Marcos Zampieri zu Eigenschaften von brasilianisch-portugiesischen Internettexten. Dabei geht es unter anderem darum, spezifisches Vokabular aus diesen zu extrahieren und anhand dieses Vokabulars die Texte wiederum nach ihrer Internetness zu klassifizieren. Die Studie erscheint demnächst als Paper, hier will ich deswegen nicht über die Ergebnisse schreiben, sondern nur eine (zumindest für uns) lehrreiche Begebenheit aus der Entwicklungsphase schildern.

Aus wissenschaftlichen Veröffentlichungen lässt sich nur in den seltensten Fällen herauslesen, welche Fehlschläge auf dem Weg zu den letztlich öffentlich gemachten Versuchsaufbauten und Ergebnissen die Autoren hinnehmen mussten. Um zu zeigen, dass solche Fehlschläge durchaus fruchtbar sein können, muss ich zunächst etwas weiter ausholen und bei den drei Gütekriterien empirischer Studien beginnen, die ja, wie allgemein bekannt, die folgenden sind:

Validität – Misst das gewählte Verfahren tatsächlich das, was es messen soll?
Reliabilität – Funktioniert die Messung zuverlässig, sind die Ergebnisse im Wiederholungsfall stabil?
Objektivität – Wurden die Ergebnisse unabhängig vom Prüfer erzielt?

Auch wenn man – wie wir – ein Labor gebaut hat, in dem alles, was man experimentell anstellt, protokolliert wird, so dass die Ergebnisse im Normalfall (d.h., wenn man die Ausgangsdaten und die Werkzeuge in den entsprechenden Versionen nicht verlegt) jederzeit reproduziert werden können, sind diese drei Kriterien natürlich nicht automatisch erfüllt.

Wir (Computer)Linguisten wollen z.B. Aussagen über Sprache treffen und analysieren dafür Sprachdaten. Diese Aussagen sind natürlich immer abhängig von der Auswahl der Sprachdaten, die wir getroffen haben. Natürliche Sprachen sind ja leider kein abgeschlossenes System (im Gegensatz z.B. zum Text aus dem Voynich Manuskript, jedenfalls solange dessen fehlende Seiten nicht irgendwo auftauchen). Die Auswahl betrifft vor allem die beiden letzten oben genannten Gütekriterien, die Reliabilität (bleiben die Aussagen gleich, wenn ich eine andere Auswahl treffe) und Objektivität (bleiben die Aussagen gleich, auch wenn jemand anders die Auswahl trifft).

Die Validität betrifft mehr die Werkzeuge, die im Analyseprozess verwendet werden – zunächst einmal müssen sie korrekt funktionieren (wer selbst einmal Algorithmen implementiert hat, weiß wahrscheinlich sehr gut, welche Fehler dabei auftreten können). Darüber hinaus muss aber auch irgendwie festgestellt werden, ob sich die Messungen der gewählten Werkzeuge wirklich dazu eignen, darauf die zu treffenden Aussagen zu gründen.

Im kombinierten Programmier/Experimentier-Prozess, in dem man sich befindet, wenn man neue Werkzeuge erstellt, die dann auch umgehend für empirische Studien eingesetzt werden, muss man sich überlegen, wie man die Validität denn am besten testen kann. Und um jetzt endlich zum Punkt dieses Artikels zu kommen: Ich möchte hier einen solchen Test beschreiben, der in der Form gar nicht geplant war und nur durch einen Fehler zustande kam.

Um, wie wir das vorhatten, die Internetness von Texten bzw. Dokumenten zu ermitteln, kann man sie z.B. mit einem Referenzkorpus vergleichen und schauen, inwieweit sich Spezifika in Abgrenzung zu diesem ermitteln lassen. Es gibt unterschiedliche Methoden, die Keywordness von einzelnen Termen (Wörtern) zu berechnen, im Bereich des Information Retrieval (also im Umfeld von Suchmaschinen) wird häufig der Quotient aus Termfrequenz und inverser Dokumentfrequenz (TF/IDF) hinzugezogen. Für den Vergleich von Korpora eignet sich unserer Meinung nach die Berechnung der Log-Likelihood-Ratio (LLR) für einzelne Termes besser. Um es ganz simpel zu erklären: Das Vorzeichen der LLR gibt für jeden Term an, ob er stärker mit dem Untersuchungskorpus oder mit dem Referenzkorpus assoziiert ist. Noch einfacher: In welchem Korpus er häufiger vorkommt. Allerdings zählen dabei nicht die absoluten Häufigkeitsunterschiede (welche die frequentesten Wörter, also {und, der, die, das} usw. aufweisen würden), die LLR relativiert diese stattdessen (wie sie das tut, passt gerade nicht hier rein). Summiert man nun die LLR-Werte der Token jedes Korpus-Dokumentes und teilt diese Summe durch die Länge des entsprechenden Dokuments, so erhält man vergleichbare Internetness-Werte für jedes Dokument.

Ein Experiment, das den im Text beschriebenen Workflow über einzelne Komponenten realisiert. Von oben nach unten: Korpora, Tokenizer, Frequenz-Zähler, LLR-Berechner, Ranker für Dokumente (die hier in Paragraphen repräsentiert sind) nach den LLR-Werten ihres Vokabulars.

Auf den ersten Blick war fatal, dass uns der Fehler unterlief, unsere Korpora mit Texten unterschiedlicher Encodings zu bestücken. Das ist für Tesla normalerweise kein Problem, wenn nicht gerade alle zusammen in einem Archiv hochgeladen werden, was wir aber getan haben. Das Resultat war, dass alle Wörter mit Umlauten im Internet-Korpus korrekt dargestellt wurden, diese aber im Referenz-Korpus nie auftauchten, weil dessen Encoding zerschossen war. Resultat war, dass não (portugiesisch für nein, falsch encodiert nÃ£o), offenbar in unserem Korpus das frequenteste Wort mit Sonderzeichen, den höchsten LLR-Wert erhielt. Texte, die lediglich aus não bestanden, bekamen deshalb den höchsten Wert für ihre Internetness.

Das Ergebnis entsprach natürlich keinesfalls dem, das wir erhalten wollten, dennoch hatte die Tatsache, dass wir einen so blöden Fehler gemacht hatten, auch einen gewichtigen Vorteil: Dadurch, dass wir ein so falsches, aber absolut nachvollziehbares Ergebnis erhielten, konnten wir Rückschlüsse bezüglich der Validität des Verfahrens bzw. die Richtigkeit der Algorithmen-Implementationen innerhalb der Komponenten ziehen: Wir hatten genau das gemessen, was aufgrund unseres Fehlers gemessen werden musste. Den Fehler konnten wir einfach korrigieren, die Ergebnisse veränderten sich dementsprechend – auch wenn sie weiterhin bemerkenswerte, durch die Korporaauswahl bedingte, Artefakte enthalten (da muss ich allerdings auf die wissenschaftliche Veröffentlichung vertrösten). Wir waren in einem ersten Versuch gescheitert, aber gerade dieses Scheitern hatte uns einen relativ starken Hinweis auf die Validität unseres Verfahrens gegeben. Und ich finde, das ist schon einen Blogpost wert, zumal solche produktiven Fehlschläge nur sehr selten Platz in wissenschaftlichen Veröffentlichungen finden.

Quelle: http://texperimentales.hypotheses.org/620

Artikel

Ein Jahr Blogger

15. November 2012 Keine Kommentare

Vor etwas mehr als einem Jahr, am 26.10.2011, habe ich – damals noch auf der Plattform Posterous - meinen ersten wissenschaftlichen Blogpost geschrieben. Wie ich genau darauf gekommen bin, mit dem Bloggen anzufangen, weiß ich bis heute nicht genau. Vielleicht lag es vor allem daran, dass ich kurz vorher meine Dissertation abgegeben hatte und irgendeine Form von Kompensation brauchte, meine Schreiblücke aufzufüllen. Ein weiterer Grund war sicherlich, dass ich Werbung machen wollte für Tesla, also die Software, die wir im Zug zweier paralleler Dissertationen an unserem Lehrstuhl entwickelt hatten. Zwar hatten wir das System schon auf diversen Konferenzen vorgestellt, Artikel verfasst und eine verhältnismäßig gut dokumentierte Webseite [just heute migrieren wir auf einen neuen Server, sorry, Link schalte ich morgen wieder frei] angelegt, irgendwie hatte ich aber das Gefühl, dass ich mehr Leute von unserem Konzept, empirisch-experimentelle Wissenschaft über Textdaten zu betreiben, erreichen könnte, würde ich nur neue Kommunikationskanäle nutzen (fast genau ein Jahr vorher bin ich zum Twitterer geworden, aber die Geschichte erzähle ich demnächst woanders).

Tatsächlich bloggte ich anfangs wohl vor allem für mich und vielleicht für ein paar Student|inn|en, die daran interessiert waren, was ihr Dozent so treibt, wenn er sie nicht gerade mit Unterricht belästigt (mit, ich habe mit geschrieben). Allerdings ist es mir aber nach und nach gelungen (da hat sicher auch mein Twitter-Profil viel beigetragen), mehr Interessenten auf die Seite zu locken und teilweise wurde gar kommentiert, u.a. auch von Mareike König, die ja bekanntermaßen das Sprachrohr dieser Plattform hier ist. Als de.hypotheses dann im Frühjahr diesen Jahres an den Start ging, bekam ich das (Twitter) mit und fand das Konzept einer geisteswissenschaftlichen Blogplattform so stimmig, dass ich mich fast umgehend darum bewarb, dorthin wechseln zu dürfen.

Ich habe diesen Entschluss bisher noch zu keinem Zeitpunkt bereut – die Plattform ist phantastisch betreut, bei Problemen erhält man umgehend Rückmeldung (Twitter) und Hilfe und man muss nicht mehr ganz allein die Werbetrommel für seinen Blog rühren (Twitter), tatsächlich bekommt man auch eine Menge Laufkundschaft dadurch, dass die eigenen Artikel auf der Protalseite verlinkt sind. Nicht zu unterschätzen ist auch, dass man weiß, dass das, was man so im Blog verbricht, zumindest von der hypotheses-Redaktion gelesen wird. Bei Gefallen bekommt man einen prominenten Platz auf der Portalseite, was zumindest mich zusätzlich anspornt (mit meinem ersten Artikel hier bin ich sogar Headliner mit unterlegtem Bild geworden; ich schiebe es mal darauf, dass es da noch nicht viele Blogs gab…). Ein weiterer Vorteil wäre die Vernetzung mit anderen Bloggern aus der Linguistik/Computerlinguistik-Szene, wenn es die hier denn geben würde. Noch bin ich vor allem von Historikern umgeben, aber vielleicht ändert sich das ja noch (Und ja, das ist ein Aufruf!).

Die Vergrößerung der Reichweite meines Blogs über die letzten Monate kann ich mir über das Analysetool von WordPress selbst anschauen, allerdings ist immer schwer zu ermitteln, ob sich gerade wirkliche Besucher auf meine Seite verirrt haben, oder ob sich lediglich ein paar Bots austoben. Wichtiger sind da Retweets meiner Werbetweets von anderen Twitter-Nutzern, Likes bei Facebook, +1en bei Google+, vor allem aber Pingbacks aus anderen Blogs, Empfehlungen auf anderen Plattformen (Webwatch auf spektrum.de) und – nicht zu vergessen – Leser-Kommentare, die mir zeigen, dass sich tatsächlich echte Menschen mit den von mir geäußerten Gedanken befassen. Wirklich geadelt fühlte ich mich, als ein Beitrag für gut genug befunden wurde, um bei den Scilogs zu erscheinen.

Inzwischen nutze ich Links auf einzelne Blogposts oft dazu, potentiell an unserer Software Tesla Interessenten einen ersten Eindruck zu geben, was genau die Vorteile sind, wenn man sich darauf einlässt, unser virtuelles Labor zu nutzen. Oder um meine Theorie zur Entstehung des Textes im Voynich-Manuskript knapp zu erläutern. Oft – wie gerade jetzt – verfalle ich auch ins Meta-Bloggen, also in die bloggende Betrachtung des Bloggens selbst. Ich verspreche aber, dass ich mich in nächster Zeit wieder um Sachthemen aus meinem angestammten Wissenschaftsbereich kümmern werde. Bloggen macht Spaß, darf aber nicht zum Selbstzweck werden…

Quelle: http://texperimentales.hypotheses.org/572

Artikel, Plagiat, presse

Plagiatsverwirrung leichtgemacht

25. Oktober 2012 Keine Kommentare

Ich bin mir immer noch nicht sicher, wie ich mich zum Plagiatsfall der Bundesministerin für Bildung und Forschung, Annette Schavan, stellen soll. Als der Fall öffentlich wurde, habe ich mir ungefähr die Hälfte der damals angezeigten Fundstellen für Plagiate angeschaut und nichts besonders Weltbewegendes gefunden. Deshalb hatte ich der Bundesministerin vorerst abgenommen, dass sich die “Unsauberkeiten”, zu denen etwa Zitate aus zweiter Hand gehörten, durch die damalige Arbeitsweise mit Zettelkasten statt Rechnerunterstützung ergaben. Auch wenn ich mir jetzt einzelne Fundstellen im eigens für die Untersuchung dieser Dissertation eingerichteten Schavanplag ansehe, finde ich vor allem Grenzfälle zum Plagiat, die mit Sicherheit in jeder wissenschaftlichen Arbeit vorkommen, die aber bei gehäuften Auftreten gewiss auf die ein oder andere Art sanktioniert werden müssten.

Der Fall Schavan ist kein Fall Guttenberg, heißt es immer wieder und das ist natürlich richtig. Das ist allerdings auch eine Nullaussage – kein Fall, der auf der Plattform Vroniplag untersucht wurde, kommt auch nur in die Nähe der phantastischen Arbeit des ehemaligen Verteidigungsministers, die ich nach wie vor eher für ein Kollagenkunstwerk denn für irgend etwas anderes halte. Das wird besonders deutlich, wenn man die Daten auf eine geeignete Weise visualisiert bekommt, wie das etwa der “User 8″ im Guttenplagwiki gemacht hat:

Visualisierung der Fundstellen in Guttenbergs Dissertation, Quelle: http://images2.wikia.nocookie.net/__cb20110403154536/guttenplag/de/images/8/86/Thumb_xxl.png

Visualisierungen sind natürlich immer nur Abstraktionen der eigentlichen Daten, die uns aber bei der Interpretation helfen können (auch Tesla, unser Programm zur Textprozessierung, verfügt deswegen über eine Reihe von Visualisieren, die ich hier schon einmal vorgestellt habe).

Solche Vereinfachungen der Datenlage sind aber auch gefährlich, wie ein aktuelles Beispiel aus der Online-Ausgabe der Süddeutschen zeigt: Offenbar völlig losgelöst von der Arbeit, die bei Schavanplag öffentlich und nachvollziehbar geleistet wurde, verlinkt der betreffende Artikel eine anscheinend in Eigenregie erstellte “Interaktive Grafik”, die im guten Fall nur Naivität der Onlineredaktion ausdrückt, im schlechten Fall dazu dienen soll, die Öffentlichkeit über den Fall Schavan bewusst irrezuführen.

Insgesamt werden 10 Seiten der Dissertation von Frau Schavan “Originalquellen” gegenübergestellt. Durch gelbe und graue Unterlegungen sollen dabei “textidentische” und “geringfügig abweichende Entsprechungen” kenntlich gemacht werden. Betrachtet man die erste der aufgeführten Seiten näher, wird einem bewusst, was für einen Bock die Süddeutsche hier geschossen hat:

“Interaktive” Gegenüberstellung der Dissertation von Schavan mit “Originalquellen”, Seite 62 auf sueddeutsche.de

Bemerkenswert ist zunächst, dass die Seite 62 im Schavanplag überhaupt nicht als Seite auftaucht, die ein mögliches Plagiat enthält. Haben da die investigativen Süddeutsche-Leute etwa präziser gearbeitet als das Wiki-Kollektiv? Mitnichten – wenn man einen genaueren Blick auf die Gegenüberstellung wirft, fällt einem auf, dass die Originalquellen hier zwei Texte von Luhmann sind, die gleich mehrfach von Frau Schavan referenziert werden, sowohl im Text (“will Niklas Luhmann”, “Luhmann äußert”), als auch in Fußnoten (genaue Angaben der Werke inkl. Seitenzahlen; nicht im Bild). Die Übernahme bzw. Klärung von Luhmanns Schlüsselbegriffen (einzelne Wörter!) als Plagiat zu kennzeichnen ist genauso lächerlich wie gefährlich – was sollen denn die armen jungen Menschen denken, die wissenschaftliche Arbeiten verfassen müssen und dann mit sowas konfrontiert werden?

Ich weiß nicht, was die Süddeutsche in dem Fall geritten hat – wie geschrieben basiert das Ganze im besseren Fall auf einem Versehen, im weniger verzeihlichen Fall auf Ahnungslosigkeit. Im Kontext des einbettenden Artikels könnte man auch auf die Idee kommen, dass die Süddeutsche hier die Öffentlichkeit bewusst verwirren will, um den Fall Schavan mit unlauteren Mitteln zu verharmlosen.

Über die Reaktion der Süddeutschen berichtet ein Update-Artikel, außerdem wurde die chronologische Entwicklung in einem Storify zusammengestellt.

Quelle: http://texperimentales.hypotheses.org/543

Artikel, Blog, Geisteswissenschaften, naturwissenschaften

Traut euch!

20. September 2012 Keine Kommentare

Wer hier öfter mal reinschaut, wird mitbekommen haben, dass mein letzter größerer Post nicht hier veröffentlicht wurde, sondern Ende letzter Woche als Gastbeitrag im Fischblog, dem Blog von Lars Fischer bei den Scilogs erschien. Hintergrund der Aktion war, dass Lars über Twitter Geisteswissenschaftler dazu aufgerufen hatte, Gastbeiträge einzureichen, um damit ihr Fachgebiet einem größeren (und vorwiegend naturwissenschaftlich orientierten) Publikum näherzubringen.

Ich habe diese Aufforderung gerne angenommen, auch weil ich ein regelmäßiger Leser des Fischblogs bin (Untertitel:”Wissenschaft für alle”), wo Themen aus den unterschiedlichsten Spektren unterhaltsam aufbereitet werden, aber zugleich so informativ sind, dass man nach der Lektüre zumindest glaubt, beim nächsten Gespräch darüber mitreden zu können. Als es noch Ranglisten zur Beliebtheit und Reichweite wissenschaftlicher Blogs gab (ich finde jedenfalls keine mehr, die nach September 2011 erschienen ist), war der Fischblog immer mit vorne dabei. Ich sah es daher als eine Herausforderung an, etwas für diesen Blog zu schreiben, und als eine Ehre, falls das dann auch angenommen würde.

Für mich bot sich durch die Aktion auch die Gelegenheit, noch einmal einen Bogen zu schlagen über die Posts, die ich hier vorher veröffentlicht hatte und dabei die Grundlagen darzustellen, auf denen ich meine wissenschaftliche Arbeit aufbaue. Das war nicht gerade einfach – ich hatte eben nur diesen einen Schuss (Gastbeitrag) frei, in dem das gelingen musste. Tatsächlich wurde es so auch der Artikel, an dem ich am längsten gearbeitet habe, als ich mich fertig wähnte, hat Lars noch einige Einwände gehabt, die allesamt berechtigt waren und deren Beherzigung den Artikel noch den letzten Schliff gaben. Letzten Freitag ging der Artikel dann online und ich durfte ihn selbst mitankündigen:

Was lange währt, spuckt endlich Blut – der @fischblog hat tatsächlich meinen Gastbeitrag veröffentlicht – scilogs.de/wblogs/blog/fi…

— jhermes (@spinfoCL) September 14, 2012

Ich bin wirklich froh, den Schritt auf die (für mich) großen Scilogs gegangen zu sein, obwohl ich mich hier, beim (noch) kleinen Schwesterportal de.hypotheses, weiterhin sehr wohl, weil gut betreut fühle.

Mit einem Mal hatte sich meine Reichweite vervielfacht. Während ich hier positiv geschätzt (wenn man das Grundrauschen abzieht) vielleicht 200 Leser bzw. Klicks pro Post habe, waren es jetzt auf den Scilogs mehr als 1500. Seit ich bei de.hypotheses bin, muss ich nicht mehr alleine auf meine Posts aufmerksam machen (was übrigens auch ein guter Grund ist, hierher zu wechseln), von 37 Tweets bzw. Retweets auf Twitter bin ich aber sonst weit entfernt. Zumal eine Reihe von Tweets auch mit lobenden Kommentaren versehen waren, habe ich mich sehr darüber gefreut.

Der Austausch mit Lars, der eine explizit naturwissenschaftliche Position in der Auseinandersetzung auf meinen Text eingenommen hat, war sehr fruchtbar. Sowohl für das Hinterfragen der eigenen Grundlagen, als auch in der Verteidigung unserer Art, Wissenschaft zu betreiben. Hier, bei de.hypotheses ist ein tolles Blogportal entstanden, in dem wir Geisteswissenschaftler in unseren schon sehr heterogenen Forschungsbereichen austauschen können und wo wir uns gegenseitig über die Schultern schauen lassen. Dort, bei den Scilogs, möchte der Fischblog uns die Möglichkeit bieten, unsere wissenschaftliche Arbeit einem größeren, eher naturwissenschaftlich geprägten Publikum, zugänglich zu machen. Ich habe meinen Gastbeitrag mit der Feststellung begonnen, dass Geisteswissenschaft bei vielen Naturwissenschaftlern einen schweren Stand hat und dass ich den gerne verbessern würde. Kann ich aber natürlich nicht alleine – wenn überhaupt (bin ja nur Computerlinguist) habe ich allenfalls eine kleine Stehhilfe bauen können, zumindest waren die ersten Reaktionen positiv. Deshalb fände ich es schön, wenn noch weitere Geisteswissenschaftler diesem Aufruf folgen würden:

Der Gastbeitrag von @spinfocl war ein voller Erfolg. scilogs.de/wblogs/blog/fi… Suche weiterhin Gastbeitrag-willige Geisteswissenschaftler. #blog

— Lars Fischer (@Fischblog) September 17, 2012

Wenn ich die Reaktionen meiner Redaktion hier richtig gedeutet habe, ist sie auch nicht böse, wenn man diese Plattform vorübergehend untreu wird. Schließlich ist ein Blogpost ja auch immer Werbung – für das Blogportal, für den eigenen Forschungsbereich, für den eigenen wissenschaftlichen Ansatz und – natürlich – auch für sich selbst. Also: Traut euch!

Lars Fischer ist ganz einfach über www.scilogs.de oder seinen Twitteraccount @Fischblog zu erreichen.

Quelle: http://texperimentales.hypotheses.org/506

« Zurück 1 … 8 9 10 11 Weiter »