Experiment – Planet Clio

Artikel, dhiha6, Digital Humanities, Experiment, neues

Jenseits der Metaphorik: Experimente in den Digital Humanities #dhiha6

7. Juni 2015 Keine Kommentare

Wie kommen wir in den Geisteswissenschaften zu wissenschaftlichen Ergebnissen? Verkürzt gesagt durch die hermeneutische Interpretation von Texten, Bildern und Objekten, durch das narrative Füllen von Leerstellen, die uns diese aufgeben, durch spezifische Verknüpfungen, die in der Geschichtswissenschaft zumeist eine temporale Struktur aufweisen. Idealtypisch folgen wir dabei einer Fragestellung, verwenden standardisierte Methoden, bemühen uns um Berücksichtigung verschiedener Standpunkte und sind uns der eigenen Subjektivität beim Abfassen einer Darstellung bewusst. Für Experimente bleibt dort kein Platz, es sei denn, man meint Gedankenexperimente¹ oder definiert schon das “Sich-auf-die-Suche-machen- und-nicht-wissen-ob-es-zum-Thema-Material-gibt” als Experiment.

Zur Beantwortung einer bestehenden oder zur Generierung einer neuen Forschungsfrage jedoch, also als Methode im Erkenntnisprozess mit empirischen Anteil – und darum soll es hier gehen -, werden in den traditionellen Geisteswissenschaften keine Experimente gemacht. Wer dennoch von Experimenten spricht, meint zumeist ein “Ausprobieren”.

Anders, so scheint es, in den Digital Humanities: Experimente sind hier – allein schon sprachlich – omnipräsent. Lisa Spiro zufolge ist die Sprache der Digital Humanities voller Ausdrücke, die mit Experimenten verbunden sind.

[...]

Quelle: http://dguw.hypotheses.org/257

dhiha6, Experiment, Laboratory

Experimenting research design: Digital Humanities-Laboratories #dhiha6

18. Mai 2015 Keine Kommentare

On the second day of the conference “Digital Humanities Experiments #dhiha6” at the German Historical Institute Paris (DHIP) we will experiment in different Laboratories (see the arcticle “The program explained“). Four live experiments will be organised and the participants can choose according to their interests.

Laboratory 1: Aggregate, visualize and browse information about researchers and their activities

Lambert Heller (TIB Hannover) and David Chavalarias (ISC-PIF, Paris)

Data-Experiments and Visualization with Open Science VIVO beta and communityexplorer.org

Nowadays, information about researchers and their activities can be found everywhere on the web, and there is nothing wrong with that in principle. A closer look reveals a more desperate situation: Many variations on the closed silo. On the one hand there are the classics like Web of Science (expensive, includes only traditional research products like the peer review journal article), on the other hand closed institutional systems (like Elsevier Pure, Thomson Reuters Converis) that are not mainly made for the web and its public.

[...]

Quelle: http://dhdhi.hypotheses.org/2479

Blog carnival, Bloggen, dhiha6, Experiment, Projekte des DHI

Blog carnival: Experimente in den Digital Humanities #dhiha6

17. April 2015 Keine Kommentare

Call for Blogartikel im Rahmen des Studientages #dhiha6 – “Experimente in den Digital Humanities”

Am 12. Juni findet in Paris die sechste Ausgabe des Studientages zu den Digital Humanities statt, organisiert vom Deutschen Historischen Institut Paris, dem Cléo, dem Institut d’études avancées und der European Sciences Foundation. Der Studientag zum Thema „Experimente“ stellt die Möglichkeit dar, Praktiken zu testen und die „wissenschaftliche“ Herangehensweise der Geistes- und Sozialwissenschaften zu hinterfragen, ein Themenfeld, das durch die Entwicklung der Digital Humanities begünstigt wird.

Aus diesem Grund und um diese sechste Ausgabe der Tagungsreihe gebührend zu begehen, rufen die Organisatoren in diesem Jahr zu einem Call for Blogartikel zum Thema „Experimente in den Digital Humanities“ auf. Dieser Call bietet so die Gelegenheit, vier Forschungspraktiken zu erproben:

Der Call for Papers als ein Call for Blogartikel.
Diese Blogartikel durchlaufen anschließend ein Open Peer Review (OPR)-Verfahren, ein noch wenig erprobtes und in Zukunft weiterzuentwickelndes Verfahren.
Der „OPR-Sprint“, d.h. ein Open Peer Review binnen weniger Stunden während des Studientages, dient dem Testen der Onlinepublikation der Blogartikel und des Einbezuges der Kommentare.
Abschließend erfolgt die Publikation der Blogartikel sowie (ebenso online) der Beiträge des Studientages, ausgehend vom OPR und nach Einarbeitung der Kommentare durch die Autoren der Blogartikel.

Einige Themen werden an dieser Stelle vorgeschlagen, wobei die Liste nicht vollständig ist und Blogbeiträge gern darüber hinaus gehen können:

Labore und Experimente in den Geistes- und Sozialwissenschaften
Entwicklung von Forschungsproblematiken durch Experimente
Interpretation als Experiment
Scheitern im Forschungsprozess
Forschungsinfrastukturen als Raum für Experimente
Interdisziplinäre Experimente
Einführung eines Versuchsprotokoll in den Geistes- und Sozialwissenschaften
Gemeinschaftliche Experimente: Wissenschaft und Gesellschaft, Crowdsourcing
Visualisierung von und Experimente mit Daten
Lehren von Experimenten in den Geistes- und Sozialwissenschaften

Die Blogbeiträge sollen zwischen dem 20. April und dem 31. Mai 2015 auf Französisch, auf Deutsch oder auf Englisch publiziert werden. Bitte verwenden Sie den Hashtag #dhiha6 im Titel und verlinken Sie den Artikel in einem Kommentar unter diesen Beitrag. Die Beiträge bitte gleichzeitig an die folgende Mailadresse schicken: sdumouchel [at] dhi-paris.fr. Wir sind gespannt auf die Beiträge!

______________________

Abbildung: Chemistry Spectacular von Wellington College, Lizenz CC BY-NC 2.0

Quelle: http://dhdhi.hypotheses.org/2405

Blog carnival, Bloggen, dhiha6, Experiment, Projekte des DHI

Blog carnival: Experimente in den Digital Humanities #dhiha6

17. April 2015 Keine Kommentare

Call for Blogartikel im Rahmen des Studientages #dhiha6 – “Experimente in den Digital Humanities”

Der Call for Papers als ein Call for Blogartikel.
Diese Blogartikel durchlaufen anschließend ein Open Peer Review (OPR)-Verfahren, ein noch wenig erprobtes und in Zukunft weiterzuentwickelndes Verfahren.
Der „OPR-Sprint“, d.h. ein Open Peer Review binnen weniger Stunden während des Studientages, dient dem Testen der Onlinepublikation der Blogartikel und des Einbezuges der Kommentare.
Abschließend erfolgt die Publikation der Blogartikel sowie (ebenso online) der Beiträge des Studientages, ausgehend vom OPR und nach Einarbeitung der Kommentare durch die Autoren der Blogartikel.

Einige Themen werden an dieser Stelle vorgeschlagen, wobei die Liste nicht vollständig ist und Blogbeiträge gern darüber hinaus gehen können:

Labore und Experimente in den Geistes- und Sozialwissenschaften
Entwicklung von Forschungsproblematiken durch Experimente
Interpretation als Experiment
Scheitern im Forschungsprozess
Forschungsinfrastukturen als Raum für Experimente
Interdisziplinäre Experimente
Einführung eines Versuchsprotokoll in den Geistes- und Sozialwissenschaften
Gemeinschaftliche Experimente: Wissenschaft und Gesellschaft, Crowdsourcing
Visualisierung von und Experimente mit Daten
Lehren von Experimenten in den Geistes- und Sozialwissenschaften

______________________

Abbildung: Chemistry Spectacular von Wellington College, Lizenz CC BY-NC 2.0

Quelle: http://dhdhi.hypotheses.org/2405

dhiha6, Digital Humanities, Experiment

CfP: Scholarships for young researchers to attend “Digital Humanities Experiments” #dhiha6

10. März 2015 Keine Kommentare

Paris will host a week of Digital Humanities events from 8^{th –}12th June 2015. A ThatCamp will be organized by LabEx EHNE together with Cléo and the Campus Condorcet at the beginning of the week (8^th – 11^th June) which will be followed by #DHIHA6, a conference at the German Historical Institute Paris about Experiments in Digital Humanities. This meeting will provide an opportunity to exchange ideas and practices in a friendly and open atmosphere.

While experiments are fundamental to the Natural Sciences, the Humanities have traditionally rarely engaged in them. For the former, a hypothesis is tested on one or several datasets and possibly with different methods, again and again, until the results are considered solid; in the latter, it is usually one method that is applied, once, to one dataset. Aspects such as defining an experimental protocol, adjusting parameters, identifying and correcting biases, iterating a protocol or using different methods or different datasets do not belong to the research culture in the humanities. This affects not only the individual researcher’s methodological standards, but also the communicational and infrastructural context in which he/she works, from the place taken by teamwork to grant requirements, including such a major aspect as the integration of failure into the research process.

Like Sociology or Psychology, Digital Humanities evolve at the interface of these two polarized tendencies in research culture. While they address research questions which could not have been devised without the centuries of traditional humanities which preceded them, they are equally inconceivable without dataset comparisons, the development of new methods and iteration. What is more, these methodological fundamentals often transcend individual disciplines and require input from elsewhere – not only from computer science, but also, possibly, from related disciplines like history, literary studies or linguistics. It is precisely this kind of interdisciplinary – and experimental – way of doing research that brings together diversely tailored scholarly endeavours under the (meta)disciplinary umbrella of Digital Humanities.

This conference addresses the gap between the research culture with which Digital Humanists are equipped via their disciplinary backgrounds and the research culture they foster as Digital Humanists. Why does experimentation play a crucial role in the Digital Humanities? How does it contribute to defining the relationship between method and research question, often still in such a way that traditional humanists cannot “see” the contribution to the research question behind the digital contribution? Which institutional barriers can be identified that currently prevent the Digital Humanities from developing their full potential, leaving little room for iteration, comparison or failure?

Programme

#DHIHA6 will start on 11th June at 6pm at the German Historical Institute in Paris with a presentation by Julianne Nyhan (University College London). She will speak on the role of oral history and experiments in Digital Humanities. Friday will be dedicated to different workshops and laboratories. The conference itself will be an experiment, as we want to alternate presentation of prepared papers with other, highly dialogical forms of approaching and discussing the subject (ThatCamp, World Cafés etc.). It will be organised around 8 WorldCafés, 3 lounges and 4 laboratories, among them:

WorldCafé 1: Simulation in historical science

WorldCafé 2: Citizen Science and crowdsourcing

WorldCafé 3: What does not work? Failure in Research Projects

WorldCafé 4: How to define a protocol?

WorldCafé 5: Research infrastructure as experiments

Three different Data-laboratories

Translation laboratory

Media Lounge: Twitter, Interviews

Open Peer Review Lounge

In order to broaden the exchanges at the conference, 13 scholarships will be awarded to young researchers to enable them to attend this event: €300 for young French researchers and €500 for young researchers from other countries. The scholarships will contribute to transportation and / or accommodation cost (receipts required).

To submit an application, simply send before April 1st, 2015 a presentation of your research (15 lines) and a short explanation of your interest in the event (15 lines), to Suzanne Dumouchel, sdumouchel @ dhi-paris. fr

The working language will be English but applications can be sent in English, French or German. A reply will be sent around April 15th, 2015.

This event is organized by the German Historical Institute in Paris (DHIP), the consortium OpenEdition, the Humboldt-Universität zu Berlin, the Scientific Review Group HUM and especially enjoys the support of the European Science Foundation (covering 10 scholarships) and the Institute for Advanced Studies in Paris (3 scholarships).

______

Image: ‘Experiment with light‘ by Georg Dresler, CC-BY-NC 2.0

Quelle: http://dhdhi.hypotheses.org/2390

CfP, dhiha6, Digital Humanities, Experiment, Tagungen

CfP für Stipendien für Nachwuchswissenschaftlerinnen und Nachwuchswissenschaftler #dhiha6

2. März 2015 Keine Kommentare

#DHIHA6 – Digital Humanities Experimente – 11. und 12. Juni 2015

Vom 8. bis zum 12. Juni 2015 steht Paris ganz im Zeichen der Digital Humanities. Während ein vom Cléo organisiertes THATCamp zu Beginn der Woche (8. bis 11. Juni) stattfindet, ist das Ende der Woche #DHIHA6 gewidmet, einer Tagung in sechster Auflage, die dieses Jahr Experimente und Erfahrungen in den Mittelpunkt rückt. Dieses Zusammentreffen ermöglicht verschiedenen Forschenden aus dem Bereich der Digital Humanities sich in einem offenen Dialog zu Ideen und Praktiken auszutauschen.

Experimente kommen traditionell aus den Naturwissenschaften. Die Entwicklung der Digital Humanities, die das Feld der Geistes- und Sozialwissenschaften erweitern, ermöglichen das Ausprobieren von Praktiken und die Durchführung von Experimenten. Dieser neue Forschungsbereich erlaubt die Multiplikation von Arbeitsmethoden, die Diversifizierung von Kriterien und neue Anwendungsbereiche. Die Forschungspraktik, aber auch der Arbeitskontext und die genutzten Werkzeuge befinden sich im Umbruch. So entwickelt sich das kollaborative Arbeiten im Forschungsprozess, das lange den Naturwissenschaften vorbehalten war, ebenso stellt die Niederlage einen wesentlichen Bestandteil der Forschungsarbeit dar, nicht um die Arbeit zu diskreditieren, sondern – im Gegenteil – zur Bereicherung der Perspektiven und zur Konfrontation von Hypothesen.

Dem Beispiel der Soziologie oder der Psychologie folgend positionieren sich die Digital Humanities zwischen experimentellen Wissenschaften und den Geistes- und Sozialwissenschaften, zwischen zwei Polen der Forschung, zwischen zwei Arten von Praktiken. Die Forschungsobjekte, die in den Geistes- und Sozialwissenschaften auf lange Forschungstraditionen zurückblicken, werden mit neuen Forschungsmethoden untersucht. Zudem tragen die Digital Humanities zur Entwicklung einer pluridisziplinären Perspektive bei, indem sie sich nicht nur auf die Informatik, sondern auch auf die Geschichte, die Literaturwissenschaft, die Linguistik, etc. stützen. Genau diese Art von Interdisziplinarität und experimenteller Herangehensweise charakterisieren das Feld der Digital Humanities.

Im Zentrum der Tagung steht die Verschiedenheit der Praktiken, zwischen Forschenden aus den Digital Humanities und Forschenden der Geistes- und Sozialwissenschaften. Was können wir über die Bedeutung des Experiments im Bereich der Digital Humanities sagen? Inwiefern trägt dies dazu bei, die Verbindung zwischen Methodik und Forschungsfrage zur definieren? Welche Wissenschaftskultur entwickelt sich aufgrund dessen (Positionierung Niederlagen, Vergleichen, etc. gegenüber)?

Programm

Die Tagung #DHIHA6 beginnt am 11. Juni um 18 Uhr am DHIP mit einer Präsentation von Julianne Nyhan vom University College Londen zur Rolle von Experimenten im Bereich der Digital Humanities. Der Freitag ist Workshops und Vorträgen vorbehalten. Die Tagung an sich stellt eine neue Form dar, alternierend zwischen traditionellem Tagungsformat und verschiedenen Experimenten (ThatCamp, Word Cafés). Fünf Panels und zwei Laboratorien sind geplant:

Panel 1: Simulation in historical science

Panel 2: Citizen Science: crowdsourcing, crowdfunding

Panel 3: Visualisation: mindmapping & Co.

Laboratory: Data

Panel 4: What does not work? Failure in Research Projects

Panel 5: Data Experiments

Laboratory: New forms of literature: Collective writing (Mini-Booksprint)

Um den Austausch zu fördern, werden 13 Stipendien an Nachwuchswissenschaftlerinnen und Nachwuchswissenschaftler vergeben, die ihnen die Teilnahme an der Veranstaltung ermöglichen: 300 Euro für französische und 500 Euro für aus dem Ausland kommende Nachwuchswissenschaftler und -wissenschaftlerinnen. Die Stipendien dienen (bei Vorlage eines Nachweises) der Erstattung von Reise- und/oder Übernachtungskosten.

Für die Bewerbung wird das Zusenden einer Kurzpräsentation der eigenen Forschung (15 Zeilen) und ein Motivationsschreiben (15 Zeilen) bis zum 1. April an Suzanne Dumouchel (sdumouchel [at] dhi-paris.fr) erbeten.

Die Arbeitssprache ist Englisch, wobei die Bewerbungen in Französisch, Englisch oder Deutsch verfasst werden können. Um den 15. April werden die Antworten verschickt.

Die Veranstaltung wird vom Deutschen Historischen Institut, OpenEdition, der Humboldt-Universtität zu Berlin sowie der Scientific Review Group HUM organisiert und wird insbesondere von der European Science Foundation (Finanzierung von 10 Stipendien) und dem Institut d’Etudes Avancées de Paris (Finanzierung von 3 Stipendien) unterstützt.

____________________

Abbildung: lightbulb-idea von r. nial bradshaw, Lizenz CC BY 2.0

Quelle: http://dhdhi.hypotheses.org/2380

@9nov38, Artikel, blogs, Experiment, reichspogromnacht, resonanz, wissenschaftliches arbeiten

@9nov38 – Digitale Stolpersteine zum Gedenken an die Reichsprogromnacht

11. November 2013 Keine Kommentare

von Michael Schmalenstroer

Am 9. November jährt sich die Reichspogromnacht zum 75. Mal. Dies haben wir als Anlass für ein Experiment genommen. Ziel ist es, die Novemberpogrome „zeitversetzt“ auf Twitter darzustellen. Ein kleines Team aus jungen HistorikerInnen, bestehend aus Moritz Hoffmann, Charlotte Jahnz, Petra Tabarelli, Christian Gieseke und mir, hat in den letzten Wochen Bücher gewälzt, ist in Archive gestiegen und hat die Ergebnisse auf 140 Zeichen komprimiert. Das ist aufgrund der Komplexität und Ungeheuerlichkeit der Vorgänge keine einfache Aufgabe.

Bei der Vorbereitung ist korrektes wissenschaftliches Arbeiten für uns zentral. Die Idee für das Projekt kam in Anlehnung an das MDR-Projekt @9nov89live, welches den anderen 9. November live twitterte. Dort wurde allerdings mit erfundenen Personen gearbeitet und diesen Stimmungen, Emotionen und Ereignisse „angedichtet“. Das machen wir nicht. Alle unsere Tweets besitzen eine Quellenangabe, und die Datenbank wird nach dem Projekt veröffentlicht. Twitter macht es leider mit seiner 140-Zeichen-Begrenzung schwer, Belege direkt in die Tweets einzufügen. Wir haben auch ein paralleles Blog aufgesetzt, in dem wir etwas längere Texte veröffentlichen und Quellen sammeln, die nicht auf Twitter passen. Weitere Aspekte und Überlegungen erläutern wir in unseren privaten Blogs.

Die Vorbereitung dabei lief sehr spontan – im Oktober hatte Moritz Hoffmann die Idee zu diesem Projekt und er trommelte fünf junge Historiker*innen zusammen: Charlotte Jahnz, Petra Tabarelli, Christian Gieseke und mich. Wir kennen uns nur über die Sozialen Netzwerke; ich hatte einzig Charlotte Jahnz einmal auf einem TweetUp getroffen. Auch die Vorbereitung erfolgte komplett via Internet: Eine Facebook-Gruppe dient zur Diskussion und Abstimmung, die Tweets werden in einer Google-Docs-Tabelle gesammelt und dann mit Hootsuite zum passenden Zeitpunkt automatisiert veröffentlicht. Wir machen keine langen und unproduktiven Meetings, halten keine Telefonkonferenzen und haben auch kein Budget. Die Kosten für unser Projekt liegen bei momentan 10€ für die Domain 9nov38.de plus ein paar Euro Kopierkosten.

Der Erfolg hat uns selbst überrascht. Momentan hat der Account mehr als 10.000 Follower, und wir haben allein am Donnerstag, 7. November, immerhin 650 Leute dazu gebracht, sich freiwillig eine Primärquelle zur Judenverfolgung anzuschauen. Mittlerweile berichten sogar Zeitungen über uns und wir dürfen sogar Radiointerviews geben. Die Tagesschau berichtete auf ihrer Webseite, der Heise Newsticker, die Rhein Neckar Zeitung, Spiegel Online, die Rhein Zeitung, der Kölner Stadtanzeiger und sogar im Ausland gibt es Erwähnungen (http://9nov38.de/reaktionen/). Für ein kleines Projekt mit gerade einmal einem Monat Vorbereitungszeit und ohne Budget ist das erstaunlich. Pressemitteilungen haben wir natürlich auch nicht verschickt; die Reaktionen wurden wohl über Twitter und Blogs auf uns aufmerksam und kamen dann selbst auf uns zu.

Das neue OpenBlog von de.hypotheses bietet die Gelegenheit, einmal selbst in die Welt des Bloggens hineinzuschnuppern. Ich schreibe bewusst nicht „die neue Welt des Bloggens“, denn Blogs sind jetzt schon seit 10 Jahren etabliert. Das Projekt @9nov38 zeigt dabei, was möglich ist. Die Publikationskosten liegen praktisch bei Null und die Aufmerksamkeit übersteigt häufig die von gedruckten Texten. Außerdem – und das ist vielleicht das wichtigste – macht es Spaß¹, gerade weil die alten Probleme wegfallen. Statt sich um Druckkostenzuschüsse zu bemühen und dann einen Sammelband mit Miniauflage zu veröffentlichen, kann man am Wesentlichen arbeiten und innerhalb kürzester Zeit ein interessantes Projekt mit großer Resonanz auf die Beine stellen. Also einfach mal machen, ausprobieren und experimentieren!

Spaß ist bei einem Thema wie dem 9. November natürlich der falsche Begriff. Bei der Recherche gab es mehr als einen Moment, bei dem ich richtig geschluckt habe.

Quelle: http://openblog.hypotheses.org/50

Artikel, Empirie, Experiment, tesla, validität, Wissenschaftstheorie

Scheitern als Chance – Testen durch Fehler

30. November 2012 Keine Kommentare

Momentan experimentiere ich mit Marcos Zampieri zu Eigenschaften von brasilianisch-portugiesischen Internettexten. Dabei geht es unter anderem darum, spezifisches Vokabular aus diesen zu extrahieren und anhand dieses Vokabulars die Texte wiederum nach ihrer Internetness zu klassifizieren. Die Studie erscheint demnächst als Paper, hier will ich deswegen nicht über die Ergebnisse schreiben, sondern nur eine (zumindest für uns) lehrreiche Begebenheit aus der Entwicklungsphase schildern.

Aus wissenschaftlichen Veröffentlichungen lässt sich nur in den seltensten Fällen herauslesen, welche Fehlschläge auf dem Weg zu den letztlich öffentlich gemachten Versuchsaufbauten und Ergebnissen die Autoren hinnehmen mussten. Um zu zeigen, dass solche Fehlschläge durchaus fruchtbar sein können, muss ich zunächst etwas weiter ausholen und bei den drei Gütekriterien empirischer Studien beginnen, die ja, wie allgemein bekannt, die folgenden sind:

Validität – Misst das gewählte Verfahren tatsächlich das, was es messen soll?
Reliabilität – Funktioniert die Messung zuverlässig, sind die Ergebnisse im Wiederholungsfall stabil?
Objektivität – Wurden die Ergebnisse unabhängig vom Prüfer erzielt?

Auch wenn man – wie wir – ein Labor gebaut hat, in dem alles, was man experimentell anstellt, protokolliert wird, so dass die Ergebnisse im Normalfall (d.h., wenn man die Ausgangsdaten und die Werkzeuge in den entsprechenden Versionen nicht verlegt) jederzeit reproduziert werden können, sind diese drei Kriterien natürlich nicht automatisch erfüllt.

Wir (Computer)Linguisten wollen z.B. Aussagen über Sprache treffen und analysieren dafür Sprachdaten. Diese Aussagen sind natürlich immer abhängig von der Auswahl der Sprachdaten, die wir getroffen haben. Natürliche Sprachen sind ja leider kein abgeschlossenes System (im Gegensatz z.B. zum Text aus dem Voynich Manuskript, jedenfalls solange dessen fehlende Seiten nicht irgendwo auftauchen). Die Auswahl betrifft vor allem die beiden letzten oben genannten Gütekriterien, die Reliabilität (bleiben die Aussagen gleich, wenn ich eine andere Auswahl treffe) und Objektivität (bleiben die Aussagen gleich, auch wenn jemand anders die Auswahl trifft).

Die Validität betrifft mehr die Werkzeuge, die im Analyseprozess verwendet werden – zunächst einmal müssen sie korrekt funktionieren (wer selbst einmal Algorithmen implementiert hat, weiß wahrscheinlich sehr gut, welche Fehler dabei auftreten können). Darüber hinaus muss aber auch irgendwie festgestellt werden, ob sich die Messungen der gewählten Werkzeuge wirklich dazu eignen, darauf die zu treffenden Aussagen zu gründen.

Im kombinierten Programmier/Experimentier-Prozess, in dem man sich befindet, wenn man neue Werkzeuge erstellt, die dann auch umgehend für empirische Studien eingesetzt werden, muss man sich überlegen, wie man die Validität denn am besten testen kann. Und um jetzt endlich zum Punkt dieses Artikels zu kommen: Ich möchte hier einen solchen Test beschreiben, der in der Form gar nicht geplant war und nur durch einen Fehler zustande kam.

Um, wie wir das vorhatten, die Internetness von Texten bzw. Dokumenten zu ermitteln, kann man sie z.B. mit einem Referenzkorpus vergleichen und schauen, inwieweit sich Spezifika in Abgrenzung zu diesem ermitteln lassen. Es gibt unterschiedliche Methoden, die Keywordness von einzelnen Termen (Wörtern) zu berechnen, im Bereich des Information Retrieval (also im Umfeld von Suchmaschinen) wird häufig der Quotient aus Termfrequenz und inverser Dokumentfrequenz (TF/IDF) hinzugezogen. Für den Vergleich von Korpora eignet sich unserer Meinung nach die Berechnung der Log-Likelihood-Ratio (LLR) für einzelne Termes besser. Um es ganz simpel zu erklären: Das Vorzeichen der LLR gibt für jeden Term an, ob er stärker mit dem Untersuchungskorpus oder mit dem Referenzkorpus assoziiert ist. Noch einfacher: In welchem Korpus er häufiger vorkommt. Allerdings zählen dabei nicht die absoluten Häufigkeitsunterschiede (welche die frequentesten Wörter, also {und, der, die, das} usw. aufweisen würden), die LLR relativiert diese stattdessen (wie sie das tut, passt gerade nicht hier rein). Summiert man nun die LLR-Werte der Token jedes Korpus-Dokumentes und teilt diese Summe durch die Länge des entsprechenden Dokuments, so erhält man vergleichbare Internetness-Werte für jedes Dokument.

Ein Experiment, das den im Text beschriebenen Workflow über einzelne Komponenten realisiert. Von oben nach unten: Korpora, Tokenizer, Frequenz-Zähler, LLR-Berechner, Ranker für Dokumente (die hier in Paragraphen repräsentiert sind) nach den LLR-Werten ihres Vokabulars.

Auf den ersten Blick war fatal, dass uns der Fehler unterlief, unsere Korpora mit Texten unterschiedlicher Encodings zu bestücken. Das ist für Tesla normalerweise kein Problem, wenn nicht gerade alle zusammen in einem Archiv hochgeladen werden, was wir aber getan haben. Das Resultat war, dass alle Wörter mit Umlauten im Internet-Korpus korrekt dargestellt wurden, diese aber im Referenz-Korpus nie auftauchten, weil dessen Encoding zerschossen war. Resultat war, dass não (portugiesisch für nein, falsch encodiert nÃ£o), offenbar in unserem Korpus das frequenteste Wort mit Sonderzeichen, den höchsten LLR-Wert erhielt. Texte, die lediglich aus não bestanden, bekamen deshalb den höchsten Wert für ihre Internetness.

Das Ergebnis entsprach natürlich keinesfalls dem, das wir erhalten wollten, dennoch hatte die Tatsache, dass wir einen so blöden Fehler gemacht hatten, auch einen gewichtigen Vorteil: Dadurch, dass wir ein so falsches, aber absolut nachvollziehbares Ergebnis erhielten, konnten wir Rückschlüsse bezüglich der Validität des Verfahrens bzw. die Richtigkeit der Algorithmen-Implementationen innerhalb der Komponenten ziehen: Wir hatten genau das gemessen, was aufgrund unseres Fehlers gemessen werden musste. Den Fehler konnten wir einfach korrigieren, die Ergebnisse veränderten sich dementsprechend – auch wenn sie weiterhin bemerkenswerte, durch die Korporaauswahl bedingte, Artefakte enthalten (da muss ich allerdings auf die wissenschaftliche Veröffentlichung vertrösten). Wir waren in einem ersten Versuch gescheitert, aber gerade dieses Scheitern hatte uns einen relativ starken Hinweis auf die Validität unseres Verfahrens gegeben. Und ich finde, das ist schon einen Blogpost wert, zumal solche produktiven Fehlschläge nur sehr selten Platz in wissenschaftlichen Veröffentlichungen finden.

Quelle: http://texperimentales.hypotheses.org/620