Statistik: Trau keiner!

<tl;dr> Ich kann mit einfachsten Verfahren phantastische Ergebnisse erzielen – wenn ich diese nur richtig überprüfe. 

Nach langer Zeit, in der ich vor allem an Dingen gearbeitet habe, die zu geheim, noch nicht spruchreif genug oder einfach zu langweilig für einen Blogpost waren, habe ich in dieser Woche endlich wieder ein lohnendes Thema gefunden. Es geht mal wieder um Statistik, diesmal allerdings mit konkretem Bezug zu einem Projekt, an dem ich gerade arbeite, aber auch zum letzten Post, den ich über das Thema verfasst habe (den über die Facebook-Likes-Studie).

Zur Zeit läuft bei uns das Nachfolgeprojekt zur Digitalen Rätoromansichen Chrestomathie, bei dem vorhandene lexikalische Ressourcen für die Annotation von bündnerromanischen Sprachdaten eingebunden werden sollen. Ich wurde mit der Evaluation beauftragt, inwieweit sich morphosyntaktische Informationen (bei Verben etwa Tempus, Numerus etc.) aus flektierten Wortformen ablesen lassen, deren Stammform sich eventuell gar nicht im Lexikon befindet. Zur Verfügung stehen mir dafür Listen über mehrere tausend Verben, die auf acht verschiedene Konjugationsklassen aufgeteilt sind. Auf Basis dieser Information sollte ich jetzt eine Art Ratespiel entwickeln, das für möglichst viele Verben die richtige Konjugationsklasse ermittelt.

Jetzt kann man sich vielerlei ausdenken, wie man die zur Verfügung stehende Information nutzt – spielt der erste Vokal, die Endung des Verbes, evtl. sogar seine Länge eine Rolle dafür, wie es konjugiert wird? Mein erster Gedanke war, genau solche Merkmale für die vorsortierten Verben zu ermitteln, um damit ein Modell zu trainieren, welches mir unbekannte Verben klassifiziert.

Zunächst wollte ich aber eine vernünftige Baseline haben – welche Ergebnisse liefert ein Verfahren, das nicht eigens entwickelt werden muss, sondern das ich direkt anwenden kann? Dafür bot sich ein n-Gramm-Rang-Modell an, das auch eingesetzt wird, um bei kurzen Texten zu erraten, in welcher Sprache sie verfasst sind. Dabei werden für möglichst viele Sprachen die Buchstabenfolgen bestimmter Länge (n-Gramme – bei Bigrammen zwei Buchstaben, bei Trigrammen drei usw.) nach ihrer Häufigkeit in Trainingstexten sortiert. Man spricht hier auch davon, dass ein Modell für die Sprache gebaut wird (auch wenn das hier ein sehr einfaches Modell ist). Das gleiche wird dann für den zuzuordnenden Text gemacht. Schießlich werden die Ränge der n-Gramme aus dem Testtext mit den Rängen aller Sprachmodelle verglichen  - es gewinnt die Sprache, bei der der geringste Unterschied besteht, was auch erstaunlich gut funktioniert.

Dieses Verfahren habe ich nun auf mein Rateproblem bezogen. Dabei habe ich aus 90% der Verbformen in meinen Listen n-Gramm-Modelle für die acht Konjugationsklassen gebaut und versucht die restlichen 10% diesen Klassen zuzuordnen. Eigentlich hatte ich keine großen Erwartungen an das Verfahren, da mir die Daten als zu kurz (meist <12 Zeichen) und zu wenig (einige Klassen enthalten weniger als 100 Einträge) erschienen, um verwendbare Modelle zu bauen. Um statistisch valide zu arbeiten, habe ich die Daten der einzelnen Klassen gescrambelt und das Leave-One-Out-Kreuzvalidierungsverfahren eingesetzt.

Die Ergebnisse dieses einfachen Modells erstaunten mich dann doch, auch die Tatsache, dass sie umso besser wurden, je größer ich das n der n-Gramme werden ließ. Nach der Kreuzvalidierung lag bereits das Unigrammmodell (also einfaches Buchstabenzählen) in über 50% der Zuteilungen richtig, das Bigrammmodell in über 70%, das Trigrammmodell in über 75%, ab dem Tetragrammmodell pendelt sich der Wert bei über 80% ein (der Erwartungswert wäre jeweils 12,5% gewesen). Ich konnte die Ergebnisse noch verbessern, indem ich die Daten vorsortierte:  Jeweils zwei der Klassen enden ihre Infinitivform auf -er bzw. -ir; drei der Klassen auf -ar. Wenn ich etwa für -er-Verben nur die betreffenden Klassen zur Auswahl stelle (also ausgehend von einem Erwartungswert 50%), habe ich bereits bei Trigrammen eine fast perfekte Zuordnung (99%), die dann ab Tetragrammen tatsächlich perfekt ist (100%). Bei -ar-Verben gilt das leider nicht in dem Umfang – mehr als 79% richtige Zuordnungen habe ich dabei nicht erreicht (Erwartungswert 33%). Naja, es sollte ja sowieso nur eine Baseline für ein elaborierteres Modell sein.

An dem Punkt erinnerte ich mich aber an die Studie, die behauptete, aus Facebook-Likes von Personen deren sexuelle Orientierung und noch einiges mehr ermitteln zu können. So sollten bspw. Personen mit homosexueller Orientierung vom System mit 88%iger Sicherheit erkannt werden. Allerdings wurde das in meinen Augen über eine etwas seltsame Methode evaluiert (ich schrieb drüber) – nämlich indem dem Algorithmus je eine Person mit homo- bzw. heterosexueller Orientierung präsentiert wurde und der dann nur noch entscheiden musste, welche Person zu welcher Gruppe gehört.

Ich habe jetzt diese Evaluation auch mal bei mir eingebaut, also jeweils Pärchen von Verben aus unterschiedlichen Klassen auf genau diese Klassen verteilen lassen. Auf einmal hatte ich jetzt nicht mehr knapp 80%, sondern über 99,9% Erfolgsquote bei der Zuteilung (33.748.628 korrekte Zuteilungen stehen 22722 falsche gegenüber). Aber halt – in der Facebook-Studie waren, wenn ich das richtig sehe, noch nicht einmal Trainings- und Testdaten getrennt (d.h. das Modell wurde mit den gleichen Daten trainiert, die hernach klassifiziert werden sollten). Dann hab ich mir die Kreuzvalidierung auch mal gespart – das Ergebnis: 3.377.132 richtige Zuteilungen, 3 falsche. Erfolgsquote 99,9999%. Dass diese Zahl so gut wie nichts mit Real-World-Anwendungen zu tun hat – geschenkt. Ich sollte wohl wirklich mal meine Skepsis zu fadenscheinigen Vorgehensweisen bei der Verwendung von Evaluationsmaßen über Bord werfen und  ein paar Papers schreiben.

Quelle: http://texperimentales.hypotheses.org/911

Weiterlesen

Das Geschlecht der Transzendenz – Bilder, Narrative, Werte – Ein Konferenzbericht von Annette Scherer

Vom 29. bis 30. November 2012 veranstaltete der Dresdner Sonderforschungsbereich (SFB) 804 den interdisziplinären Workshop „Das Geschlecht der Transzendenz – Bilder, Narrative, Werte“. Es beteiligten sich Wissenschaftler und Wissenschaftlerinnen aus neun Teilprojekten des SFB sowie Genderexpertinnen der Technischen Universität Dresden, … Weiterlesen

Quelle: http://soziologieblog.hypotheses.org/4731

Weiterlesen

Die Margareta Ebner-Handschrift aus Maria Medingen

Margareta Ebner (1291-1351) lebte als Dominikanerin im schwäbischen Kloster Maria Medingen (amtlich: Kloster-Mödingen, Gde. Mödingen, Lkr. Dillingen) und war eine Vertreterin der Frauenmystik des 14. Jahrhunderts. Ihre mystischen Erfahrungen zeichnete sie ab 1344 auf Anregung des Priesters Heinrich von Nördlingen auf. Im Kloster Maria Medingen wird eine um 1353 entstandene Handschrift aufbewahrt, die die älteste Überlieferung von Ebners Texten enthält. Diese Handschrift wurde vor kurzem durch das Münchener Digitalisierungszentrum gescannt und wird seit heute im Rahmen der Bayerischen Landesbibliothek Online präsentiert. Eine ausführliche Beschreibung [...]

Quelle: http://ordensgeschichte.hypotheses.org/4761

Weiterlesen

Internationale Konferenz “Public History of the Holocaust”

Die internationale Konferenz Public History of the Holocaust – Historical Research in the Digital Age hat die Auswirkungen des Internets auf die Holocaust-Forschung zum Thema und Möglichkeiten ihnen durch neue, digitale Forschungsinfrastrukturen zu begegnen. Sie wird am 9. Juli 2013 im jüdischen Museum in Berlin stattfinden.

Organisiert wird die die Konferenz von den Infrastrukturprojekten DARIAH (Digital Research Infrastructure for the Arts and Humanities), EHRI (European Holocaust Research Infrastructure) und TextGrid (Virtuelle Forschungsumgebung für die Geisteswissenschaften). Das Bundesministerium für Bildung und Forschung (BMBF) konnte als Förderer gewonnen werden.

Die Registrierung kann nur durch eine persönliche Einladung erfolgen. Bei Interesse melden Sie sich bitte bei Frau Dr. Heike Neuroth neuroth@sub.uni-goettingen.de.

Nähere Informationen zur Konferenz (in englischer Sprache): www.ehri-project.eu/public-history-holocaust.

Das digitale Zeitalter stellt HistorikerInnen gleichwie BesitzerInnen historischer Sammlungen vor besondere Herausforderungen – bietet aber gleichzeitig neue Möglichkeiten. Immer mehr Menschen haben durch das Internet nicht nur Zugang zu Daten, sondern können auch eigene Daten hochladen, anderen zur Verfügung stellen, analysieren und kommentieren und tragen so so einer neue (digitale) öffentliche Geschichtsschreibung bei.

Dies hat für die Holocaust-Forschung besondere Relevanz, da sie nie auf rein wissenschaftliche Forschung beschränkt war. Das Internet hat einen öffentlichen Raum geschaffen, in dem WissenschaftlerInnen zusammen mit historisch interessierten Laien zusammen Geschichte schreiben und analysieren können.

Eine zentrale Fragestellung der Konferenz wird sein, inwieweit neuartige digitale Methoden und Verfahren der Holocaustforschung Antworten auf neue und „alte“ Forschungsfragen liefern. So ist es z.B. möglich, mit Hilfe digitaler Methoden Hinweise auf die Namen der 2 Millionen noch unbekannten Opfer des Holocaust zu finden oder aber die genaue Struktur der Vernichtungslager digital zu rekonstruieren.

 

Quelle: http://dhd-blog.org/?p=1839

Weiterlesen

Gegenworte. Hefte für den Disput über Wissen Nr. 29 (Frühjahr 2013): Skandalisierung (in) der Wissenschaft

http://www.gegenworte.org/heft-29/gegenworteheft29.html Sei’s als Skandalisierung von Regelverstößen, sei’s als Strategie zur Erregung öffentlicher Aufmerksamkeit: Hier zeigt sich auch immer ein Kampf um Normen, Macht und Einfluss, um Deutungshoheit und Interpretationsvorherrschaft. Wer bestimmt, was skandalisierungsfähig ist? Vom Anspruch her sind Skandalisierungen in der Wissenschaft höchst fehl am Platz, denn hier sollten das bessere Argument zählen, die sachliche […]

Quelle: http://www.einsichten-online.de/2013/06/4530/

Weiterlesen

Museumsverband Mecklenburg-Vorpommern: Kulturgüter müssen dem Markt entzogen werden

Neulich meldeten wir einen Beschluss des Museumsverbands Mecklenburg-Vorpommern, der den Schutz der Kulturgüter in den Museen und musealen Einrichtungen des Landes anmahnte. Unser Dank gilt dem Vorsitzenden des Museumsbunds für den folgenden Gastbeitrag.

Der Museumsverband in Mecklenburg-Vorpommern e.V. beobachtet im Rahmen seiner Qualitätsanalysen zur Museumslandschaft in Mecklenburg-Vorpommern als Fachverband für die Museen und musealen Einrichtungen seit Jahren den Umgang mit den in den Sammlungen der Museen und musealen Einrichtungen enthaltenen Kulturgüter. Dabei geht der Verband von der Prämisse aus, dass Kulturgüter in jedem Falle als außergewöhnlich schutzwürdig und dem Markt entzogen gewertet werden müssen.

Im Jahr 2007 hat der Museumsverband auf seiner Jahrestagung einen offenen Brief zur Lage der Museen verabschiedet. Leider müssen wir bei der heutigen Durchsicht des Papiers feststellen, dass er nicht nur unverminderte, sondern fortschreitende Gültigkeit hat. Ein jüngster Präzendenzfall ist der Verkauf von Beständen aus dem Stralsunder Stadtarchiv. Der Museumsverband hat sich deshalb mit einem offenen Brief unter dem Titel “Kulturerbe und der Vertrag der Generationen” erneut an die Öffentlichkeit gewandt.
Zugleich empfiehlt und mahnt der Museumsverband seine Mitglieder zu einem sorgfältigen und fachlich korrekten Umgang mit den in den musealen Sammlungen bewahrten Kulturgütern. Zum Schutz der Objekte in ihren Sammlungen empfahl der Vorstand des Museumsverbandes deshalb in diesem Jahr seinen Mitgliedern, eindeutige Regelungen zur Abgabe von Kulturgut, zur Entinventarisierung oder Deakzession in ihren Satzungen und Sammlungskonzeptionen zu verankern.

Wir mahnen als Verband seit einiger Zeit den Schutz der Sammlungen an, da es im Denkmalschutzgesetz des Landes (http://www.landesrecht-mv.de/jportal/portal/page/bsmvprod.psml?showdoccase=1&doc.id=jlr-DSchGMVrahmen&doc.part=X&doc.origin=bs&st=lr) heißt: “Werden bewegliche Denkmale in einer öffentlichen Sammlung betreut, so bedürfen sie nicht der Eintragung in die Denkmalliste.“ Es wird im Gesetz also vernünftigerweise davon ausgegangen, dass in öffentlichen Sammlungen ein entsprechender Schutz besteht. Genau dieser besteht aber aus unserer Sicht nicht.

Darum auch die eigene Richtlinie, die sozusagen eine niederschwellige Empfehlung an die Museen im Land ist, einen Schutz des Museumsgutes, bei fehlendem gesetzlichen Schutz, in den Museumssatzungen zu verankern.

Insofern ist die Causa Stralsund Anlass für den Museumsverband in Mecklenburg-Vorpommern gewesen, erneut auch den Schutz der Objekte in Museumssammlungen zu thematisieren. Unsere Empfehlung (http://www.museumsverband-mv.de/fileadmin/user_upload/Deaczession.pdf) nimmt ausdrücklich Bezug auf den Leitfaden des Museumsbundes. Dieser behandelt den empfohlenen Umgang der mit den Sammlungen Betrauten mit diesen.

Dr. Steffen Stuth
Vorsitzender

Quelle: http://kulturgut.hypotheses.org/239

Weiterlesen

Das Lorscher Arzneibuch ist zum Weltdokumentenerbe der UNESCO erklärt worden

Wie üblich verzichtet die Online-Presse meist darauf, dem Leser als Service einen Link zu den Digitalisaten des jetzt in das UNESCO-Weltdokumentenerbe aufgenommenen Lorscher Arzneibuchs (Bamberg, Staatsbibliothek, Msc. Med. 1) mitzuteilen (löblich dagegen der BR). Die Rivalitäten deutscher Bibliotheken werden offenbar, wenn man feststellt, dass bei den beiden Bamberger Digitalisaten nicht auf das Heidelberger Partnerprojekt der Bibliotheca Laureshamensis digital verwiesen wird, wo eine aktuelle wissenschaftliche Beschreibung (Stand: Mai 2013) zu finden ist, und umgekehrt das Heidelberger Projekt keinen Link auf die Präsentationen in der Kaiser-Heinrich-Bibliothek [...]

Quelle: http://ordensgeschichte.hypotheses.org/4751

Weiterlesen

Being new in the field: Current projects in newspaper history

TDC Newspaper Staff 1880-90s © CC BY-SA Flickr-User Marion Dross

TDC Newspaper Staff 1880-90s © CC-BY-SA Flickr-User Marion Dross 

Not too long ago, in November 2011, I started working on something that would later become the topic of my master´s thesis. In a course on early modern pamphlet production I had to deal with the “Neue Zeitung”, something that was – at this point – relatively new to me. After I took the first few steps in research I got the feeling, that this was a rather old fashioned subject. The output of articles, book chapters or monographs was relatively low, many of those younger publications where still quoting Karl Schottenlohers (in these days) important work.

When I dived more into the subject, these thoughts suddenly vanished. Too much was to discover and too many different standpoints had to be checked that I was too busy thinking about how relevant my topic would be in the context of current scholarship.

I was reminded of these days when a fellow academic mentioned to me in an email, that far too little research is being done in the field of communication history and the history of early newspaper. As presumably most researchers in humanities, I agree on the fact that too little attention is paid to one´s very own subject. However, I thought about my long-gone bias and thought it needs to be revised.

If we take scholarly endeavors of working groups, conferences, publications, blogging and digital initiatives as signs of academic interest in the history of newspapers and the news, then there is a lot to discover. I am not claiming completeness for this little oversight of actual scientific endeavors. However, I think, they can give a pretty good insight and show how diverse and lively the community is at this particular moment.

 

Research projects / working groups

An interesting approach to newspaper history is currently being developed by the News Networks In Early Modern Europe under the guidance of Prof. Joad Raymond. The working group aims to look at the history of newspapers in an international perspective. This stands out in contrast to the research tradition of researching newspaper rather as a national than an international phenomenon. An upcoming symposium is scheduled for the 26th – 28th July 2013 and the list of speakers and topics can be found here.

Another conference dealt with economic aspects of newspaper printing and publishing from the Early Modern Period up until the 19th century. The conference The Business of Newspapers 16th-19th Century held at Liverpool University, 6th and 7th of June 2013, dealt with the questions:

- Which newspapers were most profitable?
– To what extent did newspapers fund the growth of print culture?
– How important was the advent of the professional journalist?
– Were newspapers forums for conversation, or loci of knowledge?
– Did newspapers reflect or shape society’s mores?
– What effect did newspaper readership have on the cityscape? On sociability?
– What effect did media narratives have on popular perceptions of law, sex, government, war, or money?
– Who subscribed to newspapers? Who read them?
– How effective were newspaper advertisements in generating revenue?

The proceedings of this conference are not yet published but the questions raised by the organizing committee touched several points in newspaper history that are only poorly researched and bear the potential to enlighten main aspects in newspaper history.

The working group The local press as poetry publisher 1800-1900, consisting of Andrew Hobbs and Claire Januszewski from University of Central Lancashire works with a more literature-focused view. In a number of posts they discuss their hypotheses that the national network of local newspapers was the largest publisher of nineteenth-century poetry, and the medium through which most encounters with poetry occurred.

 

Digitization

One aspect, featured already in the last post, is digitalization. Working with a larger amount of source material is easier, if you can remotely access it and browse it whenever you have the time. Large quantities are being digitized and can be accessed on the project website. Here, a group of 18 European library partners joined together with the aim of providing digital access to more than 18 million newspaper pages. The newspapers will be ocr-processed to give the user the possibility of digging deep into the text themselves. The focus if this project are early 20th century newspapers from the period of WW I.

Besides this rather large project, a number of smaller digitization projects are currently carried out. The university library of Heidelberg provides the community with a digital copy of the two oldest newspapers in the world, the Relation: Aller Fuernemmen und gedenckwuerdigen Historien.

The Gottfried Wilhelm Leibnitz library does something similar when it makes all 1609 issues of the Avisa Relation oder Zeitung printed in Wolfenbüttel available.

Once the newspapers are digitized, the matter of finding the right resources arises. Here, elephind.com, a search engine specialized in finding historic newspaper comes into play. However, it is more a help for the English speaking community, since its database consists mainly of Australian and US newspaper holdings in libraries in these two countries.

Austria is one of the countries besides Great Britain to have a relatively well documented newspaper history online. Selected newspaper can be accessed via the ANNO Project. A definite plus is the functionality of the website: newspapers can be accessed via a search term and also by browsing through a calendar.

Quelle: http://newsphist.hypotheses.org/39

Weiterlesen