Kurzbericht zum DARIAH-DE-Expertenworkshop »Controlled Vocabularies for Historical Place Types«

Am 10. und 11. November fand in der historischen Domus universitatis in Mainz, dem Sitz des Leibniz-Instituts für Europäische Geschichte (IEG) ein DARIAH-DE-Expertenworkshop zum Thema »kontrollierte Vokabulare für Typen historischer Orte« statt. Diese Thematik ist ein Schwerpunkt der  Arbeiten des IEG in DARIAH-DE, wobei der räumliche und zeitliche Fokus dabei zunächst auf dem mittelalterlichem und frühneuzeitlichen Europa liegt. Das Ziel des Workshops war es, Experten aus verschiedenen Disziplinen an einen Tisch zu holen und Prinzipien für die Entwicklung eines kontrollierten Vokabulars für historische Ortstypen und eine ersten Version eines Grundvokabulars zu entwickeln.

expert_workshop

Der Expertenworkshop in Mainz war durch intensive Diskussionen, aber auch durch große Übereinstimmung zwischen den Teilnehmern gekennzeichnet.

Am Workshop nahmen 19 Experten aus Deutschland, Österreich, der Schweiz, Frankreich, Polen, Großbritannien und Norwegen und natürlich die Organisatoren vom IEG (Michael Piotrowski, Giovanni Colavizza und Anna Aurast) teil. Am ersten Tag eröffnete Giovanni Colavizza den Workshop mit einer Einführung in das Thema unter dem Titel »Kontrollierte Vokabulare und Geisteswissenschaften: Probleme einer Beziehung« und stellte den Ansatz des Projekts, nämlich die funktionale Kategorisierung von historischen Ortstypen, vor und beschrieb die damit verbundenen Herausforderungen. Anschließend fand eine erste Diskussion, verbunden mit einer Vorstellungsrunde statt.

Im Anschluss stellten mehrere der eingeladenen Experten ihre Projekte vor:

  • Francesco Beretta und Charlotte Butez (CNRS/Université de Lyon): »The SyMoGIH project (Système modulaire de gestion de l’information historique) and the issue of the historical place types«
  • Marco Jorio (Historisches Lexikon der Schweiz): »Geographical categories in the Historical Lexicon of Switzerland«
  • Luc Schneider (Universität des Saarlandes): »On Sites and Functions: the BFO approach (Basic Formal Ontology)«
  • Franziska Ruchti (Diplomatische Dokumente der Schweiz): »The DODIS Database – geriatric challenges of a fountain of youth«).
  • Kai-Christian Bruhn (Fachhochschule Mainz): »On the use of controlled vocabularies at the Institute for Spatial Information and Surveying Technology«
  • Bogumił Szady (Instytut Historii Polskiej Akademii Nauk): »Sacral objects and church administration units as a subject of historical spatio-temporal databases«
  • Pascale Sutter (Rechtsquellenstiftung des Schweizerischen Juristenvereins): »Places in the Collection of Swiss Law Sources«
  • Marek Słoń (Instytut Historii Polskiej Akademii Nauk): »Types of settlements in Poland in the 16th century.

Abschließend wurden die Erkenntnisse aus den Präsentationen und das Projekt des IEG miteinander verglichen und diskutiert. Das gemeinsame Abendessen fand – passend zum Thema des Workshops – im »Heiliggeist« statt, das sich in einem 1236 ursprünglich als Spital erbauten Gebäude befindet, dessen wechselvolle Geschichte sehr gut die Problematik der Klassifikation historischer Orte illustriert.

Am zweiten Tag des Workshops fand zunächst intensive Arbeit in zwei Gruppen statt, fokussiert auf das Vorhaben des IEG-Projektes zur funktionalen Kategorisierung von historischen Ortstypen.  Eine Gruppe beschäftigte sich anhand von konkreten Beispielen historischer Orte mit den Funktionen, die verschiedenen Typen von Orten inhärent sind; in der anderen Gruppe anderen wurde über konzeptuelle Ansätze und Beschreibungsformalismen diskutiert. Anschließend wurden im Plenum die Ergebnisse aus den beiden  Gruppen analysiert. Zum Abschluss wurden die Ergebnisse des Workshops und die zukünftige Arbeit besprochen.

Durch den Workshop gelang es uns, eine Diskussion über kontrollierte Vokabulare für Ortstypen anzustoßen, die aus verschiedenen Fach- und Forschungsperspektiven geführt wurde. Durch die Veranstaltung ist eine kleine Community von interessierten Wissenschaftlern aus verschiedenen Fachrichtungen entstanden, die noch weiter wachsen soll. Der von IEG vorgeschlagene Ansatz wurde ausführlich diskutiert, verbessert und wird zurzeit weiter entwickelt und implementiert.

In der Zukunft wollen wir weitere wissenschaftliche Communities einbinden, um sinnvolle Erweiterungen des Vokabulars zu diskutieren. Parallel sollen grundlegenden Prinzipien für kontrollierte Vokabulare in den Geisteswissenschaften erforscht werden, um die Entwicklung von weiteren Vokabularen für andere Anwendungen in der nächsten Projektphase vorzubereiten.

Quelle: http://dhd-blog.org/?p=2589

Weiterlesen

Computerlinguistik und Digital Humanities

In einem Kommentar zu meinem Kurzbericht von der GSCL 2013 hat Patrick Sahle folgendes geschrieben:

Das finde ich spannend: Computerlinguistik/Sprachtechnologie ist
nach diesem Beitrag KEIN “Teil” von DH, sondern macht (auch) Sachen,
die für DH relevant sind.

Michael, könntest Du ein paar Hinweise dazu geben,
a) wieso CL/ST nicht als Teil der DH aufzufassen sind und
b) wie Du DH definierst, so dass man daraus ableiten kann, welche
CL/ST-Themen für die DH einschlägig/relevant/interessant sind
?
Das würde bei mir vermutlich vieles erhellen.

Ich möchte hier zunächst Frage (a) beantworten, also die Frage, ob Computerlinguistik (CL) und Sprachtechnologie (NLP) ein »Teil« der Digital Humanities sind. Diese Frage führt natürlich direkt zur Frage, was die Digital Humanities sind. In meinem Buch definiere ich sie wie folgt:

The emerging field of digital humanities aims to exploit the possibilities offered by digital data for humanities research. The digital humanities combine traditional qualitative methods with quantitative, computer-based methods and tools, such as information retrieval, text analytics, data mining, visualization, and geographic information systems (GIS).

Nach meiner Definition ist DH also die Ergänzung traditioneller geisteswissenschaftlicher Methoden durch rechnergestützte quantitative Methoden und Werkzeuge zur Beantwortung geisteswissenschaftlicher Forschungsfragen.

Was ist unter CL und NLP zu verstehen? CL und NLP hängen eng zusammen, im üblichen Sprachgebrauch wird CL meist für stärker linguistisch und theoretisch orientierte Forschung verwendet, während NLP nicht umsonst oft auch als »language engineering« bezeichnet wird: Hier geht es nicht um linguistische Forschungsfragen, sondern primär darum, effektive und effiziente Algorithmen, Datenstrukturen usw. für die Verarbeitung natürlicher Sprachen zu erforschen und für praktische Anwendungen nutzbar zu machen. Ein gutes Beispiel dafür ist die aktuelle Forschung im Bereich der maschinellen Übersetzung (MÜ).
Diese Definition nimmt bereits einen Teil der Antwort vorweg: NLP ist meines Erachtens kein Teil der DH, da sich NLP nicht mit geisteswissenschaftlichen Forschungsfragen beschäftigt. Die Situation ist vergleichbar mit der Rolle von NLP in der Pharmaforschung: Biomedizinisches Textmining spielt ein wichtige Rolle, dennoch ist Sprachtechnologie kein Teil der Pharmazie.

Auch wenn NLP kein Teil der DH ist, ist NLP aber eine wichtige Grundlage, oder, wie ich es in meinem Buch (S. 10) ausgedrückt habe: »NLP—and NLP for historical texts in particular—should be considered a foundation for the emerging discipline of digital humanities.«
Wenn Computerlinguistik und Sprachtechnologie nicht das selbe sind, wie sieht es dann mit der Computerlinguistik aus? Die Linguistik wird ja üblicherweise zu den Geisteswissenschaften gerechnet.

Zunächst ist hier zu beachten, dass die Linguistik eine der »naturwissenschaftlichsten« geisteswissenschaftlichen Disziplinen ist; ihre Methoden unterscheiden sich deutlich von – zum Beispiel – der Geschichtswissenschaft oder der Literaturwissenschaft.
Dazu kommt, dass sich die Computerlinguistik in den letzten 50 Jahren weitgehend von der Linguistik emanzipiert hat. Natürlich gibt es noch Forscher in der Computerlinguistik, die linguistische Fragestellungen bearbeiten, der Mainstream hat sich aber stark in Richtung NLP entwickelt. Wissensfreie statistische Verfahren haben sich etabliert, und angesichts der schnellen Erfolge, die man mit ihnen insbesondere in der MÜ erreicht hat, muss man sich heutzutage für regelbasierte, linguistisch motivierte Ansätze oft rechtfertigen. Die geringe Rolle der Linguistik in der Computerlinguistik wird andererseits aber auch seit einiger Zeit innerhalb der CL diskutiert (siehe etwa die Proceedings des EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics oder die Artikel Computational Linguistics: What About the Linguistics? von Karen Spärck Jones und What Science Underlies Natural Language Engineering? von Shuly Wintner).

Ich würde daher auch die heutige CL nicht – jedenfalls nicht als Ganzes – als Teil der DH betrachten. Da die CL aber eine der Grundlagen für NLP sind, sind sie auch eine Grundlage für DH.

CL-Forschung mit einer stärkeren linguistischen Ausrichtung – also quasi die »klassische« CL, bei der es um die rechnergestützte Modellierung sprachlicher Phänomene geht, um ein besseres Verständnis von natürlicher Sprache zu erreichen – könnte man durchaus als Teil der DH betrachten, diese Forschung ist aber heute eher in der Korpuslinguistik angesiedelt.
Die Antwort auf die Frage (a) ist jetzt schon recht lang geraten, daher werde ich mich mit (b) in einem weiteren Beitrag beschäftigen.

Quelle: http://dhd-blog.org/?p=2532

Weiterlesen

2 Konferenzen zu Digital Cultural Heritage im November 2013 am IWR Heidelberg

Diesen November finden am Institut für Wissenschaftliches Rechnen (IWR) der Universität Heidelberg zusammen mit der Heidelberger Akademie der Wissenschaften zwei international bedeutende Konferenzen zu Digital Cultural Heritage und den Einsatzmöglichkeiten des scientific computing statt. Mathematical modeling, simulation and optimization, image & data processing, visualization – das sind die Schlüsseltechnologien im Einsatz für Digital Cultural Heritage.

Vom 7.-8. November 2013 werden im Rahmen der „Digital Geoarchaeology“ Konferenz „New Technologies for Interdisciplinary Human-Environmental Research” fokussiert. Das Programm bringt hochkarätige Vertreter der Archäoinformatik zusammen, die neuste Forschungsergebnisse wichtiger Projekte zur Diskussion stellen. Eine Registrierung ist bis 6. November möglich.

http://digitalgeoarchaeology.wordpress.com/programme/

Noch nicht einmal zwei Wochen später folgt vom 18.-20. November 2013 die Konferenz „Scientific Computing and Cultural Heritage“, die besonders digitale Methoden in den Vordergrund stellt. Hierbei wird ein weiter Bogen gespannt: sowohl räumlich im internationalen Kontext als auch methodisch in Verknüpfung mit Projekten der Digital Humanities, die den transdisziplinären Charakter der Konferenz unterstreichen. Eine Registrierung ist noch bis 31. Oktober möglich.

http://scch2013.wordpress.com/schedule-program/

Quelle: http://dhd-blog.org/?p=2487

Weiterlesen

Verweigertes Kulturgut. Über ein Kirchenarchiv, freie Forschung und Laizismus

Historiker erforschen vergangene Kulturen. Deren Zeugnisse können Gegenstände sein – und Schriften. Letztere sind für mich der wichtigste Weg, um an die katholischen Religionskulturen des 16. Jahrhunderts heranzukommen. Was dem Archäologen die Ausgrabungsstätte oder dem Kunstwissenschaftler das Museum, ist dem Historiker deshalb das Archiv. Freie Forschung braucht freien Zugang zu den Archiven und freie, moderne Arbeitsbedingungen in diesen. Auch in Kirchenarchiven. In Regensburg ist das auf eine empörende Art nicht möglich. Über meine Erlebnisse dort möchte ich einen Beitrag zur Blogparade “Mein faszinierendes Kulturerlebnis”, die sich auch an Historiker wendet, von Kultur-Museum-Talk beisteuern. Faszinierend war meine Regensburger Erfahrung allerdings mehr im anthropologischen Sinn. Ich lernte bei dem, was mir im Bischöflichen Zentralarchiv (BZAR) widerfuhr, wenig über Geschichte. Dafür viel über Auswüchse des (Archiv-)Systems Kirche und dessen klerikale Funktionäre. Es geht um de facto verweigerten Zugriff auf Archivmaterial. Es war im April 2012. Ich bin auf meiner ersten wirklich langen Archivreise durch Ostbayern unterwegs. Nach einer Station in Passau komme ich für einige Tage ins Diözesanarchiv Regensburg. Die Quellenlage dort ist für mich vielversprechend. Es geht um Berichte über Predigerauseinandersetzungen und vor allem einen großen Packen Briefe des Dompropstes von Reisen durch das Alte Reich in den 1520er Jahren.1 Ein Ego-Dokument [...]

Quelle: http://catholiccultures.hypotheses.org/1773

Weiterlesen

Kurzer Bericht von der GSCL 2013 in Darmstadt

Die diesjährige Tagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2013) fand vom 25. bis zum 27. September 2013 an der TU Darmstadt statt, mit Workshops am 23. September und Tutorials am 24. September. Ich berichte aus zwei Gründen hier im DHd-Blog über die GSCL 2013: Zum einen hat man mich freundlich darum gebeten, zum anderen wies GSCL 2013 eine bemerkenswerte Anzahl von Beiträgen mit DH-Bezug auf.

Zu den Workshops kann ich leider nichts sagen, da ich am Montag noch nicht in Darmstadt war, hier verweise ich aufs Workshop-Programm. Im Tutorial-Programm am Dienstag waren die Digital Humanities zweifach vertreten, vormittags mit meinem Tutorial »Natural Language Processing for Historical Texts« (Folien), nachmittags mit »Text Analysis and Mining for Digital Humanities« (gehalten von Caroline Sporleder, Universität Trier).

Die eigentliche Konferenz wurde am 25. September mit einem eingeladenen Vortrag »Big Data and Text Analytics« von Hans Uszkoreit (DFKI) eröffnet. Danach gab es zwei parallele Sessions, von denen sich eine mit Sprachverarbeitung für Social-Media-Texten beschäftigte (Melanie Neunerdt, Bianka Trevisan, Michael Reyer, Rudolf Mathar: »Part-of-Speech Tagging for Social Media Texts«, Ines Rehbein: »Fine-Grained POS Tagging of German Twitter Data«, Manuel Burghardt, Alexander Bazo, Christian Wolff: »TWORPUS – An Easy-to-Use Tool for the Creation of Tailored Twitter Corpora«) und die andere mit computerlinguistischen Themen (Sabine Schulte Im Walde, Maximilian Köper: »Pattern-based Distinction of Paradigmatic Relations for German Nouns, Verbs, Adjectives«, Noëmi Aepli, Martin Volk: »Reconstructing Complete Lemmas for Incomplete German Compounds«, Thomas Bögel, Anette Frank: »A Joint Inference Architecture for Global Coreference Clustering with Anaphoricity«).

Nach der Mittagspause trugen die Kandidaten für den GSCL-Preis für die beste studentische Abschlussarbeit vor:

  • Marcel Bollmann (Ruhr-Universität Bochum): »Automatic Normalization for Linguistic Annotation of Historical Language Data« – auch das ein Thema mit starkem Digital-Humanities-Bezug –,
  • Yevgen Chebotar (TU Darmstadt): »Dialog Act Classification in Wikipedia Discussion Pages« und
  • Steffen Remus: »Automatically Identifying Lexical Chains by Means of Statistical Methods – A Knowledge-Free Approach«.

Im Anschluss fand die Mitgliederversammlung der GSCL statt. Aus DH-Perspektive ist insbesondere berichtenswert, dass die Mitglieder einstimmig die Einrichtung des Arbeitskreises »CL4DH: Computerlinguistik für Digital Humanities« guthießen. Der Arbeitskreis wird von Anette Frank (Universität Heidelberg) und Anke Lüdeling (HU Berlin) geleitet. Ziel des Arbeitskreises ist es, die Leistungsfähigkeit computerlinguistischer Werkzeuge und Verfahren für den Einsatz in den Digital Humanities zu verbessern. Hierfür sollen spezielle Bedürfnisse, Fragestellungen und Interessensgebiete aus den Digital Humanities in eine gemeinsame Forschungsagenda aufgenommen werden. Außerdem sollen Desiderata der aktuellen computerlinguistischen Forschung für das Deutsche analysiert werden, um durch Community-Aktivitäten die Qualität computerlinguistischer Werkzeuge für den Einsatz in den Digital Humanities zu verbessern. Weitere Informationen zum Arbeitskreis finden sich auf seiner Webseite.

Der Donnerstag begann mit einer Poster-Session. Aus einer DH-Perspektive möchte ich hier vor allem die Poster »Technological Support for Older Germanic Languages« (Christian Chiarcos, Timothy Price, Maria Sukhareva) und »Erkennung interpersonaler Relationen in XML-kodierten Texten mit lokalen Grammatiken« (Sophia Stotz, Valentina Stuss) hervorheben.

Bei den folgenden parallelen Paper-Sessions hatte vor allem Claes Neuefeinds Vortrag »Collaboratively Building Corpora – a Case Study for Romansh« einen DH-Bezug. Nach der Mittagspause gab es eine weitere Poster-Session, bei der auch wieder mehrere Arbeiten mit DH-Bezug vorgestellt wurden, etwa »Building and Analyzing a Massively Parallel Bible Corpus« (Thomas Mayer, Michael Cysouw) und »Computational Humanities« (Alexander Mehler, Rüdiger Gleim, Andy Lücking, Giuseppe Abrami, Tim vor der Brück, Zahurul Islam, Armin Hoenen).

Anschließend gab es einen weiteren eingeladenen Vortrag, »Distributed Wikipedia LDA« von Massimiliano Ciaramita. Danach wurde der GSCL-Preis für die beste studentische Abschlussarbeit verliehen, und zwar an Marcel Bollmann – und damit für eine Arbeit mit starkem DH-Bezug, siehe oben. Der Tag endete mit dem sehr gelungenen Konferenzdinner im Biergarten »Zum Scheinheil’gen«.

Der Freitag begann mit dem eingeladenen Vortrag »Multimodal Sentiment Analysis« von Rada Mihalcea und der Verleihung der GSCL-Ehrenmitgliedschaft an Burghard Rieger. Leider konnte ich an der abschließenden Kaleidoskop-Session nicht mehr teilnehmen, an der weitere Arbeiten mit DH-Bezug vorgestellt wurden; dazu gehörten die Vorstellung des Arbeitskreises »Computerlinguistik für Digital Humanities« durch Anette Frank und Anke Lüdeling, »Digital Humanities Text Analysis: Needs and Deeds« von Sabine Bartsch und Andrea Rapp, »SeNeReKo – Netzwerkanalyse für die Religionsgeschichte« von Frederik Elwert und »Graph Databases for the Exploration of Large Corpora in the eHumanities« von Thomas Efer.

Je nach Forschungsfrage sind natürlich noch weitere als die genannten Vorträge und Poster für Forscher in den Digital Humanities interessant; ich habe mich hier auf die beschränkt, bei denen der Bezug explizit ist und verweise auf die Proceedings. Festzuhalten ist auf jeden Fall, dass die Digital Humanities in der Computerlinguistik als interessantes Anwendungsgebiet wahrgenommen werden und sich als solches auch etabliert haben.

 

 

Quelle: http://dhd-blog.org/?p=2418

Weiterlesen

Was macht Frankreichs neue Historiker-Generation? Eine Bestandsaufnahme

Die Annales-Dominanz ist schon lange passé. Auch die Repräsentationsgeschichte riecht nicht mehr ganz frisch. Gibt es also etwas wirklich Neues bei den jungen französischen Historikerinnen und Historikern? Auch anderswo bewegen sich ja die kunstvoll hochstilisierten “Brüche” doch im mehr oder weniger kulturkonstruktivistischen Mainstream. Die Wenden sind heute eher thematischer Natur. Vorbei der cultural turn, her mit dem animal turn. Während somit die inhaltliche Zersplitterung fortschreitet, muss die Frage gestellt werden: Gibt es noch eine gemeinsame Richtung, die die Historiker-Generation des frühen 21. Jahrhunderts einzig und wiedererkennbar macht? Was führt uns zusammen und grenzt uns ab? Zu dieser Problematik ist mir in Paris ein Buch in die Hände gefallen, das bezüglich der jüngeren französischen Wissenschaft einige spannende Fingerzeige gibt. 17 Autorinnen und Autoren fragen im von Christophe Granger herausgegebenen und eingeleiteten Band: “À quoi pensent les historiens? Faire de l’histoire au XXIe siècle”. Bis auf wenige Ausnahmen sind die Beiträger Franzosen, arbeiten in Frankreich oder über Frankreich. Sie geben in der Summe ein griffiges Bild davon, was links des Rheins state of the art ist. Reflexionen dieser Art erscheinen in Frankreich etwa alle 20 Jahre. 1974 veröffentlichten Jacques Le Goff und Pierre Nora in drei Bänden “Faire de l’histoire”, die während [...]

Quelle: http://catholiccultures.hypotheses.org/1309

Weiterlesen

Ullrich Dittler u.a. (Hrsg.): E-Learning: Eine Zwischenbilanz Kritischer Rückblick als Basis eines Aufbruchs, Münster u.a. 2009

http://www.waxmann.com/fileadmin/media/zusatztexte/2172Volltext.pdf Nach mehreren Förderprogrammen auf Ebene des Bundes und einiger Länder sowie nach 40 Jahren Bildungstechnologie, wird in diesem Buch kritisch hinterfragt, was an nachhaltigen Projekten, konkreten Materialien, Werkzeugen und Konzepten für praktizierende Lehrende eigentlich vorgewiesen werden kann. Eine Zwischenbilanz stellt sich – wie in den verschiedenen Beiträgen dieses Buches deutlich wird – aus Sicht […]

Quelle: http://www.einsichten-online.de/2013/09/4697/

Weiterlesen

Uni Oslo: Blinde Studenten nutzen die Digitale Bibliothek im TextGrid Repository

Erfreuliche Nachrichten aus Norwegen: Am FB Deutsche Sprache und Literatur der Universität Oslo (ILOS / Institutt for litteratur, områdestudier og europeiske språk) nutzen blinde und sehbehinderte GermanistikstudentInnen die Digitale Bibliothek im TextGrid Repository erfolgreich als Studienquelle für literarische Primärtexte. Das berichtet uns Christian Janss, Editionsphilologe und Dozent für Deutsche Sprache und Literatur der dortigen Humanistischen Fakultät. Eine große Arbeitserleichterung für alle Beteiligten: Üblicherweise wird mühsam (und mit dem bekannt wechselhaften Erfolg) aus Printausgaben gescannt, anschließend via OCR in durchsuchbares Textformat umgewandelt; mehrere Korrekturgänge inbegriffen. Ein aufwendiges, zeitintensives Verfahren.

Demgegenüber lesen die norwegischen StudentInnen die Texte aus der Digitalen Bibliothek im TextGrid Repository direkt per Braillezeile aus. Scannen, OCR und Korrekturlesen entfallen, ebenso wie das mühsame Zusammensuchen verläßlicher Quellen im Internet; mit dem TextGrid Repository macht eine einzige URL eine große Anzahl verläßlicher, zitierfähiger und durchsuchbarer Primärtexte zugänglich.

Ein toller Anwendungsfall, den wir TextGridler bislang nicht bedacht haben!

220px-Refreshable_Braille_display
Braillezeile

 

Quelle: http://dhd-blog.org/?p=2215

Weiterlesen

Kleiner Versuch über Romangattungen

Ich arbeite an der Erstellung eines Romankorpus, das längere, deutschsprachige Erzähltexte von 1500 bis 1930 versammelt. Das Kernkorpus umfasst ca. 450 Romane, größtenteils deutschsprachige Originalromane, aber rd. 1/8 sind Übersetzungen, vor allem aus dem Englischen, Französischen und Russischen. Hinzu kommt ein größeres Korpus von zur Zeit rd. 1500 Texten (diese Zahl ist wirklich nur eine Schätzung, da die Texte noch zu sichten sind). Das Kernkorpus soll mit relativ ausführlichen Metadaten, etwa Druckort, Verlag, Originalsprache, Erzählform, Epoche und eben auch zur Gattung versehen werden. Die meisten dieser Angaben sind unproblematisch, Erzählform und Gattung sind es nicht. Schon die Kategorisierung eines längeren Prosatextes als Roman erweist sich als als andere als trivial, aber darum soll er hier nicht gehen. Sondern hier handelt es sich um die Frage nach Formen der Roman, nach den Gattungen der Gattung Roman.

Ein erster Lösungsversuch sah so aus: Da ich vermeiden wollte, dass die Gattungszuschreibungen ad hoc von mir vergeben werden, habe ich eine Hilfskraft beauftragt, aus einer Liste von Roman-Nachschlagewerken und Literaturgeschichten die Zuschreibungen herauszusuchen und ohne Vereinheitlichung zu notieren. Das Ergebnis war recht interessant (besten Dank Herr Weimer!). Da gab es Einträge wie „Briefroman::Künstler- und Liebesroman in Briefform::monologischer Briefroman“ (die Doppelpunkte trennen verschiedene Zuschreibungen) oder „Entwicklungsroman mit autobiographischen Zügen::Schelmenhafter Zeit- und Entwicklungsroman::Entwicklungs- und Zeitroman::Schelmenroman“ oder „Familienroman::moralisch-didaktischer Roman::Ich-Erzählung::Briefroman::aufklärerisch-bürgerlicher Roman“. Man kann dahinter ohne Probleme den Werther, den Simplizismus oder die Schwedische Gräfin erkennen.

Allerdings ist ein Begriff wie ‘monologischer Briefroman’ wohl keine Gattungsbezeichnung, vielmehr wird die Gattungsbezeichnung ‘Briefroman’ gemeinsam mit dem deskriptiven ‘monologisch’ zur Beschreibung verwendet. Viele der Begriffe scheinen eng verwandt zu sein, z.B. „Zeitroman::Gegenwartsroman::Gesellschaftsroman“. Dann finden sich Begriffe wie „Großroman“ oder „Altersroman“, die überhaupt keine Gattungsbegriffe im herkömmlichen Sinne sind, sondern lediglich klassifizieren und dabei manchmal auch bewerten. Leider zeigte sich außerdem, dass nur rd. 250 der Texte auf diese Weise beschrieben werden konnten; für die anderen 150 fanden sich in den Darstellungen keine Gattungsbezeichnungen.

Der nächste Schritt war die Vereinheitlichung der so zusammengetragenen Begriffe. Um für eine quantitative Auswertung brauchbar zu sein, geht es weniger um eine individualisierte Beschreibung des Einzelwerks, sondern um die Zuschreibung zu allgemeineren Kategorien, die es dann erlauben zu prüfen, ob man mit dieser Gruppe regelhaft Textmerkmale verbinden kann. Für diese Vereinheitlichung, aber auch für die Frage nach der Klassifizierung der übrigen 150 Texte wäre es nützlich auf eine existierende Systematik von Gattungsbegriffen zurückgreifen zu können. Die literaturwissenschaftliche Forschung scheint diese Frage bislang nicht systematisch verfolgt zu haben.

Eine erste Annäherung könnte über die Verwendung des Begriffs Roman in Zusammensetzungen geschehen. Dafür wäre eine Liste aller Komposita mit dem Wort ‘Roman’ ein guter Anfang. Die größte Menge an zugänglichen Sprachdaten bietet zur Zeit Google mit den Quellen für die N-Gramm-Suche. Für die Romankomposita habe ich die 1-grams verwendet (Version 20120701). Die Daten liegen in dieser Form vor: „Quasselbude_NOUN 1956 11 10“, wobei die Angabe der Wortklasse, die erst in der zweiten Version des Korpus hinzugekommen ist, nur teilweise vorliegt. Die erste Zahl bezeichnet das Jahr, die zweite die Anzahl der Vorkommen des Wortes und die dritte die Anzahl der Bände, in denen das Wort vorkommt.

Nach der Extraktion der Komposita, der Vereinfachung des Materials auf den Nominativ und einer manuellen Sichtung ergab dies eine Liste mit rd. 424 Einträgen vom „Alltagsroman“ über den „Haremsroman“ und den „Nichtroman“ bis zum „Zigeunerroman“. Zu jedem Begriff gibt es außerdem eine Frequenzangabe (Häufigkeit im ganzen Korpus). Die Zahl 424 ist cum grano salis zu nehmen, da man einige Einträge zusammenfassen konnte, z.B. „Debutroman“ und „Debütroman“ oder „Desillusionierungsroman“ und „Desillusionsroman“ oder sogar „Gegenwartroman“ und „Gegenwartsroman“.

Diese Liste ergibt keine Liste der Gattungsbezeichnungen und trotz ihrer Länge schon gar nicht eine vollständige. Einige der Begriffe sind keine Gattungsbezeichnungen, wenn man darunter „die als ge- und bewußte Normen die Produktion und Rezeption von Texten bestimmenden ‘historischen Textgruppen’“ versteht (Klaus Hempfer: „Gattung“ in: Klaus Weimar (Hg.): Reallexikon der deutschen Literaturwissenschaft Bd. 1, de Gruyter 1997, S. 651 ), sondern haben eine andere Funktion, z.B. „Debütroman“,“Emigrationsroman“,“Hauptroman“ oder „Lieblingsroman“. Einige beziehen sich außerdem auf einen einzigen Text (z.B. „Rosenroman“ oder „Josephsroman“). Die Liste enthält also Begriffe, die keine Gattungsnamen sind und andererseits gibt es noch mehr Bezeichnungen für Gattungen, die aber nicht als Kompositum aufgebaut sind, nämlich in der Verbindung von ADJ + NOUN, also z.B. „sozialer Roman“, „psychologischer Roman“, „philosophischer Roman“ usw. Diese sind in der ersten Fassung der Liste nicht enthalten.

Mit wenig Aufwand kann man aus den Daten, die ja die Verwendungshäufigkeit der Begriffe enthalten, ein Wordle erstellen, indem man einen Text generiert, der die Begriffe anteilig zu ihrer absoluten Häufigkeit enthält. Das Ergebnis sieht so aus:

romangattungen1

Leider ist ‘Kriminalroman’ so dominant, dass die anderen Begriffe sehr schnell in unlesbarer Kleinschreibung verschwinden. Wenn wir ihn aus dem Bild entfernen, ergibt sich diese informationsreichere Übersicht:

romangattungen2

Das ist hübsch. Und es ist ein erster Schritt auf dem Weg eines Überblicks über die Gattungsbegriffe für den Roman. Aber natürlich hat es nur einen eingeschränkten analytischen Wert. Die Ursachen für die hohe Frequenz eines Worts können sehr unterschiedlich sein. Die große Häufigkeit des ‘Kriminalromans’ etwa ergibt sich daraus, dass dies eine eingeführte paratextuelle Bezeichnung ist, die sich im Text findet (Meinem Wissensstand nach sind Titel und Untertitel Teil des Korpus). Der ‘Bildungsroman’ dagegen ist ein Begriff der Beschreibungssprache. Interessant sind Begriffe wie ‘Zeitroman’, die sich am Anfang des 20. Jahrhunderts in einer ganzen Reihe von Romantiteln finden, während er gegen Ende des Jahrhunderts häufiger in Texten über Romane zu finden ist.

Anders ausgedrückt: Die Analyse hat einen ersten Eindruck von der Häufigkeitsverteilung von Gattungsbegriffen ergeben, aber wir können nicht beurteilen, ob es sich hierbei um Begriffe der Objekt- oder Metasprache handelt. Das Problem könnte man möglicherweise lösen, wenn man in einem großen Bibliothekskatalog die Untertitel von Romanen systematisch unter der Perspektive auswertet, welche der hier aufgeführten Kategorien vorkommen. Das würde dann ihre Verwendung in der Objektsprache belegen. Außerdem könnte man, ausgehend von den Publikationsdaten der Romane überprüfen, ob ungefähr gleichzeitig die entsprechenden Begriffe geläufig sind, also Romanmetadaten und Ngramm-Daten abgleichen.

Ein weiteres Problem entsteht durch die Heterogenität der Gattungsbegriffe. Selbst wenn man die Begriffe aussondert, die offensichtlich keine Gattungen bezeichnen, bleibt eine Fülle von Begriffen übrig, die sich auf sehr unterschiedliche Aspekte beziehen, z.B. der inhaltsbezogene Begriff Abenteuerroman und der referenzbezogene Begriff Schlüsselroman. In dieser Form sind sie nur eingeschränkt tauglich für die Korrelierung mit den Ergebnissen von Clustering aufgrund von Textmerkmalen. Dieses Problem könnte durch eine genauere Analyse der Gattungsbegriffe gelöst oder zumindest mal aufgeräumt werden. Und wenn wir schon bei Zukunftsplänen sind: Die historische Information, wann welche Gattungsbegriffe häufiger zu finden sind, könnte man auch noch auswerten, aber das ist nicht ganz einfach zu visualisieren. So etwas ist noch zu unübersichtlich:

romangattungen3

(Link)

Insgesamt also noch ein weiter Weg zu einem brauchbaren Beschreibungssystem von Romangattungen, aber die Frequenzangaben helfen wohl bereits bei der Vereinfachung der vorliegenden Begriffe. Nun müssten noch die 150 anderen Texte zugeordnet werden. Hat jemand Evremont von Sophie Bernhardi gelesen und hätte einen Vorschlag zur Gattungszuordnung? Oder Bruno Willes Glasberg. Henriette von Paalzows Ste. Roche?

Quelle: http://dhd-blog.org/?p=2128

Weiterlesen

“The Future of Historical Network Research”: Konferenz vom 13.-15.09. in Hamburg

sponsoren-neu

Seit kurzem sind Programm und Registrierung für die Tagung The Future of Historical Network Research (13.-15.09., Uni Hamburg) online. Die Sessions haben u.a. die Themen Information Conceptualisation and Visualisation, Linked Data and Ontological Methods und Overlaps between Network Analysis in the Digital Humanities zum Gegenstand. Träger sind NeDiMAH – Network for Digital Methods in the Arts and Humanities, die ESF – European Science Foundation und das CGG – Centre for Globalisation and Governance der Universität Hamburg.

Programm und Anmeldung: http://conference.historicalnetworkresearch.org/

Quelle: http://dhd-blog.org/?p=2101

Weiterlesen