Computerlinguistik und Digital Humanities

In einem Kommentar zu meinem Kurzbericht von der GSCL 2013 hat Patrick Sahle folgendes geschrieben:

Das finde ich spannend: Computerlinguistik/Sprachtechnologie ist
nach diesem Beitrag KEIN “Teil” von DH, sondern macht (auch) Sachen,
die für DH relevant sind.

Michael, könntest Du ein paar Hinweise dazu geben,
a) wieso CL/ST nicht als Teil der DH aufzufassen sind und
b) wie Du DH definierst, so dass man daraus ableiten kann, welche
CL/ST-Themen für die DH einschlägig/relevant/interessant sind
?
Das würde bei mir vermutlich vieles erhellen.

Ich möchte hier zunächst Frage (a) beantworten, also die Frage, ob Computerlinguistik (CL) und Sprachtechnologie (NLP) ein »Teil« der Digital Humanities sind. Diese Frage führt natürlich direkt zur Frage, was die Digital Humanities sind. In meinem Buch definiere ich sie wie folgt:

The emerging field of digital humanities aims to exploit the possibilities offered by digital data for humanities research. The digital humanities combine traditional qualitative methods with quantitative, computer-based methods and tools, such as information retrieval, text analytics, data mining, visualization, and geographic information systems (GIS).

Nach meiner Definition ist DH also die Ergänzung traditioneller geisteswissenschaftlicher Methoden durch rechnergestützte quantitative Methoden und Werkzeuge zur Beantwortung geisteswissenschaftlicher Forschungsfragen.

Was ist unter CL und NLP zu verstehen? CL und NLP hängen eng zusammen, im üblichen Sprachgebrauch wird CL meist für stärker linguistisch und theoretisch orientierte Forschung verwendet, während NLP nicht umsonst oft auch als »language engineering« bezeichnet wird: Hier geht es nicht um linguistische Forschungsfragen, sondern primär darum, effektive und effiziente Algorithmen, Datenstrukturen usw. für die Verarbeitung natürlicher Sprachen zu erforschen und für praktische Anwendungen nutzbar zu machen. Ein gutes Beispiel dafür ist die aktuelle Forschung im Bereich der maschinellen Übersetzung (MÜ).
Diese Definition nimmt bereits einen Teil der Antwort vorweg: NLP ist meines Erachtens kein Teil der DH, da sich NLP nicht mit geisteswissenschaftlichen Forschungsfragen beschäftigt. Die Situation ist vergleichbar mit der Rolle von NLP in der Pharmaforschung: Biomedizinisches Textmining spielt ein wichtige Rolle, dennoch ist Sprachtechnologie kein Teil der Pharmazie.

Auch wenn NLP kein Teil der DH ist, ist NLP aber eine wichtige Grundlage, oder, wie ich es in meinem Buch (S. 10) ausgedrückt habe: »NLP—and NLP for historical texts in particular—should be considered a foundation for the emerging discipline of digital humanities.«
Wenn Computerlinguistik und Sprachtechnologie nicht das selbe sind, wie sieht es dann mit der Computerlinguistik aus? Die Linguistik wird ja üblicherweise zu den Geisteswissenschaften gerechnet.

Zunächst ist hier zu beachten, dass die Linguistik eine der »naturwissenschaftlichsten« geisteswissenschaftlichen Disziplinen ist; ihre Methoden unterscheiden sich deutlich von – zum Beispiel – der Geschichtswissenschaft oder der Literaturwissenschaft.
Dazu kommt, dass sich die Computerlinguistik in den letzten 50 Jahren weitgehend von der Linguistik emanzipiert hat. Natürlich gibt es noch Forscher in der Computerlinguistik, die linguistische Fragestellungen bearbeiten, der Mainstream hat sich aber stark in Richtung NLP entwickelt. Wissensfreie statistische Verfahren haben sich etabliert, und angesichts der schnellen Erfolge, die man mit ihnen insbesondere in der MÜ erreicht hat, muss man sich heutzutage für regelbasierte, linguistisch motivierte Ansätze oft rechtfertigen. Die geringe Rolle der Linguistik in der Computerlinguistik wird andererseits aber auch seit einiger Zeit innerhalb der CL diskutiert (siehe etwa die Proceedings des EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics oder die Artikel Computational Linguistics: What About the Linguistics? von Karen Spärck Jones und What Science Underlies Natural Language Engineering? von Shuly Wintner).

Ich würde daher auch die heutige CL nicht – jedenfalls nicht als Ganzes – als Teil der DH betrachten. Da die CL aber eine der Grundlagen für NLP sind, sind sie auch eine Grundlage für DH.

CL-Forschung mit einer stärkeren linguistischen Ausrichtung – also quasi die »klassische« CL, bei der es um die rechnergestützte Modellierung sprachlicher Phänomene geht, um ein besseres Verständnis von natürlicher Sprache zu erreichen – könnte man durchaus als Teil der DH betrachten, diese Forschung ist aber heute eher in der Korpuslinguistik angesiedelt.
Die Antwort auf die Frage (a) ist jetzt schon recht lang geraten, daher werde ich mich mit (b) in einem weiteren Beitrag beschäftigen.

Quelle: http://dhd-blog.org/?p=2532

Weiterlesen

Semantische Technologien

semantic-media-web

Die Fachtagung “Semantische Technologien - Verwertungsstrategien und Konvergenz von Metadaten” befasste sich vom 26. bis 27. September 2013 mit der Nutzbarkeit semantischer Technologien für die Kultur- und Medienbranche. Thematisiert wurden Institutionen wie Verlage, Museen und Bibliotheken sowie die Bereiche Projektdokumentationen, Werbung und Marketing.

Der rückblickende Tagungsbericht stellt die zentralen Fragestellungen, Probleme und Chancen des semantischen Internet dar.

 

Quelle: http://dhd-blog.org/?p=2447

Weiterlesen

Es ist Open Access Week!

openaccess

Bereits zum sechsten Mal findet derzeit die internationale Open Access Week statt, die weltweit auf das Potential frei verfügbaren Web Contents in Wissenschaft und Forschung aufmerksam machen möchte. Dabei ist die gesamte Community zur Beteiligung aufgerufen, um die freie Zugänglichkeit und Nachnutzbarkeit von Forschungsmaterial, -publikationen und -daten weiter zu etablieren:

“Open Access” to information – the free, immediate, online access to the results of scholarly research, and the right to use and re-use those results as you need – has the power to transform the way research and scientific inquiry are conducted. It has direct and widespread implications for academia, medicine, science, industry, and for society as a whole.

Wie WissenschaftlerInnen Open Access dezidiert (be-)fördern können, dazu außerdem ein instruktiver blog post inkl. Linksammlung von Klaus Graf bei unseren KollegInnen von hypotheses.org: http://redaktionsblog.hypotheses.org/1742

Quelle: http://dhd-blog.org/?p=2428

Weiterlesen

CfP: Jahrestagung der Digital Humanities im deutschsprachigen Raum, 25.-28.3.2014, Passau

Logo des DHd Verbands

Noch bis zum 15.12.2013 können für die im kommenden Frühjahr erstmals in Passau stattfindendene Jahrestagung “Digital Humanities im deutschsprachigen Raum” (wir berichteten) Abstracts für Poster, Vorträge, Sections, Panels und pre-conference Workshops eingereicht werden.

Die Tagung steht unter dem Motto

Digital Humanities – methodischer Brückenschlag oder “feindliche Übernahme”?

Themenschwerpunkte für Einreichungen:

- Geisteswissenschaften und Informatik
- Digitale Infrastrukturen für die Geisteswissenschaften
- Vom analytischen Mehrwert digitaler Werkzeuge für die Geisteswissenschaften
- Digitale Kommunikation in den Geisteswissenschaften.

Keynote speaker sind John Nerbonne, Groningen und Katja Kwastek, Amsterdam; zudem stehen spannende Kontroversdiskussionen zentraler DH-Akteure und -Themen auf dem Programm, die Potential und Grenzen der DH unter verschiedenen Aspekten ausloten.

Weitere Infos zur Tagung: http://dhd2014.uni-passau.de/
CfP: http://dhd2014.uni-passau.de/cfp/

Quelle: http://dhd-blog.org/?p=2345

Weiterlesen

Die Zeit in der wir leben (hier: Massendigitalisierung)

Die Bayerische Staatsbibliothek, die ich für ihre Vorreiterrolle in der Digitalisierung sehr, sehr schätze, bringt uns einen Druck von 1752 als digitales Faksimile (PDF-Download).

Digitale Bibliothek OPAC Europeana
Die Thorheit ein übler Rathgeber : vorgestellt durch ein Sing-Spiel von dem Seminario S. Francisci Xaverii zu Ingolstatt in dem Hornung 1752 ; [Periocha]Verlagsort: Ingolstadt | Erscheinungsjahr: 1752Signatur: Bavar. 4025,IV,121/181#Cah.160Permalink: http://www.mdz-nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:bvb:12-bsb10382505-5 Titel: Die Thorheit ein übler Rathgeber :
Untertitel: vorgestellt durch ein Sing-Spiel von dem Seminario S. Francisci Xaverii zu Ingolstatt in dem Hornung 1752 : [Periocha]
Ort: Ingolstadt
Erscheinungsjahr: 1752
BSB-ID: 1132493
B3Kat-ID: BV001705279
Signatur: Bavar. 4025,IV,121/181#Cah.160
Signatur: Film R 710-50
Signatur: Film R 710-47
Nebentitel: ¬Die Torheit ein übler Rathgeber
Normnummer: VD18 14741881-001
Standortsignatur: Film R 710-50
Standortsignatur: Bavar. 4025,IV,121/181
Standortsignatur: Film R 710-47
OCLC-Nr.: 165924923
Medienart: Online-Ressource
Medienart: Computerdatei
Medienart: Monographie
Medienart: Druckschrift
Die Thorheit ein übler Rathgeber : vorgestellt durch ein Sing-Spiel von dem Seminario S. Francisci Xaverii zu Ingolstatt in dem Hornung 1752 ; [Periocha]Alternative Title: Die Torheit ein übler Rathgeber
Date: 1752
Date of creation: 1752
Type: Druck
Identifier: bvb-id : BV001705279; oclc : 165924923; urn : urn:nbn:de:bvb:12-bsb10382505-5; vd18 : VD18 14741881-001
Relation: Signatur: Bavar. 4025,IV,121/181#Cah.160
Language: mul
Publisher: Ingolstadt
Data provider: Bayerische Staatsbibliothek
Provider: Bayerische Staatsbibliothek
Providing country: Germany
Auto-generated tags
When
Period Term: http://semium.org/time/17xx_3_quarter
Period Label: [3e quart 18e siècle] (fr); [3 quarter of the 18th century] (en); [3-я четверть 18-го века] (ru)
Period Term: http://semium.org/time/1752
Period Label: [1752] (def)

Das Werk wird durch 16 digitale Abbildungen repräsentiert. Reihenfolge: von oben links (#1) nach unten rechts (#16). Sammelbild in Originalgröße verlinkt.

BSB_VD18_14741881-001_klein

Eigentümerin der Vorlage: Bayerische Staatsbibliothek

 

Natürlich hat das seine eigene Ästhetik und ist irgendwie auch Kunst. Insofern erfreut es mich. Als Digitalisat und Grundlage wissenschaftlicher Nutzungen macht es mich eher ratlos. Ich bitte um Kommentare.

Quelle: http://dhd-blog.org/?p=2309

Weiterlesen

Tagungsbericht: “Forschungsbedingungen und Digital Humanities: Welche Perspektiven hat der Nachwuchs?”

Der Tagungsbericht “Forschungsbedingungen und Digital Humanities: Welche Perspektiven hat der Nachwuchs?” ist ab sofort unter http://hsozkult.geschichte.hu-berlin.de/tagungsberichte/id=5014 einsehbar.

In der Tagung, die im Juni diesen Jahres in Paris stattfand, wurde in vier themenspezifischen Panels nach dem Einfluss der Neuerungen in der digitalen Welt auf die Forschungsbedingungen gefragt und die Chancen und Probleme thematisiert, die sich daraus für den Wissenschaftsnachwuchs ergeben.

Quelle: http://dhd-blog.org/?p=2284

Weiterlesen

Studienfach: Digital Humanities. Bericht vom DARIAH-Dozenten-Workshop zu DH-Curricula am 4. September 2013 in Köln

Die Digital Humanities sind ein Forschungsfeld, ein weit gespannter Fächer an Methoden und ein universitäres Lehrfach – das an etlichen Standorten als Studienprogramm „Digital Humanities“ oder „als spezialisierteres Studienprogramm, das dem Bereich der DH zuzurechnen ist“, angeboten wird. Vertreter dieses Faches haben ein natürliches Interesse daran, ihr Fachgebiet als solches besser sichtbar zu machen. Ein Mittel zu diesem Zweck ist die Abstimmung über curriculare Fragen mit dem Fernziel eines abgestimmten Referenzcurriculums, das ein gemeinsamen Verständnis der Ausbildung in den Digital Humanities stärkt, die Durchlässigkeit verbessert und Standortwechsel für Studierende erleichtert sowie die Erkennbarkeit des Faches z.B. auf Seiten potentieller Studierender, der Politik und des Arbeitsmarktes fördert.

Dazu haben sich Vertreter von DH-Lehrangeboten an Hochschulen im deutschsprachigen Raum seit 2009 und nun schon zum vierten Mal, jetzt zu einem DARIAH-Dozenten-Workshop, in Köln getroffen. Zu den Ergebnissen dieser kontinuierlichen Zusammenarbeit, die auch in einer eigenen Mailingliste organisiert wird, gehörte u.a. 2011 eine Zusammenstellung aller DH-Studienangebote im deutschsprachigen Raum. Die Aktivitäten zur Abstimmung laufen seit 2011 auch im Rahmen von DARIAH-DE und sollen hier zu einem gemeinsamen Curriculum führen. Auf dem Weg dorthin haben KollegInnen vom Göttingen Center for Digital Humanities (GCDH) eine empirische Datengrundlage geschaffen, die über 100 DH-Studienprogramme (hauptsächlich BA- und MA-Programme) auf der Welt sowie rund 80 Module und über 1000 Kurse aus den Studienprogrammen zusammenträgt. Auf der Grundlage dieser Daten und vor allem der vielfältigen Diskussionen der letzten Jahre ist ein Bericht über den Stand der DH-Ausbildung, insbesondere in den expliziten DH-Studiengängen entstanden, der (als Vorfassung einer offizielleren Publikation) unter dem Titel „DH studieren! Auf dem Weg zu einem Kern- und Referenzcurriculum“ zur Verfügung steht. Er erhebt den Anspruch, nicht nur die gegenwärtige Situation systematisch zu beschreiben, sondern auch Beiträge zu einem Referenzcurriculum zu liefern.

Auf dem aktuellen Workshop, der im Twitterstrom unter #Dhcurricular13 lief, wurde von Patrick Sahle (CCeH) zunächst der Report vorgestellt und anschließend diskutiert. Danach präsentierte Marcus Held (IEG) Überlegungen zur bildungstheoretischen Einordnung und Fundierung gemeinsamer Curricularbestrebungen, sowie zur Qualitätsentwicklung und -sicherung, die für ein gemeinsames formales Curriculum noch von großem Wert sein werden (Paper 1, Paper 2).

Von besonderem Interesse dürfte die allgemeine Berichtsrunde gewesen sein, auf der sich die verschiedenen TeilnehmerInnen über die neueren Entwicklungen an den verschiedenen Standorten informierten. Mit KollegInnen aus Bamberg, Berlin, Darmstadt, Erlangen, Frankfurt, Gießen, Göttingen, Graz, Köln, Leipzig, Mainz, Passau, Potsdam, Saarbrücken, Trier, Tübingen und Würzburg waren fast alle wichtigen Einrichtungen vertreten, die bereits DH-Lehre anbieten oder ihren Aufbau planen. Unter den etablierten Standorten ließen sich Bielefeld und Hamburg entschuldigen, unter den „Newcomern“ wäre man noch auf Vertreter aus Bern oder Heidelberg gespannt gewesen, wo in Zukunft möglicherweise Aktivitäten auch in Richtung der DH-Ausbildung entfaltet werden. Aus den Berichten zu den aktuellen Entwicklungen lassen sich – subjektiv – die folgenden Beobachtungen und Tendenzen zusammenfassen:

  • Die Szene ist in starker Bewegung; an vielen Standorten gibt es Bestrebungen zum Aus- oder Aufbau von Lehrangeboten jetzt oder in den kommenden Jahren.
  • Dazu sind in letzter Zeit etliche Stellen auf den Ebenen Lecturer/Lehrkräfte, Koordinatoren und Professuren ausgeschrieben worden (u.a. Bern, Darmstadt, Heidelberg, Köln, Leipzig, Passau, Tübingen); weitere Ausschreibungen sind angekündigt.
  • Der Ausbau der Lehre kann die Ergänzung von bestehenden Masterstudiengängen um ein Bachelorangebot (Darmstadt: BA Digital Philologies) oder die Fortführung von bestehenden Bachelorstudiengängen auf der Masterebene (Würzburg: MA Digital Humanities) betreffen.
  • Bestehende spezialisierte Angebote können zu umfassenderen Studiengängen umgebaut werden (Trier: von der Computerlinguistik zu den Digital Humanities).
  • Lehrprogramme können von Grund auf neu aufgebaut werden, wobei sich verschiedene Stufen unterscheiden lassen …
    • Der Aufbau von neuen BA- oder MA-Programmen ist schwierig und kann sich u.U. über einen längeren Zeitraum (18-36 Monaten) erstrecken (Frankfurt, Göttingen).
    • Lehrangebote auf der Ebene der Kurse, Module, Studienschwerpunkte oder Zertifikatsstudien sind deutlich leichter einzurichten und können teilweise binnen 6 Monaten gestartet werden (Detmold/Paderborn, Frankfurt, Leipzig, Passau, Tübingen).
    • Solche Lehrangebote können ebenso ein Schritt in Richtung auf BA-/MA-Studiengängen sein, wie die Öffnung von Informatik-Studiengängen für eine leichtere Kombination mit geisteswissenschaftlichen Programmen.

An den Präsentationen und Berichten entzündeten sich über den ganzen Tag hinweg verschiedene Diskussionspunkte. Dazu gehörten …

  • Wie können DH-Lehrprogramme überhaupt aufgebaut werden? Welche Ressourcen benötigt man dafür? Welche Strategien können eingeschlagen werden?
  • Wie weit lassen sich bestehende Kurse aus anderen Fächern (z.B. der Informatik) importieren? Wo sind eigenständige neue Angebote unerlässlich?
  • Wie ist insgesamt das Verhältnis zur Informatik?
    • Inhaltlich: Welche Teile der Informatik müssen in einem DH-Studiengang gelehrt und abgedeckt werden? Lassen sich Mindestanforderungen für einen DH-Studiengang formulieren?
    • Organisatorisch: Besteht die Gefahr, dass die Digital Humanities von der Informatik unter Verlust ihrer eigenen (geisteswissenschaftlichen) Spezifik übernommen oder (Zitat:) „aufgemischt“ werden? Sollen die DH hier ungeachtet ihrer eigenen Tradition und des inzwischen erreichten state of the art einmal mehr neu erfunden werden?
  • Welche Rolle spielt die „Digital Literacy“ in den DH? Sollten in diesem  Bereich auch niederschwellige Lehrangebote für benachbarte Disziplinen oder für alle Fächer gemacht werden? Sind die DH auch für Teile der propädeutischen Ausbildung und für bestimmte Schlüsselqualifikationen zuständig? Besteht eine Verpflichtung, DH-Methoden auch in andere Fächer aktiv hineinzutragen? Sollten mehr orientierende Veranstaltungen „Was ist und was kann DH“ angeboten werden? Oder bedeuten breitere und „einfachere“ Angebote eine Trivialisierung der DH und eine Gefahr für den Bestand der expliziten DH-Studiengänge selbst?
  • Sollten sich die DH-Studiengänge auch für die Ausbildung von Informatik-LehrerInnen an höheren Schulen öffnen?
  • Wie lässt sich das Problem der unterschiedlichen Studienverläufe und Vorkenntnisse bei nicht-konsekutiven DH-Master-Programmen lösen? Sollten Master-Programme dazu verschiedene „Profile“ anbieten?

An die Berichte schlossen sich weitere Ausführungen von Manfred Thaller zu Referenzcurricula im Allgemeinen, den Empfehlungen der Gesellschaft für Informatik für den Aufbau von Informatik-Studiengängen als Vergleichsbeispiel und zu seinem eigenen „Zwiebelschalenmodell“ (siehe Report, Anhang) als Beschreibungsansatz für die DH-Ausbildungslandschaft an. Außerdem wurden hier Vorschläge für das weitere Vorgehen gemacht und diskutiert. Ein gemeinsames Referenzcurriculum könnte unter der redaktionellen Koordination von Gerrit Weber bis zum Frühjahr 2014 kollaborativ von der gesamten Gruppe der interessierten KollegInnen erarbeitet werden. Zu den allgemeinen Beschreibungen des Feldes „DH als Studienfach“ soll auch das Konzept eines idealtypischen, allgemeinen BA-/MA-Studiengangs „Digital Humanities“ als Referenzpunkt gegeben werden. Organisatorisch soll das Curriculum zunächst mit Dariah-DE verbunden sein, wo Gerrit Weber auch seit dem 1. September 2013 beschäftigt ist. Zu prüfen ist daneben eine Verbindung mit den entsprechenden Arbeitspaketen zu Schulungen und Trainingsmaterialien in CLARIN. Von der Logik der Sache her wäre mittelfristig eine Anlehnung an den DHd-Verband naheliegend. Hier wäre zu prüfen, ob die bisherige informelle Gruppe nicht in eine Arbeitsgruppe im Verband umgewandelt werden könnte.

Die bisherigen Aktivitäten im deutschsprachigen Raum sollen nach Auskunft von Walter Scholger (Graz) außerdem auf der europäischen Ebene von DARIAH, d.h. im Virtual Competency Center 2 (VCC2) zu Research and Education, das sich ebenfalls mit Ausbildungsfragen beschäftigt, aufgenommen und damit auf internationaler Ebene vorangetrieben werden. Hier wird u.a. an eine „registry“ für DH-Studiengängen nachgedacht.

Unter den Workshop-Teilnehmern schienen insgesamt zwei Wünsche bestehen zu bleiben: Zum Einen soll am Ziel eines Referenzcurriculums festgehalten und dieses in absehbarer Zeit erreicht werden. Zum Anderen wurde die Relevanz der Curricular-Treffen betont und für eine weitere kontinuierliche Abstimmung der Fachgemeinschaft plädiert. Dies würde bereits vor und dann neben der Verabschiedung eines formalen Curriculums zu einem besseren gegenseitigen Verständnis beitragen und die Konvergenzen zwischen den Akteuren deutlich erhöhen.

Quelle: http://dhd-blog.org/?p=2248

Weiterlesen

Kleiner Versuch über Romangattungen

Ich arbeite an der Erstellung eines Romankorpus, das längere, deutschsprachige Erzähltexte von 1500 bis 1930 versammelt. Das Kernkorpus umfasst ca. 450 Romane, größtenteils deutschsprachige Originalromane, aber rd. 1/8 sind Übersetzungen, vor allem aus dem Englischen, Französischen und Russischen. Hinzu kommt ein größeres Korpus von zur Zeit rd. 1500 Texten (diese Zahl ist wirklich nur eine Schätzung, da die Texte noch zu sichten sind). Das Kernkorpus soll mit relativ ausführlichen Metadaten, etwa Druckort, Verlag, Originalsprache, Erzählform, Epoche und eben auch zur Gattung versehen werden. Die meisten dieser Angaben sind unproblematisch, Erzählform und Gattung sind es nicht. Schon die Kategorisierung eines längeren Prosatextes als Roman erweist sich als als andere als trivial, aber darum soll er hier nicht gehen. Sondern hier handelt es sich um die Frage nach Formen der Roman, nach den Gattungen der Gattung Roman.

Ein erster Lösungsversuch sah so aus: Da ich vermeiden wollte, dass die Gattungszuschreibungen ad hoc von mir vergeben werden, habe ich eine Hilfskraft beauftragt, aus einer Liste von Roman-Nachschlagewerken und Literaturgeschichten die Zuschreibungen herauszusuchen und ohne Vereinheitlichung zu notieren. Das Ergebnis war recht interessant (besten Dank Herr Weimer!). Da gab es Einträge wie „Briefroman::Künstler- und Liebesroman in Briefform::monologischer Briefroman“ (die Doppelpunkte trennen verschiedene Zuschreibungen) oder „Entwicklungsroman mit autobiographischen Zügen::Schelmenhafter Zeit- und Entwicklungsroman::Entwicklungs- und Zeitroman::Schelmenroman“ oder „Familienroman::moralisch-didaktischer Roman::Ich-Erzählung::Briefroman::aufklärerisch-bürgerlicher Roman“. Man kann dahinter ohne Probleme den Werther, den Simplizismus oder die Schwedische Gräfin erkennen.

Allerdings ist ein Begriff wie ‘monologischer Briefroman’ wohl keine Gattungsbezeichnung, vielmehr wird die Gattungsbezeichnung ‘Briefroman’ gemeinsam mit dem deskriptiven ‘monologisch’ zur Beschreibung verwendet. Viele der Begriffe scheinen eng verwandt zu sein, z.B. „Zeitroman::Gegenwartsroman::Gesellschaftsroman“. Dann finden sich Begriffe wie „Großroman“ oder „Altersroman“, die überhaupt keine Gattungsbegriffe im herkömmlichen Sinne sind, sondern lediglich klassifizieren und dabei manchmal auch bewerten. Leider zeigte sich außerdem, dass nur rd. 250 der Texte auf diese Weise beschrieben werden konnten; für die anderen 150 fanden sich in den Darstellungen keine Gattungsbezeichnungen.

Der nächste Schritt war die Vereinheitlichung der so zusammengetragenen Begriffe. Um für eine quantitative Auswertung brauchbar zu sein, geht es weniger um eine individualisierte Beschreibung des Einzelwerks, sondern um die Zuschreibung zu allgemeineren Kategorien, die es dann erlauben zu prüfen, ob man mit dieser Gruppe regelhaft Textmerkmale verbinden kann. Für diese Vereinheitlichung, aber auch für die Frage nach der Klassifizierung der übrigen 150 Texte wäre es nützlich auf eine existierende Systematik von Gattungsbegriffen zurückgreifen zu können. Die literaturwissenschaftliche Forschung scheint diese Frage bislang nicht systematisch verfolgt zu haben.

Eine erste Annäherung könnte über die Verwendung des Begriffs Roman in Zusammensetzungen geschehen. Dafür wäre eine Liste aller Komposita mit dem Wort ‘Roman’ ein guter Anfang. Die größte Menge an zugänglichen Sprachdaten bietet zur Zeit Google mit den Quellen für die N-Gramm-Suche. Für die Romankomposita habe ich die 1-grams verwendet (Version 20120701). Die Daten liegen in dieser Form vor: „Quasselbude_NOUN 1956 11 10“, wobei die Angabe der Wortklasse, die erst in der zweiten Version des Korpus hinzugekommen ist, nur teilweise vorliegt. Die erste Zahl bezeichnet das Jahr, die zweite die Anzahl der Vorkommen des Wortes und die dritte die Anzahl der Bände, in denen das Wort vorkommt.

Nach der Extraktion der Komposita, der Vereinfachung des Materials auf den Nominativ und einer manuellen Sichtung ergab dies eine Liste mit rd. 424 Einträgen vom „Alltagsroman“ über den „Haremsroman“ und den „Nichtroman“ bis zum „Zigeunerroman“. Zu jedem Begriff gibt es außerdem eine Frequenzangabe (Häufigkeit im ganzen Korpus). Die Zahl 424 ist cum grano salis zu nehmen, da man einige Einträge zusammenfassen konnte, z.B. „Debutroman“ und „Debütroman“ oder „Desillusionierungsroman“ und „Desillusionsroman“ oder sogar „Gegenwartroman“ und „Gegenwartsroman“.

Diese Liste ergibt keine Liste der Gattungsbezeichnungen und trotz ihrer Länge schon gar nicht eine vollständige. Einige der Begriffe sind keine Gattungsbezeichnungen, wenn man darunter „die als ge- und bewußte Normen die Produktion und Rezeption von Texten bestimmenden ‘historischen Textgruppen’“ versteht (Klaus Hempfer: „Gattung“ in: Klaus Weimar (Hg.): Reallexikon der deutschen Literaturwissenschaft Bd. 1, de Gruyter 1997, S. 651 ), sondern haben eine andere Funktion, z.B. „Debütroman“,“Emigrationsroman“,“Hauptroman“ oder „Lieblingsroman“. Einige beziehen sich außerdem auf einen einzigen Text (z.B. „Rosenroman“ oder „Josephsroman“). Die Liste enthält also Begriffe, die keine Gattungsnamen sind und andererseits gibt es noch mehr Bezeichnungen für Gattungen, die aber nicht als Kompositum aufgebaut sind, nämlich in der Verbindung von ADJ + NOUN, also z.B. „sozialer Roman“, „psychologischer Roman“, „philosophischer Roman“ usw. Diese sind in der ersten Fassung der Liste nicht enthalten.

Mit wenig Aufwand kann man aus den Daten, die ja die Verwendungshäufigkeit der Begriffe enthalten, ein Wordle erstellen, indem man einen Text generiert, der die Begriffe anteilig zu ihrer absoluten Häufigkeit enthält. Das Ergebnis sieht so aus:

romangattungen1

Leider ist ‘Kriminalroman’ so dominant, dass die anderen Begriffe sehr schnell in unlesbarer Kleinschreibung verschwinden. Wenn wir ihn aus dem Bild entfernen, ergibt sich diese informationsreichere Übersicht:

romangattungen2

Das ist hübsch. Und es ist ein erster Schritt auf dem Weg eines Überblicks über die Gattungsbegriffe für den Roman. Aber natürlich hat es nur einen eingeschränkten analytischen Wert. Die Ursachen für die hohe Frequenz eines Worts können sehr unterschiedlich sein. Die große Häufigkeit des ‘Kriminalromans’ etwa ergibt sich daraus, dass dies eine eingeführte paratextuelle Bezeichnung ist, die sich im Text findet (Meinem Wissensstand nach sind Titel und Untertitel Teil des Korpus). Der ‘Bildungsroman’ dagegen ist ein Begriff der Beschreibungssprache. Interessant sind Begriffe wie ‘Zeitroman’, die sich am Anfang des 20. Jahrhunderts in einer ganzen Reihe von Romantiteln finden, während er gegen Ende des Jahrhunderts häufiger in Texten über Romane zu finden ist.

Anders ausgedrückt: Die Analyse hat einen ersten Eindruck von der Häufigkeitsverteilung von Gattungsbegriffen ergeben, aber wir können nicht beurteilen, ob es sich hierbei um Begriffe der Objekt- oder Metasprache handelt. Das Problem könnte man möglicherweise lösen, wenn man in einem großen Bibliothekskatalog die Untertitel von Romanen systematisch unter der Perspektive auswertet, welche der hier aufgeführten Kategorien vorkommen. Das würde dann ihre Verwendung in der Objektsprache belegen. Außerdem könnte man, ausgehend von den Publikationsdaten der Romane überprüfen, ob ungefähr gleichzeitig die entsprechenden Begriffe geläufig sind, also Romanmetadaten und Ngramm-Daten abgleichen.

Ein weiteres Problem entsteht durch die Heterogenität der Gattungsbegriffe. Selbst wenn man die Begriffe aussondert, die offensichtlich keine Gattungen bezeichnen, bleibt eine Fülle von Begriffen übrig, die sich auf sehr unterschiedliche Aspekte beziehen, z.B. der inhaltsbezogene Begriff Abenteuerroman und der referenzbezogene Begriff Schlüsselroman. In dieser Form sind sie nur eingeschränkt tauglich für die Korrelierung mit den Ergebnissen von Clustering aufgrund von Textmerkmalen. Dieses Problem könnte durch eine genauere Analyse der Gattungsbegriffe gelöst oder zumindest mal aufgeräumt werden. Und wenn wir schon bei Zukunftsplänen sind: Die historische Information, wann welche Gattungsbegriffe häufiger zu finden sind, könnte man auch noch auswerten, aber das ist nicht ganz einfach zu visualisieren. So etwas ist noch zu unübersichtlich:

romangattungen3

(Link)

Insgesamt also noch ein weiter Weg zu einem brauchbaren Beschreibungssystem von Romangattungen, aber die Frequenzangaben helfen wohl bereits bei der Vereinfachung der vorliegenden Begriffe. Nun müssten noch die 150 anderen Texte zugeordnet werden. Hat jemand Evremont von Sophie Bernhardi gelesen und hätte einen Vorschlag zur Gattungszuordnung? Oder Bruno Willes Glasberg. Henriette von Paalzows Ste. Roche?

Quelle: http://dhd-blog.org/?p=2128

Weiterlesen

“The Future of Historical Network Research”: Konferenz vom 13.-15.09. in Hamburg

sponsoren-neu

Seit kurzem sind Programm und Registrierung für die Tagung The Future of Historical Network Research (13.-15.09., Uni Hamburg) online. Die Sessions haben u.a. die Themen Information Conceptualisation and Visualisation, Linked Data and Ontological Methods und Overlaps between Network Analysis in the Digital Humanities zum Gegenstand. Träger sind NeDiMAH – Network for Digital Methods in the Arts and Humanities, die ESF – European Science Foundation und das CGG – Centre for Globalisation and Governance der Universität Hamburg.

Programm und Anmeldung: http://conference.historicalnetworkresearch.org/

Quelle: http://dhd-blog.org/?p=2101

Weiterlesen