Ich arbeite an der Erstellung eines Romankorpus, das längere, deutschsprachige Erzähltexte von 1500 bis 1930 versammelt. Das Kernkorpus umfasst ca. 450 Romane, größtenteils deutschsprachige Originalromane, aber rd. 1/8 sind Übersetzungen, vor allem aus dem Englischen, Französischen und Russischen. Hinzu kommt ein größeres Korpus von zur Zeit rd. 1500 Texten (diese Zahl ist wirklich nur eine Schätzung, da die Texte noch zu sichten sind). Das Kernkorpus soll mit relativ ausführlichen Metadaten, etwa Druckort, Verlag, Originalsprache, Erzählform, Epoche und eben auch zur Gattung versehen werden. Die meisten dieser Angaben sind unproblematisch, Erzählform und Gattung sind es nicht. Schon die Kategorisierung eines längeren Prosatextes als Roman erweist sich als als andere als trivial, aber darum soll er hier nicht gehen. Sondern hier handelt es sich um die Frage nach Formen der Roman, nach den Gattungen der Gattung Roman.
Ein erster Lösungsversuch sah so aus: Da ich vermeiden wollte, dass die Gattungszuschreibungen ad hoc von mir vergeben werden, habe ich eine Hilfskraft beauftragt, aus einer Liste von Roman-Nachschlagewerken und Literaturgeschichten die Zuschreibungen herauszusuchen und ohne Vereinheitlichung zu notieren. Das Ergebnis war recht interessant (besten Dank Herr Weimer!). Da gab es Einträge wie „Briefroman::Künstler- und Liebesroman in Briefform::monologischer Briefroman“ (die Doppelpunkte trennen verschiedene Zuschreibungen) oder „Entwicklungsroman mit autobiographischen Zügen::Schelmenhafter Zeit- und Entwicklungsroman::Entwicklungs- und Zeitroman::Schelmenroman“ oder „Familienroman::moralisch-didaktischer Roman::Ich-Erzählung::Briefroman::aufklärerisch-bürgerlicher Roman“. Man kann dahinter ohne Probleme den Werther, den Simplizismus oder die Schwedische Gräfin erkennen.
Allerdings ist ein Begriff wie ‘monologischer Briefroman’ wohl keine Gattungsbezeichnung, vielmehr wird die Gattungsbezeichnung ‘Briefroman’ gemeinsam mit dem deskriptiven ‘monologisch’ zur Beschreibung verwendet. Viele der Begriffe scheinen eng verwandt zu sein, z.B. „Zeitroman::Gegenwartsroman::Gesellschaftsroman“. Dann finden sich Begriffe wie „Großroman“ oder „Altersroman“, die überhaupt keine Gattungsbegriffe im herkömmlichen Sinne sind, sondern lediglich klassifizieren und dabei manchmal auch bewerten. Leider zeigte sich außerdem, dass nur rd. 250 der Texte auf diese Weise beschrieben werden konnten; für die anderen 150 fanden sich in den Darstellungen keine Gattungsbezeichnungen.
Der nächste Schritt war die Vereinheitlichung der so zusammengetragenen Begriffe. Um für eine quantitative Auswertung brauchbar zu sein, geht es weniger um eine individualisierte Beschreibung des Einzelwerks, sondern um die Zuschreibung zu allgemeineren Kategorien, die es dann erlauben zu prüfen, ob man mit dieser Gruppe regelhaft Textmerkmale verbinden kann. Für diese Vereinheitlichung, aber auch für die Frage nach der Klassifizierung der übrigen 150 Texte wäre es nützlich auf eine existierende Systematik von Gattungsbegriffen zurückgreifen zu können. Die literaturwissenschaftliche Forschung scheint diese Frage bislang nicht systematisch verfolgt zu haben.
Eine erste Annäherung könnte über die Verwendung des Begriffs Roman in Zusammensetzungen geschehen. Dafür wäre eine Liste aller Komposita mit dem Wort ‘Roman’ ein guter Anfang. Die größte Menge an zugänglichen Sprachdaten bietet zur Zeit Google mit den Quellen für die N-Gramm-Suche. Für die Romankomposita habe ich die 1-grams verwendet (Version 20120701). Die Daten liegen in dieser Form vor: „Quasselbude_NOUN 1956 11 10“, wobei die Angabe der Wortklasse, die erst in der zweiten Version des Korpus hinzugekommen ist, nur teilweise vorliegt. Die erste Zahl bezeichnet das Jahr, die zweite die Anzahl der Vorkommen des Wortes und die dritte die Anzahl der Bände, in denen das Wort vorkommt.
Nach der Extraktion der Komposita, der Vereinfachung des Materials auf den Nominativ und einer manuellen Sichtung ergab dies eine Liste mit rd. 424 Einträgen vom „Alltagsroman“ über den „Haremsroman“ und den „Nichtroman“ bis zum „Zigeunerroman“. Zu jedem Begriff gibt es außerdem eine Frequenzangabe (Häufigkeit im ganzen Korpus). Die Zahl 424 ist cum grano salis zu nehmen, da man einige Einträge zusammenfassen konnte, z.B. „Debutroman“ und „Debütroman“ oder „Desillusionierungsroman“ und „Desillusionsroman“ oder sogar „Gegenwartroman“ und „Gegenwartsroman“.
Diese Liste ergibt keine Liste der Gattungsbezeichnungen und trotz ihrer Länge schon gar nicht eine vollständige. Einige der Begriffe sind keine Gattungsbezeichnungen, wenn man darunter „die als ge- und bewußte Normen die Produktion und Rezeption von Texten bestimmenden ‘historischen Textgruppen’“ versteht (Klaus Hempfer: „Gattung“ in: Klaus Weimar (Hg.): Reallexikon der deutschen Literaturwissenschaft Bd. 1, de Gruyter 1997, S. 651 ), sondern haben eine andere Funktion, z.B. „Debütroman“,“Emigrationsroman“,“Hauptroman“ oder „Lieblingsroman“. Einige beziehen sich außerdem auf einen einzigen Text (z.B. „Rosenroman“ oder „Josephsroman“). Die Liste enthält also Begriffe, die keine Gattungsnamen sind und andererseits gibt es noch mehr Bezeichnungen für Gattungen, die aber nicht als Kompositum aufgebaut sind, nämlich in der Verbindung von ADJ + NOUN, also z.B. „sozialer Roman“, „psychologischer Roman“, „philosophischer Roman“ usw. Diese sind in der ersten Fassung der Liste nicht enthalten.
Mit wenig Aufwand kann man aus den Daten, die ja die Verwendungshäufigkeit der Begriffe enthalten, ein Wordle erstellen, indem man einen Text generiert, der die Begriffe anteilig zu ihrer absoluten Häufigkeit enthält. Das Ergebnis sieht so aus:
Leider ist ‘Kriminalroman’ so dominant, dass die anderen Begriffe sehr schnell in unlesbarer Kleinschreibung verschwinden. Wenn wir ihn aus dem Bild entfernen, ergibt sich diese informationsreichere Übersicht:
Das ist hübsch. Und es ist ein erster Schritt auf dem Weg eines Überblicks über die Gattungsbegriffe für den Roman. Aber natürlich hat es nur einen eingeschränkten analytischen Wert. Die Ursachen für die hohe Frequenz eines Worts können sehr unterschiedlich sein. Die große Häufigkeit des ‘Kriminalromans’ etwa ergibt sich daraus, dass dies eine eingeführte paratextuelle Bezeichnung ist, die sich im Text findet (Meinem Wissensstand nach sind Titel und Untertitel Teil des Korpus). Der ‘Bildungsroman’ dagegen ist ein Begriff der Beschreibungssprache. Interessant sind Begriffe wie ‘Zeitroman’, die sich am Anfang des 20. Jahrhunderts in einer ganzen Reihe von Romantiteln finden, während er gegen Ende des Jahrhunderts häufiger in Texten über Romane zu finden ist.
Anders ausgedrückt: Die Analyse hat einen ersten Eindruck von der Häufigkeitsverteilung von Gattungsbegriffen ergeben, aber wir können nicht beurteilen, ob es sich hierbei um Begriffe der Objekt- oder Metasprache handelt. Das Problem könnte man möglicherweise lösen, wenn man in einem großen Bibliothekskatalog die Untertitel von Romanen systematisch unter der Perspektive auswertet, welche der hier aufgeführten Kategorien vorkommen. Das würde dann ihre Verwendung in der Objektsprache belegen. Außerdem könnte man, ausgehend von den Publikationsdaten der Romane überprüfen, ob ungefähr gleichzeitig die entsprechenden Begriffe geläufig sind, also Romanmetadaten und Ngramm-Daten abgleichen.
Ein weiteres Problem entsteht durch die Heterogenität der Gattungsbegriffe. Selbst wenn man die Begriffe aussondert, die offensichtlich keine Gattungen bezeichnen, bleibt eine Fülle von Begriffen übrig, die sich auf sehr unterschiedliche Aspekte beziehen, z.B. der inhaltsbezogene Begriff Abenteuerroman und der referenzbezogene Begriff Schlüsselroman. In dieser Form sind sie nur eingeschränkt tauglich für die Korrelierung mit den Ergebnissen von Clustering aufgrund von Textmerkmalen. Dieses Problem könnte durch eine genauere Analyse der Gattungsbegriffe gelöst oder zumindest mal aufgeräumt werden. Und wenn wir schon bei Zukunftsplänen sind: Die historische Information, wann welche Gattungsbegriffe häufiger zu finden sind, könnte man auch noch auswerten, aber das ist nicht ganz einfach zu visualisieren. So etwas ist noch zu unübersichtlich:
(Link)
Insgesamt also noch ein weiter Weg zu einem brauchbaren Beschreibungssystem von Romangattungen, aber die Frequenzangaben helfen wohl bereits bei der Vereinfachung der vorliegenden Begriffe. Nun müssten noch die 150 anderen Texte zugeordnet werden. Hat jemand Evremont von Sophie Bernhardi gelesen und hätte einen Vorschlag zur Gattungszuordnung? Oder Bruno Willes Glasberg. Henriette von Paalzows Ste. Roche?
Quelle: http://dhd-blog.org/?p=2128