Zur Erinnerung: Ziel meiner Überlegungen ist eine Liste mit deutschsprachigen Romangattungen zu erhalten. Der erste Schritt bestand darin, Komposita der Form x + roman aus den Unigrammen von Google-Books zu extrahieren. Im zweiten Schritt geht es nun darum, diese Liste mit Gattungsbezeichnungen der Form Adjektiv + Roman zu ergänzen, also ‘psychologischer Roman’, ‘philosophischer Roman’ usw. Quelle dafür sind diesmal die Bigramme von Google-Books, insgesamt 725 Dateien mit 388 GB Daten (komprimiert rd. 62 GB). Ergebnis des ersten Druchlaufs ist eine Liste, die auch viele Adjektive enthält, die keine Gattungen bezeichnen, z.B. ‘schöner Roman’, ‘englischer Roman’, ‘barocker Roman’. Eine manuelle Durchsicht reduziert das auf rd. 130 Gattungsbegriffe:
Wieder dominiert ein Begriff so sehr, dass man ihn besser aus der Liste löscht:
Der nächste Schritt besteht nun offensichtlich darin, die Liste mit den Komposita, die inzwischen auf rd. 385 Einträge eingedampft wurde, und diese zusammenzuwerfen, so dass man die rd. 500 Gattungsbezeichnungen auf einmal sichten kann:
Spätestens hier wird deutlich, warum es wichtig wäre, bei Untersuchungen dieser Art direkten Zugriff auf die Daten zu haben, die den Ngrammen zugrunde liegen, und warum das Arbeiten mit den Google-Ngrammen erfreulich und frustrierend zugleich ist. Ich kann hier nur vermuten, dass das Übergewicht des historischen Romans und des Kriminalromans dadurch zustandekommen, dass es sich dabei um Untertitel handelt. Entfernt man die beiden Begriffe und außerdem ‘Zeit-’ und ‘Bildungsroman’, kommt ein deutlich gleichförmigeres Feld zum Vorschein:
Die Begriffe lassen sich nach der Art ihrer Klassifikation unterscheiden. Für die 150 häufigsten Begriffe ergibt das diese Aufteilung der Gattungsbegriffe:
Handlungswelt/Thema: historischer – Zeit – Ritter – Gesellschafts – Staats – Zukunfts – utopischer – Kriegs – sozialer – psychologischer – höfischer – Gegenwarts – politischer – Heimat – Schäfer – Geschichts – Bauern – Exil – Sitten – Räuber – geschichtlicher – Spionage – Revolutions – phantastischer – Sozial – Großstadt – Adoleszenz – See – Agenten – Kolonial – Ehe – proletarischer – Arzt – Hirten – Generationen – sozialkritischer – Stadt – Universitäts – Dorf – Betriebs – Helden – heroischer – Berg – Produktions – Theater – erotischer – Märchen – Wende – religiöser – Indianer – christlicher – Industrie – Schul – Bewußtseins – Wildwest – sozialistischer – Geheimbund – Professoren – Widerstands – revolutionärer – Amerika – pornographischer – Hexen – Problem – exotischer – Raum – philosophischer – Ideen
Medium: Fortsetzungs – Prosa – Zeitungs – Kurz – Kolportage – Vers – Feuilleton – Heft – Illustrierten – Doppel – dramatischer – Foto – Experimental – experimenteller – Kunst – Heftchen – Groschen – Hintertreppen – Anti – Ich – Brief – Tagebuch – Dialog – Montage – Original – Arbeiter
Plotstruktur: Kriminal – Bildungs – Entwicklungs – Detektiv – Abenteuer – Liebes – Schelmen – Erziehungs – Künstler – Reise – pikaresker – galanter – biographischer – Abenteurer – Initiations – Erinnerungs – Desillusions – tragischer – Schicksals
Wirkung: Schauer – Unterhaltungs – satirischer – komischer – humoristischer – sentimentaler – Sensations – empfindsamer – Antikriegs – gesellschaftskritischer – Thesen – zeitkritischer
Realitätsbezug: autobiographischer – realistischer – Schlüssel – Tatsachen – Dokumentar – dokumentarischer – Reportage
Adressaten: Familien – Frauen – Jugend – bürgerlicher – Kinder – Volks – populärer – Populär
Wertung: Trivial – Tendenz – Schund – Mode – Kitsch – Epochen – Meister – Massen
In gewisser Weise ist damit die Arbeit erst einmal beendet: die Suche nach dem ‘System’ der deutschsprachigen Romangattungen hat ungefähr 500 Begriffe ans Licht gebracht. Leider sind 500 Kategorien für meine Zwecke viel zu viel. Will man brauchbare Einteilungen für das maschinelle Lernen haben, braucht man viele Beispiele für eine Kategorie, selbst bei 2000 Romanen wären das also eher 10 Kategorien als 100. Eine Lösung besteht könnte darin bestehen, eine Gruppe zu nehmen und die Genres unter Oberbegriffen zusammenzufassen. Es bietet sich an davor noch die beiden Gruppen ‘Handlungswelt/Thema’ und ‘Plotstruktur’, die ohnehin eng verwandt sind, zu einer zu vereinen und dann unter inhaltlichen Gesichtspunkten Oberbgriffe zu bilden. Da viele der Genres doch sehr epochenspezifisch sind oder sonstwie zeitlich gebunden, geht das nicht ohne eine gewisse Gewaltsamkeit:
Zeit und Gesellschaft: Zeit – Gesellschafts – Gegenwarts – Ehe – Generationen – Großstadt – Stadt – Heimat – Sitten – sozialer – Sozial – sozialkritischer – sozialistischer – Revolutions – Widerstands – revolutionärer Wende – Universitäts – Professoren – Dorf – Bauern – Betriebs – Produktions – proletarischer – Industrie – Schul – Theater – Kolonial – Hirten – Schäfer – Schelmen – pikaresker – Reise – Raum
Individuum und Entwicklung: Bildungs – Entwicklungs – Erziehungs – Künstler – Adoleszenz – biographischer – Schicksals – tragischer – Bewußtseins – psychologischer – Desillusions – Initiations – Erinnerungs
Populärer Unterhaltung: Zukunfts – Räuber – Spionage – phantastischer – utopischer – Wildwest – Kriminal – Detektiv – Abenteuer – Liebes – Indianer – Kriegs – Agenten – Arzt – erotischer – pornographischer – Geheimbund – Berg – galanter – Hexen – Märchen – exotischer – historischer – Ritter – Geschichts – geschichtlicher – See
Ideen: philosophischer – Ideen – Staats – politischer – utopischer – Problem
Religion: heroischer – Helden – religiöser – christlicher
Ob diese Einteilung sich in der analytischen Praxis bewährt, muss sich erst noch zeigen. Andere Vorschläge sind jederzeit willkommen.
PS: Genres nach Häufigkeit sortiert: Download der Gattungsbezeichnungen. [Edit: Die Daten können gerne nachgenutzt werden. Sie stehen unter einer Creative Commons By Lizenz]
PPS: Der utopische Roman kommt mit Absicht in zwei Kategorien vor.
Quelle: http://dhd-blog.org/?p=2384