Abstract
Im Rahmen der Big-Data-Welle wird sehr interessante kommerzielle aber auch Open-Source Software zur Analyse von großen Datenmengen entwickelt. In diesem Beitrag wird beispielhaft die Open-Source-Visualisierungssoftware Gehpi zur Visualisierung von Netzwerkstrukturen im Personenregister eines Urkundenbuchs verwendet. Prinzipiell ist dieser Ansatz auf weitere Editions- und Regestenwerke übertragbar. Damit könnten die in den Registern abgelegten Informationen über den traditionellen Zugriff hinaus für einen neuen Blick auf das Quellenmaterial nutzbar gemacht werden.
Inhaltsverzeichnis
1 Am Anfang standen Youtube und Facebook
2 Das kumulierte Register der Regesten Kaiser Friedrichs III.
2.1 Die Idee zur Visualisierung von Registerinformationen
2.2 Die Qualität der Netzwerkdaten
2.3 Das Verweissystem des Registers
3 Ein Beispiel
3.1 Das Personenregister im Arnsburger Urkundenbuch
3.2 Vom Text zur Tabelle
4 Visualisierung des Registers mit Gephi
4.1 Umwandlung der Daten in gexf-Format
4.2 Öffnen der gexf-Datei in Gehpi
4.3 Das Data Laboratory
4.4 Auswahl des Layout: ForceAtlas2
4.5 Modularity
4.6 Degree Range
4.7 Timeline
5 Zusammenfassung
1 Am Anfang standen Youtube und Facebook
Anfang des Jahres 2014 stöberte ich an einem Wochenende auf Youtube nach Visualisierungsmöglichkeiten für Netzwerkstrukturen. Dabei stieß ich auf ein Videotutorial[1] des Youtube-Nutzers spaetzletube[2], in welchem dieser die Visualisierung der Netzwerke seines Facebook-Accounts mit der Opensource-Software Gephi[3] vorstellte.
Die Präsentation war sehr gut strukturiert und weckte mein Interesse. Leider besitze ich selbst keinen Facebook-Account um die Visualisierungsmöglichkeiten an eigenen Daten auszuprobieren und fragte eine Kollegin, ob Sie mir nicht ihre Facebookdaten zur Verfügung stellen könnte. Sie war einverstanden und wir analysierten ihre persönlichen Facebooknetzwerke.
Abbildung 2: Das visualisierte Facebooknetzwerk meiner Kollegin
Die Ergebnisse waren überraschend klar, man konnte verschiedene Cluster klar voneinander trennen, wie privater Freundeskreis, Kontakte an der Arbeit und Kontakte aus dem Sport.
zum Inhaltsverzeichnis ↑
2 Das kumulierte Register der Regesten Kaiser Friedrichs III.
Gleichzeitig war ich im Rahmen meiner Arbeit bei den Regesta Imperii gerade an der Vorbereitung der Internetbereitstellung der kumulierten Register der Regesten Kaiser Friedrichs III. beteiligt.
2.1 Die Idee zur Visualisierung von Registerinformationen
Während meiner Arbeiten am Register kam ich auf eine Idee:
Wäre es nicht denkbar, für zwei Personen, die gemeinsam in einem Regest genannt werden, eine Verbindung zu postulieren. Diese Verbindung ist zwar qualitativ schwach aber doch vorhanden und ergibt sich aus den Angaben im Register. Spielt man diesen Gedanken für das gesamte Register durch, müsste sich eine große Zahl von 1zu1-Beziehungen ergeben, wobei jede Beziehung gleichzeitig mit einem Datum und einer Ortsangabe versehen ist, da sie die gemeinsame Nennung in einem Regest repräsentiert und dieses Regest hat in der Regel ein Datum und einen Ausstellungsort.
Wenn es also gelingen könnte, alle gemeinsamen Nennungen, die sich aus den Angaben in einem Register ergeben computerlesbar aufzubereiten, sollte eine Visualisierung dieser Verknüpfungen analog zu o.a. Facebook-Beispiel möglich sein.
Abbildung 3: Die sich aus den Registerangaben ergebenden Beziehungen der in einem Regest genannten Personen
Zur Illustration der Idee werden in der Abb. beispielhaft die sich aus Regest Nr. 189 des Heftes 19 der Regesten Kaiser Friedrichs III. ergebenden Bieziehungen dargestellt. So sind in dem Regest mehrere Mitglieder der Familie Volckamer genannt, von denen Stephan Volckammer als Lehensträger bestätigt wird. Anwesend war auch Werner von Parsberg, Schultheiß zu Nürnberg. Ulrich Waeltzli, Mitarbeiter in der Kanzlei Friedrichs III., wird im Kanzleivermerk genannt und steht daher auf qualitativ gleicher Ebene wie die oben genannten Personen mit dem Regest in Verbindung. Und hier ist ein erster Hinweis in Hinblick auf die Qualität der Daten nötig.
2.2 Die Qualität der Netzwerkdaten
Man kann mit einiger Wahrscheinlichkeit davon ausgehen, dass sowohl die Mitglieder der Familie Volckamer als auch Werner von Parsberg in den regestierten Vorgang eingebunden und möglicherweise auch vor Ort waren. Der im Kanzleivermerk genannte Ulrich Waelzli war dagegen mit hoher Wahrscheinlichkeit nicht zugegen[4], würde aber trotzdem in gleicher Weise mit dem Regest in Verbindung gebracht, wie die anderen genannten Personen auch.
Zieht man daher Schlüsse aus der Visualisierung, muss man sich immer bewusst sein, dass die Qualität der Verknüpfungen im Netzwerk schwach ist. Im Gegensatz zu Auswertungen von Daten sozialer Netzwerke haben wir keine ergänzenden persönlichen Informationen, welche die Verknüpfungen weiter gewichten könnten. Andererseits liegen aber sehr viele Verknüpfungsdaten vor, was wiederum trotzdem interessante Aussagen ermöglichen sollte.
2.3 Das Verweissystem des Registers
Eine zweite wichtige Einschränkung ergibt sich aus der Art der Verweise im Register. Für die Analyse von Netzwerken können nur Register verwendet werden, die auf Urkundennummern, Regestennummern oder ähnliches verweisen, also auf Sinneinheiten. Wird dagegen auf Seitenzahlen verwiesen, ist nicht sichergestellt, dass die Verweise sich auf die gleiche Sinneinheit beziehen.
Am Ende der Analyse des Regests und der ihm zuordneten Registereinträge steht eine Liste von 1zu1-Beziehungen, die mit Netzwerkvisualisierungssoftware wie z.B. Gephi visualisiert werden kann.
zum Inhaltsverzeichnis ↑
3 Ein Beispiel
Abbildung 4: Arnsburger Urkundenbuch
3.1 Das Personenregister im Arnsburger Urkundenbuch
Die im vorherigen Abschnitt vorgestellte Idee diskutierte ich im folgenden mit vielen Kolleginnen und Kollegen und die meisten fanden den Ansatz sehr interessant, aber leider fand sich keiner, der ihn an einem Beispiel hätte umsetzen können. Daher fasste ich den Entschluss, die Idee selbst modellhaft an einem überschaubaren Datenbestand auszuprobieren. Meine Wahl fiel auf das Register des vom Darmstädter Archivar Ludwig Baur bearbeiteten Urkundenbuchs des Klosters Arnsburg in der Wetterau[5], welches Mitte des 19. Jahrhunderts in drei Teilbänden erschienen ist. Das Urkundenbuch enthält im dritten Teil ein Personen- und ein Ortsregister, wobei hier nur das Personenregister verwendet wurde, da es vor allem um Personennetzwerke gehen soll. Als Scan wurde die Version von Google-Books verwendet, deren Bildqualität für die Retrodigitalisierung ausreichend schien.
Abbildung 5: Ausschnitt aus dem Personenregister des Arnsburger Urkundenbuches
Im ersten Schritt wurde die PDF-Version des Registers mit Hilfe der OCR-Software Abby-Finereader in eine Textdatei umgewandelt und anschließend nachbearbeitet und korrigiert, bis dann schließlich eine Textdatei des Registers zur Verfügung stand, die vom Layout her dem Original entsprach.
Abbildung 6: Ausschnitt aus dem Ergebnis der Digitalisierung des Registers mit Finereader
3.2 Vom Text zur Tabelle
Mit Hilfe eines Kollegen[6] gelang es, den Volltext des digitalisierten Registers in eine strukturierte Form zu bringen, die dann die Weiterverarbeitung in eine Tabelle ermöglichte.
Abbildung 7: Strukturierte Textdaten des Registers (beispielhafter Ausschitt)
Abbildung 8: Das digitalisierte Register des Urkundenbuchs im Tabellenformat
In der Tabelle wird beispielhaft der Abschnitt des Registers um den Eintrag des Ritters Cuno Colbendensel aus Bellersheim und seiner Frau Alheid gezeigt. Es ist zu erkennen, dass zu jeder Urkundennummer im Register eine Tabellenzeile erstellt wurde. Jede Tabellenzeile in dieser Datei repräsentiert also die Nennung einer Person in einer Urkunde des Urkundenbuchs.
Abbildung 9: Schaubild zur Erstellung der Tabellenform des Registers aus den Einträgen in der gedruckten Fassung
Die Darstellung der Registerinformationen in Tabellenform erlaubt es durch Sortierung nach Urkundennummern in kürzester Zeit, alle in einer Urkunde genannten Personen aufzulisten.
Abbildung 10: Nach Sortierung der Urkundennummern erhält man alle in der Urkunden 796 vorkommenden Personen.
In der Abbildung werden nach Sortierung der Urkundennummern alle in Urkunde 796 im Register genannten Personen sichtbar. Selbstverständlich könnte man mit dem Durchlesen der Urkunden zum gleichen Ergebnis kommen, ggf. hätte man sogar einen besseren Überblick zu den Inhalten von Urkunde 796. Der Vorteil der Tabellenform ist aber, dass sie computerlesbar ist und mit entsprechenden Programmen alle Verknüpfungen gemeinsam sichtbar gemacht werden können.
Mit der Tabelle liegen nun die notwendigen Informationen des Registers computerlesbar vor.
zum Inhaltsverzeichnis ↑
4 Visualisierung des Registers mit Gephi
4.1 Umwandlung der Daten in gexf-Format
Vor der Visualisierung des Registers mit Gephi müssen die Daten noch in das Gephi-xml-Format gexf[7] umgewandelt werden[8]. Zunächst wird hierfür eine Liste aller im Register vorkommenden Personen erstellt. Sie finden sich im ersten Teil der xml-Datei. Die Einträge zu den einzelnen Personen werden in Gephi als nodes bezeichnet.
Abbildung 11: Liste aller im Register vorkommenden Einträge, in Gephi als nodes bezeichnet.
Im zweiten Abschnitt der Datei befinden sich dann alle Verbindungen (edges) zwischen Personen (nodes), die sich aus der gemeinsamen Nennung in einer Urkunde ergeben.
Abbildung 12: Abschnitt der XML-Datei, in der die Edges festgelegt werden
In der Abbildung wird beispielsweise eine Verbindung zwischen der Person (node) mit der ID 16 und der Person (node) mit der ID 95 hergestellt. Hinzu kommen noch Angaben zum Ort (Dreise …) und zum Datum (1198-01-01), die sich jeweils aus den Angaben der Urkunde ergeben[9].
4.2 Öffnen der gexf-Datei in Gehpi
Nach der Installation von Gephi können Sie die Datei nun öffnen. Die Präsentation mit Gephi habe ich auch auf Youtube als Video-Tutorial abgelegt:
Die Software Gephi ist Open-Source und unter
www.gephi.org
für die Betriebssysteme Windows, MacOS und Linux erhältlich[10].
Abbildung 13: Gephi nach dem Öffnen der gexf-Datei. In der Mitte die noch unbearbeitete Visualisierung des Registernetzwerkes
Abbildung 14: Ansicht auf einen Ausschnitt des Punktequadrats. Jeder Punkt symbolisiert jeweils ein Lemma aus dem Register, jede Linie jeweils eine gemeinsame Nennung von zwei Lemmata in einer Urkunde.
Nach dem Öffnen in Gephi sieht man im mittleren Fenster ein Quadrat, das zunächst die Visualisierung unseres Registernetzwerkes darstellt.
Zoomt man mit dem Mausrad in das Quadrat[11], werden die einzelnen Punkte mit den Verküpfungen sichtbar. Jeder Punkt (Node) symbolisiert jeweils ein Lemma aus dem Register, jede Linie (Edge) jeweils eine gemeinsame Nennung von zwei Lemmata in einer Urkunde.
4.3 Das Data Laboratory
Wählt man im oberen Bereich des Programmfensters den Reiter Data Laboratory aus, erscheinen die der Netzwerkvisualisierung zu Grunde liegenden Daten. Unter Nodes erkennen wir unsere Personen aus dem Register wieder. Den ersten Eintrag mit der ID 0 bildet z.B. Wigand von Aslar.
Abbildung 15: Das Data Laboratory bietet in Gephi Zugriff auf die Datengrundlage. Hier werden die Nodes angezeigt.
Unter dem Reiter Edges werden die Verknüpfungdaten (Edges) angezeigt. Der erste Edge verweist auf eine gemeinsame Nennung von Wigand von Aslar (mit der ID 0) und Adelheid, der Witwe des Ritters Johann von Schelm (mit der ID 2), der zweite Eintrag verweist auch von Wigand von Aslar auf einen Wigand mit der ID 1456 usw. Im Datenlabor hat man also Zugriff auf alle der Visualisierung zu Grunde liegenden Daten.
Abbildung 16: Unter Edges werden alle Verküpfungen zwischen den Nodes aufgelistet.
Abbildung 17: Die Nodes und Edges nach der Anwendung des Layouts ForceAtlas2.
4.4 Auswahl des Layout: ForceAtlas2
Kehren wir zum Quadrat zurück, der nun bearbeitet werden soll. Auf der linken Seite des Programmfensters können im Fenster Layout verschiedene Layouts für die weitere Bearbeitung der Daten ausgewählt werden. In unserem Beispiel wenden wir nun das Layout ForceAtlas2 an. Nach kurzer Zeit hat sich unser Quadrat auseinandergezogen und es werden verschiedene Zentren bzw. Gruppen von Nodes sichtbar. In den folgenden Abschnitten werden noch weitere Funktionen erläutert, mit denen charakteristische Merkmale der Daten sichtbar gemacht werden können.
4.5 Modularity
Abbildung 18: Mit der Funktion Modularity farbig markierte Gruppen im Netzwerk.
Die verschiedenen Gruppen des Netzwerks lassen sich mit weiteren Funktionen aus der Cluster Analyse besser sichtbar machen. Hierfür wählt man am rechten Rand unter Statistics die Funktion Modularity aus, mit der dann die einzelnen Gruppen farbig gekennzeichnet werden.
4.6 Degree Range
Unter dem Reiter Filters am rechten Bildrand gibt es noch weitere Analysemöglichkeiten. Unter dem Punkt Topology befindet sich der Unterpunkt Degree Range. Mit diesem kann man auswählen, wieviele Verknüpfungen eine Node haben muss, damit sie noch angezeigt wird. Für unser Beispiel haben wir die alle Nodes ausgeblendet, die 42 oder weniger Verknüpfungen haben.
Abbildung 19: Netzwerk ohne Filter.
Abbildung 20: Netzwerk mit Degree-Range-Filter.
In der oberen Abbildung (Abb. 19) wird das gesamte Netzwerk abgebildet, im unteren Bild (Abb. 20) nur noch jene Nodes, die 43 oder mehr Verknüpfungen haben. Zu diesen „wichtigen“ Nodes lassen sich auch die Namen einblenden.
Abbildung 21: Eingeblendete Namen der gefilterten Nodes.
Wechselt man von dieser Ansicht ins Datenlabor, werden dort nur noch jene Nodes angezeigt, die in der Auswahl vorher sichtbar waren.
Abbildung 22: Blick ins Datenlabor. Hier werden nur noch jene Nodes angezeigt, die vorher in der Auwahl sichtbar waren.
4.7 Timeline
Abschließend soll noch die Verwendung der Timeline in Gephi erläutert werden. Die Datengrundlage unserer Visualisierung bilden zum einen die aus dem Register extrahierten Personen (Nodes) und die aus den Urkundenangaben im Register gewonnen Verküpfungen (Edges). Jede Verküpfung zwischen zwei Personen geht also auf die gemeinsame Zuordnung zu einer Urkunde zurück. Die Urkunde selbst hat in der Regel einen Ausstellungsort und ein Datum. Genau diese Angaben kann man den Verknüpfungen zuordnen, so dass sie sowohl räumlich als auch zeitlich eingeordnet werden können. Hier soll nur auf die zeitliche Einordnung eingegangen werden.
Aktiviert man am unteren Ende des Programmfensters in Gephi die Timeline kann ein bestimmter Zeitintervall für die Anzeige ausgewählt werden.
Abbildung 23: Gephi mit aktivierter Timeline.
In der Abbildung ist zu erkennen, dass die Daten insgesamt einen Zeitraum vom 31.12.1173 bis zum 25.10.1478 umfassen. Zunächst sind alle Jahre ausgewählt, so dass alles angezeigt wird. Schränkt man die Auswahl mit Hilfe des Zeitbalkens am unteren Fensterrand jedoch ein, werden nur noch jene Edges angezeigt, deren Datumsangabe innerhalb des ausgewählten Intervalls liegen.
Abbildung 24: Gephi Timeline mit Auswahl von ca. 50 Jahren.
Je nach Fragestellungen lassen sich hier also Netzwerkstrukturen für bestimmte Zeiträume visualisieren. Es ist auch möglich, ein ausgewähltes Zeitintervall über den gesamten Zeitraum quasi filmartig ablaufen zu lassen, jedoch lässt sich dieses Feature hier im gedruckten Werk nicht darstellen[12].
zum Inhaltsverzeichnis ↑
5 Zusammenfassung
In diesem Aufsatz wurde gezeigt, wie man Informationen aus dem Register eines gedruckten Urkundenbuchs aus der Mitte des 19. Jahrhunderts mit Software zur Netzwerkanalyse visualisieren und untersuchen kann. Der Aufsatz schildert nur erste Schritte, verdeutlicht aber, dass es sich um einen interessanten Ansatz handelt. Die meisten Editions- und Regestenwerke besitzen Register, die mit vertretbarem Aufwand computerlesbar und der Netzwerkanalyse zugänglich gemacht werden können. Damit bieten sie eine neue Sicht auf das zu Grunde liegende Quellenmaterial, eröffnen neue Forschungsperspektiven und führen auch zu neuen Erkenntnissen, die vorher nicht sichtbar waren. Der hier geschilderte Ansatz führt jedoch nicht zu einer „Antwort-Maschine“, die dem Historiker die Arbeit abnimmt. Vielmehr können sich dem geschulten Auge in den Visualisierungen neue Interpretationsmöglichkeiten des Quellenmaterials bieten, die den Blick auf interessante Zusammenhänge in den Quellen lenken, welche vorher einfach auf Grund der Datenmasse nicht sichtbar gemacht werden konnten.
[4] Hinweise auf die Bedeutung eines Kanzleivermerks.
[5] Urkundenbuch des Klosters Arnsburg in der Wetterau. Baur, Ludwig [Bearb.]. Baur, Ludwig [Hrsg.]. - Darmstadt (1849 - 1851)
[6] Meinem Kollegen Hans-Werner Bartz aus Mainz möchte ich an dieser Stelle ganz herzlich für die Unterstützung bei diesem Projekt danken.
[8] Für die Unterstützung bei der Umwandlung der Textdatei in das gexf-Format möchte ich mich bei meinem Kollegen Ulli Meybohm herzlich bedanken.
[9] Bei Dreise handelt es sich um den Ausstellungsort, das im Urkundenbuch genannte Datum 1198 wurde auf 1174-01-01 normalisiert.
[10] Nähere Informationen zur Installation von Gephi finden Sie hier: https://gephi.github.io/users/install/
[11] Unter Windows kann man mit dem Mausrad in das Quadrat zoomen, bei MacOS mit zwei Fingern über das Mousepad streichen.
D O W N L O A D (pdf)
Zitationsempfehlung/Suggested citation: Andreas Kuczera: Digitale Farbenspiele oder nützliches Werkzeug – Visualisierung von Netzwerken aus den Registern von Editions- und Regestenwerken, in: Mittelalter. Interdisziplinäre Forschung und Rezeptionsgeschichte, 8. Januar 2015, http://mittelalter.hypotheses.org/5089 (ISSN 2197-6120).
Quelle: http://mittelalter.hypotheses.org/5089