Europeana Cloud Bericht “Digital research practices, tools and scholarly content use”

Das Projekt Europeana Cloud: Unlocking Europe’s Research via The Cloud hat heute seinen Bericht zu digitalen Forschungsmethoden und Werkzeugen sowie dem wissenschaftlichem Umgang mit Inhalten in den Geistes- und Sozialwissenschaften veröffentlicht.

Die Analyse zeigt in drei aufeinander folgenden Kapiteln jeweils den aktuellen Stand zu den Themen digitaler Content (Bilder, Text, Video und Ton), digitale Methoden (z.B. Recherche, Verwalten von Inhalten, kollaboratives Arbeiten) und digitale Tools (z.B. Definition, Visualisierung) in den jeweiligen Fachcommunities.

Sie dient zudem als Grundlage für eine von Europeana Cloud durchgeführte online-Umfrage in den Communities, die derzeit ausgewertet wird.

Quelle: http://dhd-blog.org/?p=2612

Weiterlesen

Uni Oslo: Blinde Studenten nutzen die Digitale Bibliothek im TextGrid Repository

Erfreuliche Nachrichten aus Norwegen: Am FB Deutsche Sprache und Literatur der Universität Oslo (ILOS / Institutt for litteratur, områdestudier og europeiske språk) nutzen blinde und sehbehinderte GermanistikstudentInnen die Digitale Bibliothek im TextGrid Repository erfolgreich als Studienquelle für literarische Primärtexte. Das berichtet uns Christian Janss, Editionsphilologe und Dozent für Deutsche Sprache und Literatur der dortigen Humanistischen Fakultät. Eine große Arbeitserleichterung für alle Beteiligten: Üblicherweise wird mühsam (und mit dem bekannt wechselhaften Erfolg) aus Printausgaben gescannt, anschließend via OCR in durchsuchbares Textformat umgewandelt; mehrere Korrekturgänge inbegriffen. Ein aufwendiges, zeitintensives Verfahren.

Demgegenüber lesen die norwegischen StudentInnen die Texte aus der Digitalen Bibliothek im TextGrid Repository direkt per Braillezeile aus. Scannen, OCR und Korrekturlesen entfallen, ebenso wie das mühsame Zusammensuchen verläßlicher Quellen im Internet; mit dem TextGrid Repository macht eine einzige URL eine große Anzahl verläßlicher, zitierfähiger und durchsuchbarer Primärtexte zugänglich.

Ein toller Anwendungsfall, den wir TextGridler bislang nicht bedacht haben!

220px-Refreshable_Braille_display
Braillezeile

 

Quelle: http://dhd-blog.org/?p=2215

Weiterlesen

Kleiner Versuch über Romangattungen

Ich arbeite an der Erstellung eines Romankorpus, das längere, deutschsprachige Erzähltexte von 1500 bis 1930 versammelt. Das Kernkorpus umfasst ca. 450 Romane, größtenteils deutschsprachige Originalromane, aber rd. 1/8 sind Übersetzungen, vor allem aus dem Englischen, Französischen und Russischen. Hinzu kommt ein größeres Korpus von zur Zeit rd. 1500 Texten (diese Zahl ist wirklich nur eine Schätzung, da die Texte noch zu sichten sind). Das Kernkorpus soll mit relativ ausführlichen Metadaten, etwa Druckort, Verlag, Originalsprache, Erzählform, Epoche und eben auch zur Gattung versehen werden. Die meisten dieser Angaben sind unproblematisch, Erzählform und Gattung sind es nicht. Schon die Kategorisierung eines längeren Prosatextes als Roman erweist sich als als andere als trivial, aber darum soll er hier nicht gehen. Sondern hier handelt es sich um die Frage nach Formen der Roman, nach den Gattungen der Gattung Roman.

Ein erster Lösungsversuch sah so aus: Da ich vermeiden wollte, dass die Gattungszuschreibungen ad hoc von mir vergeben werden, habe ich eine Hilfskraft beauftragt, aus einer Liste von Roman-Nachschlagewerken und Literaturgeschichten die Zuschreibungen herauszusuchen und ohne Vereinheitlichung zu notieren. Das Ergebnis war recht interessant (besten Dank Herr Weimer!). Da gab es Einträge wie „Briefroman::Künstler- und Liebesroman in Briefform::monologischer Briefroman“ (die Doppelpunkte trennen verschiedene Zuschreibungen) oder „Entwicklungsroman mit autobiographischen Zügen::Schelmenhafter Zeit- und Entwicklungsroman::Entwicklungs- und Zeitroman::Schelmenroman“ oder „Familienroman::moralisch-didaktischer Roman::Ich-Erzählung::Briefroman::aufklärerisch-bürgerlicher Roman“. Man kann dahinter ohne Probleme den Werther, den Simplizismus oder die Schwedische Gräfin erkennen.

Allerdings ist ein Begriff wie ‘monologischer Briefroman’ wohl keine Gattungsbezeichnung, vielmehr wird die Gattungsbezeichnung ‘Briefroman’ gemeinsam mit dem deskriptiven ‘monologisch’ zur Beschreibung verwendet. Viele der Begriffe scheinen eng verwandt zu sein, z.B. „Zeitroman::Gegenwartsroman::Gesellschaftsroman“. Dann finden sich Begriffe wie „Großroman“ oder „Altersroman“, die überhaupt keine Gattungsbegriffe im herkömmlichen Sinne sind, sondern lediglich klassifizieren und dabei manchmal auch bewerten. Leider zeigte sich außerdem, dass nur rd. 250 der Texte auf diese Weise beschrieben werden konnten; für die anderen 150 fanden sich in den Darstellungen keine Gattungsbezeichnungen.

Der nächste Schritt war die Vereinheitlichung der so zusammengetragenen Begriffe. Um für eine quantitative Auswertung brauchbar zu sein, geht es weniger um eine individualisierte Beschreibung des Einzelwerks, sondern um die Zuschreibung zu allgemeineren Kategorien, die es dann erlauben zu prüfen, ob man mit dieser Gruppe regelhaft Textmerkmale verbinden kann. Für diese Vereinheitlichung, aber auch für die Frage nach der Klassifizierung der übrigen 150 Texte wäre es nützlich auf eine existierende Systematik von Gattungsbegriffen zurückgreifen zu können. Die literaturwissenschaftliche Forschung scheint diese Frage bislang nicht systematisch verfolgt zu haben.

Eine erste Annäherung könnte über die Verwendung des Begriffs Roman in Zusammensetzungen geschehen. Dafür wäre eine Liste aller Komposita mit dem Wort ‘Roman’ ein guter Anfang. Die größte Menge an zugänglichen Sprachdaten bietet zur Zeit Google mit den Quellen für die N-Gramm-Suche. Für die Romankomposita habe ich die 1-grams verwendet (Version 20120701). Die Daten liegen in dieser Form vor: „Quasselbude_NOUN 1956 11 10“, wobei die Angabe der Wortklasse, die erst in der zweiten Version des Korpus hinzugekommen ist, nur teilweise vorliegt. Die erste Zahl bezeichnet das Jahr, die zweite die Anzahl der Vorkommen des Wortes und die dritte die Anzahl der Bände, in denen das Wort vorkommt.

Nach der Extraktion der Komposita, der Vereinfachung des Materials auf den Nominativ und einer manuellen Sichtung ergab dies eine Liste mit rd. 424 Einträgen vom „Alltagsroman“ über den „Haremsroman“ und den „Nichtroman“ bis zum „Zigeunerroman“. Zu jedem Begriff gibt es außerdem eine Frequenzangabe (Häufigkeit im ganzen Korpus). Die Zahl 424 ist cum grano salis zu nehmen, da man einige Einträge zusammenfassen konnte, z.B. „Debutroman“ und „Debütroman“ oder „Desillusionierungsroman“ und „Desillusionsroman“ oder sogar „Gegenwartroman“ und „Gegenwartsroman“.

Diese Liste ergibt keine Liste der Gattungsbezeichnungen und trotz ihrer Länge schon gar nicht eine vollständige. Einige der Begriffe sind keine Gattungsbezeichnungen, wenn man darunter „die als ge- und bewußte Normen die Produktion und Rezeption von Texten bestimmenden ‘historischen Textgruppen’“ versteht (Klaus Hempfer: „Gattung“ in: Klaus Weimar (Hg.): Reallexikon der deutschen Literaturwissenschaft Bd. 1, de Gruyter 1997, S. 651 ), sondern haben eine andere Funktion, z.B. „Debütroman“,“Emigrationsroman“,“Hauptroman“ oder „Lieblingsroman“. Einige beziehen sich außerdem auf einen einzigen Text (z.B. „Rosenroman“ oder „Josephsroman“). Die Liste enthält also Begriffe, die keine Gattungsnamen sind und andererseits gibt es noch mehr Bezeichnungen für Gattungen, die aber nicht als Kompositum aufgebaut sind, nämlich in der Verbindung von ADJ + NOUN, also z.B. „sozialer Roman“, „psychologischer Roman“, „philosophischer Roman“ usw. Diese sind in der ersten Fassung der Liste nicht enthalten.

Mit wenig Aufwand kann man aus den Daten, die ja die Verwendungshäufigkeit der Begriffe enthalten, ein Wordle erstellen, indem man einen Text generiert, der die Begriffe anteilig zu ihrer absoluten Häufigkeit enthält. Das Ergebnis sieht so aus:

romangattungen1

Leider ist ‘Kriminalroman’ so dominant, dass die anderen Begriffe sehr schnell in unlesbarer Kleinschreibung verschwinden. Wenn wir ihn aus dem Bild entfernen, ergibt sich diese informationsreichere Übersicht:

romangattungen2

Das ist hübsch. Und es ist ein erster Schritt auf dem Weg eines Überblicks über die Gattungsbegriffe für den Roman. Aber natürlich hat es nur einen eingeschränkten analytischen Wert. Die Ursachen für die hohe Frequenz eines Worts können sehr unterschiedlich sein. Die große Häufigkeit des ‘Kriminalromans’ etwa ergibt sich daraus, dass dies eine eingeführte paratextuelle Bezeichnung ist, die sich im Text findet (Meinem Wissensstand nach sind Titel und Untertitel Teil des Korpus). Der ‘Bildungsroman’ dagegen ist ein Begriff der Beschreibungssprache. Interessant sind Begriffe wie ‘Zeitroman’, die sich am Anfang des 20. Jahrhunderts in einer ganzen Reihe von Romantiteln finden, während er gegen Ende des Jahrhunderts häufiger in Texten über Romane zu finden ist.

Anders ausgedrückt: Die Analyse hat einen ersten Eindruck von der Häufigkeitsverteilung von Gattungsbegriffen ergeben, aber wir können nicht beurteilen, ob es sich hierbei um Begriffe der Objekt- oder Metasprache handelt. Das Problem könnte man möglicherweise lösen, wenn man in einem großen Bibliothekskatalog die Untertitel von Romanen systematisch unter der Perspektive auswertet, welche der hier aufgeführten Kategorien vorkommen. Das würde dann ihre Verwendung in der Objektsprache belegen. Außerdem könnte man, ausgehend von den Publikationsdaten der Romane überprüfen, ob ungefähr gleichzeitig die entsprechenden Begriffe geläufig sind, also Romanmetadaten und Ngramm-Daten abgleichen.

Ein weiteres Problem entsteht durch die Heterogenität der Gattungsbegriffe. Selbst wenn man die Begriffe aussondert, die offensichtlich keine Gattungen bezeichnen, bleibt eine Fülle von Begriffen übrig, die sich auf sehr unterschiedliche Aspekte beziehen, z.B. der inhaltsbezogene Begriff Abenteuerroman und der referenzbezogene Begriff Schlüsselroman. In dieser Form sind sie nur eingeschränkt tauglich für die Korrelierung mit den Ergebnissen von Clustering aufgrund von Textmerkmalen. Dieses Problem könnte durch eine genauere Analyse der Gattungsbegriffe gelöst oder zumindest mal aufgeräumt werden. Und wenn wir schon bei Zukunftsplänen sind: Die historische Information, wann welche Gattungsbegriffe häufiger zu finden sind, könnte man auch noch auswerten, aber das ist nicht ganz einfach zu visualisieren. So etwas ist noch zu unübersichtlich:

romangattungen3

(Link)

Insgesamt also noch ein weiter Weg zu einem brauchbaren Beschreibungssystem von Romangattungen, aber die Frequenzangaben helfen wohl bereits bei der Vereinfachung der vorliegenden Begriffe. Nun müssten noch die 150 anderen Texte zugeordnet werden. Hat jemand Evremont von Sophie Bernhardi gelesen und hätte einen Vorschlag zur Gattungszuordnung? Oder Bruno Willes Glasberg. Henriette von Paalzows Ste. Roche?

Quelle: http://dhd-blog.org/?p=2128

Weiterlesen

Online-Umfrage zu den Schwierigkeiten beim Zugriff auf Holocaust Archivalien

Die International Holocaust Remembrance Alliance (ehemals Task Force for International Cooperation on Holocaust Education, Remembrance, and Research) hat eine Online-Umfrage zu den Schwierigkeiten beim Zugriff auf Holocaust-Archivalien gestartet. Das Ziel der Umfrage ist die Identifizierung der Probleme und zukünftige Lösungsmöglichkeiten.

Die Umfrage ist in Deutsch, Englisch, Französisch und Russisch verfügbar und sollte nur wenige Minuten im Anspruch nehmen.

Wir bitten die Befragten, möglichst ausführliche Antworten zu geben.

Wenn Sie Fragen haben oder weitere Informationen benötigen, besuchen Sie bitte http://www.holocaustremembrance.com/focus/archives oder E-Mail: ihra.survey@gmail.com

Quelle: http://dhd-blog.org/?p=1889

Weiterlesen

Internationale Konferenz “Public History of the Holocaust”

Die internationale Konferenz Public History of the Holocaust – Historical Research in the Digital Age hat die Auswirkungen des Internets auf die Holocaust-Forschung zum Thema und Möglichkeiten ihnen durch neue, digitale Forschungsinfrastrukturen zu begegnen. Sie wird am 9. Juli 2013 im jüdischen Museum in Berlin stattfinden.

Organisiert wird die die Konferenz von den Infrastrukturprojekten DARIAH (Digital Research Infrastructure for the Arts and Humanities), EHRI (European Holocaust Research Infrastructure) und TextGrid (Virtuelle Forschungsumgebung für die Geisteswissenschaften). Das Bundesministerium für Bildung und Forschung (BMBF) konnte als Förderer gewonnen werden.

Die Registrierung kann nur durch eine persönliche Einladung erfolgen. Bei Interesse melden Sie sich bitte bei Frau Dr. Heike Neuroth neuroth@sub.uni-goettingen.de.

Nähere Informationen zur Konferenz (in englischer Sprache): www.ehri-project.eu/public-history-holocaust.

Das digitale Zeitalter stellt HistorikerInnen gleichwie BesitzerInnen historischer Sammlungen vor besondere Herausforderungen – bietet aber gleichzeitig neue Möglichkeiten. Immer mehr Menschen haben durch das Internet nicht nur Zugang zu Daten, sondern können auch eigene Daten hochladen, anderen zur Verfügung stellen, analysieren und kommentieren und tragen so so einer neue (digitale) öffentliche Geschichtsschreibung bei.

Dies hat für die Holocaust-Forschung besondere Relevanz, da sie nie auf rein wissenschaftliche Forschung beschränkt war. Das Internet hat einen öffentlichen Raum geschaffen, in dem WissenschaftlerInnen zusammen mit historisch interessierten Laien zusammen Geschichte schreiben und analysieren können.

Eine zentrale Fragestellung der Konferenz wird sein, inwieweit neuartige digitale Methoden und Verfahren der Holocaustforschung Antworten auf neue und „alte“ Forschungsfragen liefern. So ist es z.B. möglich, mit Hilfe digitaler Methoden Hinweise auf die Namen der 2 Millionen noch unbekannten Opfer des Holocaust zu finden oder aber die genaue Struktur der Vernichtungslager digital zu rekonstruieren.

 

Quelle: http://dhd-blog.org/?p=1839

Weiterlesen

Publikation “Leitfaden zum Forschungsdaten-Management”

Die aus dem interdisziplinären WissGrid-Projekt entstandene Publikation “Leitfaden zum Forschungsdaten-Management” ist nun analog und digital erhältlich.

Digitale Forschungsdaten sind eine unverzichtbare Grundlage moderner Wissenschaft. Mit ihnen sind aber eine Reihe von notwendigen Datenmanagement-Aufgaben verbunden, damit sie in der aktiven Forschung bestmöglich eingesetzt werden können.

Der Leitfaden zum Forschungsdaten-Management stellt eine Checkliste und Anleitung bereit, um die wichtigsten Aufgaben und Fragen im Forschungsdaten-Management strukturiert zu beantworten und dessen Umsetzung effizient zu planen.

Die editierte Version ist analog im Verlag Werner Hülsbusch unter http://www.vwh-verlag.de/vwh/?p=814 erhältlich sowie open access und digital unter http://www.wissgrid.de/publikationen/Leitfaden_Data-Management-WissGrid.pdf verfügbar. Die nicht-editierten Versionen der WissGrid-Ergebnisse stehen auch weiterhin auf der Projekt-Homepage bereit.

Quelle: http://dhd-blog.org/?p=1477

Weiterlesen

DH in den Medien: Die FAZ über Digitale Geschichtswissenschaft

Wenn in den Medien über DH berichtet wird, startet meine Rezeption immer mit gemischten Gefühlen: Freude, dass wargenommen wird, woran man arbeitet und was einen selbst interessiert; Sorge, ob ein sinnvoller Bericht dabei herauskommt und ob der Journalist oder die Journalistin auch verstanden hat, wovon er oder sie schreibt. Beim Lesen des Artikels “Mittel auf der Suche nach einem Zweck” von Thomas Thiel, FAZ, 11.2.2013, überwiegt die Freude über eine gelungene Annäherung an ein nicht ganz einfaches Thema: der zunehmende Einsatz digitaler Verfahren in den Geschichtswissenschaften und die daraus resultierenden Auswirkungen auf die Methodik und die Praxis der Geschichtsforschung bzw. Geschichtsschreibung. Am Rande rührt das natürlich auch an einer der Grundfragen, die uns wohl alle hier umtreiben: Helfen digitale Werkzeuge bei der besseren Beantwortung alter Fragen? Führen sie zu einer Veränderung der Fragestellungen? Legen sie ganz neue Fragen nahe?

Am Beispiel der Tendenz zu quantifizierenden, jedenfalls aber formalisierten Untersuchungen, die sich hier vor allem auf Textmining und Textanalyse beziehen und für den Bereich der historischen Forschung wird dies zumindest angedeutet. Dabei ist klar, dass im Mainstream der Forschung und in der journalistischen Berichterstattung zunächst nur die einfachsten Verfahren ankommen: hier das Vorkommen oder gemeinsame Vorkommen (Co-Occurence) von Wörtern in Textkorpora. Dass dabei eine gewisse Neuheit behauptet werden muss, ist der Logik des Journalismus geschuldet. Den durchschnittlichen FAZ-Leser wird schließlich nicht so sehr interessieren, dass genau diese Fragen auch schon Pater Busa vor 60 Jahren beim Aufbau seines Index Thomisticus angetrieben haben, dass sich seit Jahrzehnten die Digital Humanities und Spezialbereiche wie die Computerlinguistik oder die in den 80er und 90er Jahren des vergangenen Jahrhunderts schon einmal in Blüte gestanden habende quantifizierende Geschichtsforschung mit diesen Verfahren beschäftig(t)en und dabei theoretisch, methodisch und in der Werkzeugentwicklung sehr viel weiter als bis zum einfachen Auszählen von Co-Occurences gekommen sind.

Eine anderes – leider nicht nur journalistisches – Wahrnehmungsmuster, das in einem Blog über Digital Humanities wohl thematisiert werden kann, ist die Unschärfe bzw. Ignoranz gegenüber dem Fachbereich, der diese Wandlungen auf der Entwicklungsseite vorantreibt: den Digital Humanities. Diese kommen in dem Artikel nämlich überhaupt nicht vor. Statt dessen scheint es (einmal mehr) so, als ob Methoden und Werkzeuge entweder einfach “da” sind und in den Geisteswissenschaften nur aufgegriffen werden, oder dass sie – wie es am vorgestellten Projekt “Historical Semantic Corpus Management (HSCM)” beschrieben – in Zusammenarbeit mit (wörtlich: “assistiert von”) einem “Informatiker” entwickelt würden. Dabei wird unterschlagen, dass es eben nicht die allgemeine Informatik ist, die die informatische Wende in den Geisteswissenschaften ermöglicht, sondern mit den Digital Humanities eine eigene Disziplin, die von manchen zwar als “Fachinformatik” klassifiziert wird, deren Wesen damit aber nur unzureichend zu fassen ist. Dabei reicht ein Blick auf die Webseite des Historical Semantic Corpus Management (HSCM), um zu sehen, dass das Projekt sich sogar selbst als “Digital Humanities Project” bezeichnet. Dort ist dann zwar die Rede von einer Zusammenarbeit zwischen “humanities and informatics”. Die “informatics”-Seite wird dann aber vertreten von Alexander Mehler und der hat eben keinen Abschluss in “Informatik”, sondern “graduated in computational linguistics [... and] got his PhD in computational linguistics” (so seine Website) – und das ist ja auch gut so, wenn man eben Verfahren zum Text-Mining in historischen Korpora braucht.

Quelle: http://dhd-blog.org/?p=1398

Weiterlesen

Wie schreibt man DH richtig? II

DH ernst zu nehmen, scheint mir gerade als Geisteswissenschaftler ein höchst selbstreferentieller Prozess zu sein (s.a. meinen Beitrag zu Open Access http://dhd-blog.org/?p=673). Nachdem die Kulturtechnik Lesen unter Titeln wie distant reading (Moretti), hyperreading (Sosnoski) oder maschine reading (Hayles) umfassend thematisiert wurde, verwundert es ein wenig, dass bisher dem Schreiben vergleichsweise wenig Aufmerksamkeit zuteil wurde, auch wenn natürlich die Literatur z.B. zu Markup mittlerweile Legion ist. Es ist aber m.E. ein Unterschied, ob man vorhandenene Texte “editorisch” mit Markup versieht oder ob man selbst Texte nicht mehr layoutbasiert, sondern strukturell schreibt, eben Texte, die den Anforderungen einer computergestützten Geistes- und Kulturwissenschaft genügen.

In der Theorie weiss man natürlich, dass Word-Dateien mit Blick auf ihre maschinelle Nachbearbeitung und -nutzung enge Grenzen haben und dass es besser wäre, statt dem WYSIWYG Prinzip zu huldigen, sich wieder auf Textstrukturen und – bedeutung zu besinnen. Nun ist WYSIWYG ein süßes Gift und hat viel dazu beigetragen, den Computer in den Geisteswissenschaften zu etablieren. Diese Leichtigkeit des Schreibens in Frage zu stellen und WORD z.B. mit einem XML Editor wie oXygen zu vertauschen, ist denn auch ein Schritt, den viele unserer Zunft vermutlich scheuen werden, und doch scheint mir genau dieser Schritt zum Strukturellen Schreiben, wie ich es nennen möchte, unverzichtbar, um das volle Potential der DH ausschöpfen zu können. Ich habe mich daher in einem Beitrag im Bibliotheksdienst (s. vor allem den ersten Teil DOI 10.1515/bd-2013-0005) einmal mit dieser Frage auseinandergesetzt und versucht “basale” Strukturen für das strukturelle Schreiben, oder wie man es nennen möchte, zu identifizieren. Das Pikante daran ist natürlich, dass,  wenn man schon über Strukturelles Schreiben “schreibt”, dann es auch füglich selbst tun sollte. Ich hatte daher dem Verlag abbedungen, den Beitrag nicht mit einer moving wall zu belegen, sondern ihn unter einer CC BY-SA Lizenz zu veröffentlichen und bereitete zeitgleich eine alternative Publikation vor, die mitttlerweile auch vorliegt (vgl http://diglib.hab.de/ebooks/ed000149/start.htm). Unterdessen hat aber auch der Verlag den Text online gestellt (DOI s.o.). Dies nun ist interessant, denn wenn man die beiden Versionen vergleicht, wird unmittelbar deutlich, warum online allein nicht ausreicht (auch wenn OA ein Wert an sich ist), und es einer intensiveren Bemühung um den Text bedarf, um ihn wirklich nutzbar zu machen. Augenfällig ist, dass z.B. die Links fehlen.  Sie sind in dem Beitrag auf der Verlagsseite allesamt nicht clickbar. Überhaupt hinterlässt er einen etwas lieblosen Eindruck. Das Entscheinde liegt aber unter der Oberfläche dieser Version, die unter “strukturellen Gesichtspunkten”(Markup)  gänzlich ungenügend ist. Z.B. würde man sich zu Schlagworten und Personen GND Nummern wünschen. Diese habe ich in meiner Version ergänzt (wenn auch noch nicht sichtbar gemacht). Sie stecken im XML Quelltext (http://diglib.hab.de/ebooks/ed000149/BD-2013-01.xml) und werden später vor allem in übergreifenden Suchalgorithmen ausgewertet werden (zum Einsatz wird die DB eXist kommen). Mit Blick auf zukünftige Szenarien der Nachnutzung im semantic web habe ich zudem einige grundlegende Dinge, wie Titel, Autor, Schlagworte mit RDFa markiert,. z.B. <span property=”dc:title”>Wie schreibt man Digital Humanities richtig…<span> (eine gut verständliche Einführung zu RDFa findet sich hier:http://www.w3.org/TR/xhtml-rdfa-primer/). Nebenbei habe ich auch versucht diesen Blockbeitrag zu “semantisieren”, was allerdings fehlschlug, weil WordPress Attribute wie @property aus den Tags zu entfernen scheint. Aber vielleicht hat dazu jemand eine Idee?

Das Besondere und die Herausforderung, in dieser Art zu schreiben, liegt darin, dass man sich ständig reflexiv mit dem Text auseinander setzen muss. Besonders schwierig ist dabei die Frage, in welcher Tiefe und Granularität Texte ausgezeichnet werden müssen und sollen. Hier bedarf es sicher weiterer Erfahrungen und auch einer gewissen Kanonisierung. Da sich in einem Webumfeld auch die Lineariät des Textes nicht mehr selbstverständlich versteht, muss man als Autor die Visualisierung des Textes im Auge behalten, – und hier gilt es, nicht nur mit Landow an die hypertextuellen Strukturen zu denken (Verlinkungen zu anderen Texten oder Gegenständen), sondern auch an Dinge wie z.B. ein zu- und aufklappbares Inhaltsverzeichnis und Abstrakt. Die Dinge werden also komplizierter, aber, so meine Überzeugung, die Möglichkeiten des strukturellen Schreibens erhöhen auch die Sichtbarkeit, Funktionalität und Nachnutzbarkeit elektronischer Publikationen und ebenen den Weg zu einem semantic web, das auch Forschungsliteratur auf verschiedenen Ebenen des Textes integriert.

 

Quelle: http://dhd-blog.org/?p=1370

Weiterlesen

DH Award 2012 Nominee: Totenbuch-Visualisierung

Bei den aktuellen DH Awards (jeder ist aufgerufen, mit abzustimmen!) sind betrüblicherweise nur 2,5 Kandidaten aus dem deutschprachigen Raum nominiert. Neben dem Blog von Anne Baillot, der immerhin in Berlin “spielt” sind das das Institut für Dokumentologie und Editorik (IDE) und – für die Kategorie “Best DH visualization or infographic” – eine Visualisierung aus dem “Totenbuch-Projekt” der Universität Bonn, welches von der Nordrhein-Westfälischen Akademie der Wissenschaften gefördert und vom Cologne Center for eHumanities (CCeH) DH-seitig begleitet wird. Die Visualisierung ist ein recht komplexes “Ding” so dass es sich vielleicht lohnt, auch hier noch einmal ein paar erklärende Worte dazu zu verlieren.

Totenbuch-Gesamtvisualisierung

Worum geht es? Es geht um das altägyptische Totenbuch. Das altägyptische Totenbuch ist ein Textkorpus. Eine Sammlung von Sprüchen, die über einen langen Zeitraum hinweg immer wieder zusammengestellt und aufgeschrieben wurden, um sie einem/r Verstorbenen mit ins Grab zu geben auf dass die Sprüche ihm oder ihr beim Übergang in das Reich der Toten helfen mögen. Das Totenbuch-Projekt dokumentiert die überlieferten Textzeugen (ca. 3000 Totenbücher mit ca. 30.000 einzelnen Spruchnachweisen) und leistet Grundlagenarbeit für die weitere Erforschung des Totenbuchs. Dazu gehört auch, dass man sich einen Gesamteindruck von den einzelnen Sprüchen und ihrer Überlieferung verschaffen möchte.

Häufig und selten überlieferte Sprüche

Die hier zu diskutierende Grafik zeigt zunächst die von der Forschung “kanonisierten” Sprüche in ihrer kanonisierten Reihenfolge. Dabei steht jeder blaue Punkt für einen Spruch. Die Größe des Punktes steht für die Häufigkeit der Überlieferung des Spruches. Man erkennt auf einen Blick, welche Sprüche und Spruchgruppen breit überliefert sind und welche nicht.

Innerhalb des digitalen Textzeugenarchivs als Web-Präsentation des Projekts wird ausgiebig Gebrauch von Visualisierungen gemacht, um die Strukturen und die quantitativen Eigenschaften der überlieferten Textzeugen zu veranschaulichen. Bei dieser Grafik steht eine speziellere Fragestellung im Hintergrund, die einen Schritt in die eher analytische Dimension der Visualisierung markiert. Die Frage lautet: Entspricht die durch die Forschung etablierte kanonische Ordnung der Sprüche (die hauptsächlich auf einem Leitzeugen beruht) der Wirklichkeit der Gesamtüberlieferung? Wie gut entspricht sie ihr? Und wie kanonisch ist die Abfolge der Sprüche auf den Textzeugen wirklich?

Dazu visualisiert die Grafik die Nachbarschaftsverhältnisse zwischen Sprüchen. Es wird ausgezählt, wer die Nachbarn eines Spruches auf einem Textzeugen sind. Auf den überlieferten Objekten häufig benachbarte Sprüche werden in der Grafik durch Linien verbunden. Je dicker die Linie, desto häufiger ist eine Nachbarschaft belegt. Gäbe es eine deterministische Reihenfolge im Textkorpus, dann gäbe es nur eine einzige Verbindungslinie durch alle Sprüche. Wäre die Reihenfolge ganz beliebig, dann gäbe es eine große Zahl unterschiedlichster Verbindungslinien zwischen den Sprüchen. Die Gesamtvisualisierung liefert hier ein recht deutliches Signal: wenn man bedenkt, dass die Überlieferung einen langen Zeitraum (2.300 Jahre), eine große geografische Spannweite (17 Breitengrade), unterschiedlichste materielle Objekte (von Papyrus über Mumienbinden bis zu Grabinschriften) und verschiedenste Überlieferungszustände umfasst, dann ist die Abfolge als durchaus wenig variant zu betrachten. Und sie steht zunächst nicht im Widerspruch zu der Abfolge, mit der die Forschung selbst arbeitet. Ein genauerer Blick kann aber weitere Fragen anstoßen, die diesen Gesamteindruck bestätigen oder relativieren.

Scheinausreißer

Schnell fallen dabei einige dicke Linien auf, die der These einer relativ festen Abfolge zu widersprechen scheinen. Dies ist aber manchmal darauf zurückzuführen, dass aus inhaltlichen Gründen im Projekt Sprüche zusammengelegt wurden, die einen ähnlichen Text bieten. Die stärkste Verbindung von Spruch 47 scheint z.B. nach oben ganz woanders hin zu gehen, tatsächlich zielt sie aber auf Spruch 10/48. Hätte man die beiden nicht zusammengelegt, dann wäre die Reihe durchaus intakt. Das gleiche gilt für die nach unten gehende Linie bei Spruch 50, die auf Spruch 11/49 zielt.

Was ist hier los?

Andere Fälle erklären sich nicht in der gleichen Weise von selbst. So ist die Reihung von 136 zu 137 möglicherweise fragwürdig. Denn ein unmittelbarer Nachbar von 136/136A bzw 136B ist nur in 14 Fällen Spruch 137. Dagegen folgt auf 136B allein 49 mal Spruch 149 und auf 136/136A allein 47 mal Spruch 138 oder 139. Allerdings bedeutet das immer noch nicht, dass eine andere Reihung zu einem “glatteren” System führen würde. Hier wäre vielleicht in einem nächsten Schritt eine differenziertere Untersuchung anzusetzen, die z.B. Zeitstufen oder andere Gruppierungsmerkmale in den Blick nehmen könnte, um der Sache auf den Grund zu gehen.
Dies sind nur willkürliche Beispiel dafür, wie die Gesamtgrafik gelesen werden kann. Sie kann nichts weiter sein als ein ersten Schritt zu einem Verständnis der Gesamtstruktur und erste Einblicke in Details bieten. Dazu bedient sie sich mit der Berücksichtigung nur unmittelbarer Nachbarschaften eines sehr einfachen Modells, das methodisch durchaus fragwürdig ist und ggf. weiter zu verfeinern wäre.
Eines der hier leitenden Designziele ist das Konzept von “Overview & Detail”: man will zugleich einen Gesamteindruck herstellen UND bei näherer Betrachtung (am Bildschirm muss man wohl vom “reinzoomen” sprechen) immer feinere Details erkennbar machen. Das hat, wenn man es konsequent verfolgt, durchaus Nachteile und Kosten: Die Grafik ist recht groß. Zu groß für einen Monitor. Das aber ist Absicht. Es geht um eine Gesamtvisualisierung mit dem Potential für lokale Detailstudien.

Das Ding in meiner Küche

Das Ding im Besprechungsraum

Deshalb war das Ziel von Anfang an nicht eine Darstellung in den Grenzen eines Browserfensters. Tatsächlich sind die größeren Fassungen auch gar nicht vollständig in normalen Browserfenstern darstellbar, weil z.B. Firefox nur ein 7-faches Herauszoomen ermöglicht – und damit ist man immer noch nicht weit genug weg. Die Grafik ist trotzdem auf eine Breite von 210cm ausgelegt worden. Denn hier geht es nicht nur um die Digitalisierung einer materiellen Überlieferung, sondern auch um die Materialisierung digitaler Daten! Die Grafik funktioniert am Bildschirm als Werkzeug für Detailstudien. Hier offenbart auch jede Verbindungslinie beim onmouseover Start- und Endpunkt sowie die absoluten Fallzahlen. Für das Paradigma des Overview&Detail aber muss man seinen Schreibtischstuhl verlassen und die Maus loslassen. Ihre eigentliche heuristische Kraft entfaltet “die Tür”, wie wir den Ausdruck auf einer Forex-Platte nennen erst, wenn man sich vor sie stellt, sie abschreitet und vor- und zurücktritt. Erst diese körperliche Auseinandersetzung mit dem materiellen Objekt, sei es (derzeit, leihweise) in meiner Küche oder im Besprechungsraum des Instituts, entspricht der Informations- und Interaktionsintention der Visualisierung.

Die Menschen dahinter? Die Programmierung lag bei Ulrike Henny, ausgehend von und in einem Prozess der Konzeption und Diskussion mit anderen Kollegen vom CCeH. Wirklich “gemacht” haben aber vor allem die Daten, auf denen alles beruht, eine große Zahl ägyptologischer Fachwissenschaftler, zuletzt unter der Leitung von Marcus Müller, die alle Informationen in den letzten 20 Jahren zusammengetragen haben. Ohne diese Arbeit wüssten wir nichts und könnten nichts sehen.

Die Technik dahinter? Eine xQuery-Abfrage auf den Daten in einer XML-Datenbank (eXist) schreibt eine SVG …

Ausgangsdaten, lokales XML

xQuery schreibt …

… SVG (reduziert)

Quelle: http://dhd-blog.org/?p=1315

Weiterlesen