AIME – An Inquiry into Modes of Existence (B. Latour)

Screen Shot 2014-08-28 at 13.44.01Einige kennen ihn vielleicht aus Laussane von einem sehr interessanten Vortrag im Rahmen des DH 2014-Opening Plenary: Bruno Latour, Soziologe und Philosoph, Schüler u.a. von Gabriel Tarde – gemeinsam mit Michel Callon und John Law prägender Kopf der ‘material-semiotischen’ Methode der sog. Akteur-Netzwerk-Theorie (oft abgekürzt ‘ANT’). Neben anderen hat David M. Berry dieser DH-Vortrag Latours im Rahmen seines Blogs ganz offensichtlich inspiriert.

Als Professor der Sciences Po, Paris – und gemeinsam mit einem großen Team von Mitarbeitern dort sowie weiteren weltweiten Beiträgern – publiziert Latour nun sein neuestes Buch ‘An Inquiry into Modes of Existence’ im Rahmen einer sehr ansprechend gestalteten, zweisprachigen Internetseite (Zugriff: Anmeldung erforderlich): http://www.modesofexistence.org/

Neben einem Projektblog bietet die Seite Vollzugriff auf den Text Latours (“book”) mittels mehrerer interessanter Technologien, wobei hier neben dem “Notizbuch” und der Volltextsuche insb. die dezente und zugleich  intuitive, vielgenutzte Annotationsmöglichkeit besticht. Sie bildet gewissermaßen eine dritte Spalte des Texts. So finden sich auf o.g. Präsenz neben dem Print-Text (und einer Notizbuch-Funktionalität) auch weitere Anmerkungen, u.a. Latours, es entstehen Diskussionen u.v.m.

Hervorzuheben sind daneben aber auch jene ‘disamalgamierenden’ Text-Zugänge (“crossings”), die Textbereiche des Buchs über eine zweite Spalte, die anfangs als alphabetisch angeordnete Abbreviaturen-Liste erscheinen mag, verknüpfend durchziehen – oder aber thematisch angeordnet sowie mittels übersichtlich vernetzter ‘Punkt’-Einstiege einen weiteren Einstieg erlauben. Mehrere, einblendbare Tutorials, teils in Form von Videos, führen begleitend auch in diese experimentelleren Bereiche ein. Nicht zuletzt diese lohenen einen Besuch.

Quelle: http://dhd-blog.org/?p=3979

Weiterlesen

Rotkäppchen und der böse Wolf? – Das Titelthema „Digitale Geisteswissenschaften“ in Humboldt Kosmos

Kenneth Whitley, „Once upon a time“, ca. 1939. Bildnachweis: Library of Congress Prints and Photographs Division Washington, http://www.loc.gov/pictures/item/98518274/ (public domain).

Kenneth Whitley, „Once upon a time“, ca. 1939. Bildnachweis: Library of Congress Prints and Photographs Division Washington, http://www.loc.gov/pictures/item/98518274/ (public domain).

Die Digitalen Geisteswissenschaften bleiben im Gespräch! Nach der großen Herrenhausen-Tagung der Volkswagen Stiftung im Dezember 2013, dem ausführlichen duz-Themenheft vom November 2013, das den schönen Titel „Digitale Geisteswissenschaften – Die Nerds unter den Denkern“ hatte, sowie der ersten Jahrestagung des Verbands der Digitalen Geisteswissenschaften im deutschsprachigen Raum (DHd) in Passau mit über 350 TeilnehmerInnen, stehen die Digitalen Geisteswissenschaften nun erneut im Fokus der geisteswissenschaftlichen Öffentlichkeit: Im August diesen Jahres ist Humboldt Kosmos, das Magazin der Alexander von Humboldt Stiftung, mit dem Titelthema „Digital Humanities – Rotkäppchen 2.0“ erschienen (Heft 102/2014).

Das Titelthema wird im Kontext des Wissenschaftsjahrs 2014 präsentiert, das unter dem Motto „Die digitale Gesellschaft“ steht, und erscheint sowohl auf deutsch als auch auf englisch. Auch das Engagement der Humboldt-Stiftung in diesem Bereich, insbesondere mit der Einrichtung der hochdotierten Humboldt-Professur „Digital Humanities“ in Leipzig, die bekanntlich mit Gregory Crane besetzt wurde, dürfte eine Rolle bei der Wahl des Themas gespielt haben.

Der Beitrag der Wissenschaftsjournalistin Lilo Berg beleuchtet verschiedene Einsatzgebiete digitaler Daten und Methoden in den Geisteswissenschaften und zeigt überzeugend deren Nützlichkei für die Forschung auf, nicht ohne auch problematische Aspekte anzusprechen. Der Haupttext, in dem zahlreiche prominente deutsche VertreterInnen der digitalen Geisteswissenschaften sowie einige kritische Stimmen zu Wort kommen, wird flankiert von Kurzprofilen der Beitragenden, einer Übersicht zu relevanten Studienangeboten und Zentren, einer kurzen Geschichte der Digital Humanities sowie einer Liste von Zeitschriften, Verbänden und Projekten aus dem Bereich der Digitalen Geisteswissenschaften. Ohne Zweifel bringt ein solcher Beitrag dem Thema viel Aufmerksamkeit und man kann sich daher eigentlich nur darüber freuen! Zugleich stolpert man als selbst in den Digitalen Geisteswissenschaften engagierter Wissenschaftler doch über die eine oder andere Passage, die das Feld weniger überzeugend porträtiert.

Zunächst einmal wird aber der große Nutzen digitaler Daten und Methoden für genuin geisteswissenschaftliche Fragestellungen, die zudem auf breites Interesse stoßen, nicht nur an zahlreichen Beispielen aus der Forschungspraxis der für den Beitrag befragten ForscherInnen aufgezeigt, sondern eben auch an dem wunderbaren Beispiel, das dem Themenheft seinen Titel gibt: Rotkäppchen. Was für die Gebrüder Grimm mangels Daten und Methoden eine unerreichbare Herausforderung war, nämlich die Ergründung der weltweiten Verbreitung des Rotkäppchen-Themas und die Suche nach einem möglichen Ursprung der Erzählung, wird mit digitalen Daten und Methoden erstmals möglich. Der Beitrag berichtet von den Arbeiten des Anthropologen Jamshid Tehrani, der auf der Grundlage zahlreicher (allerdings bei weitem nicht aller) Fassungen von Rotkäppchen aus unterschiedlichen Kulturkreisen und unter Nutzung digitaler Methoden, unter anderem Algorithmen aus der Phylogenetik, zu verlässlichen und neuen Ergebnissen kommt: Er zeigt, dass die Frage nach einem gemeinsamen Ursprung schlecht gestellt ist, sondern dass es vielmehr drei große Familien des Themas gibt, wie sie in Asien, Afrika und Europa existieren. (Wer den Originalbeitrag von Tehrani lesen möchte, kann dies übrigens in der ausgezeichneten Zeitschrift PLOSone tun, wo der Beitrag im Open Access erschienen ist.)

So schön dieses und weitere Beispiel sind, so schade ist allerdings auch, dass der Artikel immer wieder etwas verkürzend oder unkritisch verfährt, sowohl wenn es um bestimmte Details der digitalen Forschungspraxis und -methoden geht, als auch insbesondere dann, wenn es um die Argumente der Kritiker der Digitalen Geisteswissenschaften geht. Ein erster Punkt betrifft das disziplinäre Profil der Digitalen Geisteswissenschaften. Es fällt zum Beispiel (insbesondere den Literaturwissenschaftlern unter uns) auf, dass die Linguistik und Archäologie als Pioniere der Digitalen Geisteswissenschaften genannt werden, dann weitere Disziplinen genannt, die Literaturwissenschaft aber an dieser Stelle überhaupt nicht erwähnt, sondern offenbar unter die Linguistik subsumiert wird. Im überwiegenden Teil des Beitrags geht es dann umgekehrt vor allem um literaturwissenschaftliche Gegenstände und Methoden, und die Literaturwissenschaften im weitesten Sinne sind – mit Gregory Crane, Martin Hose, Fotis Jannidis, Gerhard Lauer, Jan-Christoph Meister, Claudine Moulin, und Gerhard Wolf – die bei weitem am Besten vertretene Disziplin im Beitrag. Zwar kommen Archäologie und Linguistik noch kurz zur Sprache, die zahlreichen Aktivitäten und Initiativen in anderen Bereichen der Digitalen Geisteswissenschaften in Deutschland – man denke insbesondere an die Geschichte, Kunstgeschichte oder Musikwissenschaft, bleiben leider unerwähnt. Das disziplinäre Profil der Digitalen Geisteswissenschaften ist viel breiter und viel interdisziplinärer, als es der Beitrag vermittelt.

Ziemlich befremdlich ist außerdem, dass ohne jegliche kritische Distanz die Digitalen Geisteswissenschaften für ein bestimmtes Übel der Gegenwart verantwortlich gemacht werden. Es mag ja sein, dass die Konzentrationsfähigkeit und sprachliche Sicherheit von Studierenden (zumindest aus Sicht der ProfessorInnen) unzureichend ist, und vielleicht stimmt es ja tatsächlich, dass diese beiden Kompetenzen bei Studienanfängern über die Jahre hinweg abnehmen. Die Digital Humanities, so wird im Beitrag Gerhard Wolf zitiert, verstärkten diesen Trend! Wenn es diesen Trend gibt (der Punkt ist durchaus umstritten), so ist dafür doch allenfalls die übergreifende Digitalisierung des gesellschaftlichen Lebens und der Medien insgesamt verantwortlich zu machen, nicht jedoch ein noch kleiner Teil des Wissenschaftsbetriebs, mit dem die allermeisten StudienanfängerInnen während ihrer Schulausbildung und Sozialisation bis dahin wohl kaum in Berührung gekommen sein dürften. Glücklicherweise ist das wirklich ein Randthema des Beitrags.

Wirklich ärgerlich wird es allerdings beim Thema Forschungsförderung. Hier übernimmt der Beitrag unkritisch die Strategie eines seiner Beiträger, etablierte und digitale Geisteswissenschaften gegeneinander auszuspielen. Einer der Kritiker der Digitalen Geisteswissenschaften, Gerhard Wolf, wird mit folgendem Hinweis zitiert: „Digitalprojekte verschlingen Ressourcen, die wir dringend für unser geisteswissenschaftliches Kerngeschäft bräuchten“. Dass die dann von Wolf genannten Kernaufgaben, „interpretatives Erforschen und Editieren“ selbstverständlich von den digitalen GeisteswissenschaftlerInnen praktiziert werden, bleibt unerwähnt. Auch sei die Langzeitverfügbarkeit digitaler Objekte “nicht gewährleistet” und die “Abhängigkeit von der Technik nehme besorgniserregend zu”. Hier bleibt die Tatsache unerwähnt, dass die Langzeitverfügbarkeit papierbasierter Editionen auch nicht an sich gewährleistet ist, sondern erst durch eine über Jahrhunderte gewachsene und institutionalisierte Bibliothekslandschaft möglich wird, mithin durch Infrastrukturen, von denen wir abhängig sind. Die Anstrengungen, um eine vergleichbar tragfähige und dauerhaft verlässliche digitale Infrastruktur für digitale Objekte zu schaffen (in der Tat nach wie vor eine Herausforderung!), in der Digitalisate sicher aufbewahrt, langfristig verfügbar und unter neuen Fragestellungen nutzbar sind, werden erst seit verhältnismäßig kurzer Zeit und mit vergleichsweise geringen Mitteln betrieben. Niemand würde fordern, statt Bibliotheken doch lieber Forschung zu fördern, denn Bibliotheken sind unbestrittene Grundlage für Forschung. Ebenso verhält es sich mit der digitalen Infrastruktur: auch sie ist Grundlage (digitaler) Forschung und auch sie muss in vergleichbarer Weise wie die analoge Forschungsinfrastruktur institutionalisiert und dauerhaft gefördert werden. Vor allem aber: Alle GeisteswissenschaftlerInnen sollten an einem Strang ziehen, um ihre wissenschaftliche und gesellschaftliche Bedeutung sichtbar zu machen und mit ihren (auch, aber nicht nur finanziellen) Bedürfnissen bei Politik und Forschungsförderern gehört zu werden!

Was bleibt als Fazit? Einen Blogpost über einen wissenschaftsjournalistischen Beitrag schreibt man nicht, um seine Stärken zu loben. Daher lag hier der Schwerpunkt auf einigen Aspekten des Beitrags, die aus Sicht der Digitalen Geisteswissenschaften eher kritisch zu sehen sind. Es bleibt zu hoffen, dass sich die sicherlich zahlreichen GeisteswissenschaftlerInnen, die den Beitrag lesen werden, in der Lage sind, die Verkürzungen des Beitrags zu erkennen und ihnen vor allem die wunderbaren Anwendungsbeispiele im Gedächtnis bleiben, die zeigen, wie vielfältige neue Erkenntnisse und neue Fragestellungen durch digitale Daten und Methoden möglich werden!

Quelle: http://dhd-blog.org/?p=3953

Weiterlesen

Erstes Treffen des DARIAH-DE Stakeholdergremiums “Wissenschaftliche Sammlungen” in Göttingen

Am 23.07.2014 fand an der Niedersächsischen Staats- und Universitätsbibliothek Göttingen das erste Treffen des Stakeholdergremiums „Wissenschaftliche Sammlungen“ statt. Das Expertengremium wird als regelmäßiges Plenum des Austausches zwischen Geistes- und KulturwissenschaftlerInnen, BibliothekarInnen, ArchivarInnen und InformationswissenschaftlerInnen dienen, um fachwissenschaftliche Anforderungen an digitale wissenschaftliche Sammlungen zu artikulieren. Ziel des Gremiums ist es, Erfahrungen im Umgang sowie potentielle Nutzungsszenarien von wissenschaftlichen Sammlungen zur Sprache zu bringen, die von DARIAH-DE entwickelten Konzepte und Nutzungsszenarien in Bezug auf wissenschaftliche Sammlungen kritisch zu evaluieren, entsprechende Empfehlungen und Konzepte zu erarbeiten und für ihre Dissemination Sorge zu tragen sowie weitere relevante Fragen im Bereich zu identifizieren und zu diskutieren.

Mehr Informationen hier.

Quelle: http://dhd-blog.org/?p=3867

Weiterlesen

Round Table „Annotation von digitalen Medien”

von Luise Borek und Ruth Reiche, Technische Universität Darmstadt

Wer kennt ihn nicht, den Drang beim Lesen eines Textes ein paar Zeilen zu unterstreichen, eine Notiz an den Rand zu schreiben oder wichtige Stellen mit einem Post-It zu versehen, um sie bei Bedarf schnell wieder zu finden? Annotieren ist ein urmenschliches Bedürfnis, im Analogen wie auch im Digitalen. Doch ist bei einer Transformation vom Analogen ins Digitale ein Mehrwert zu erwarten, der Annotationspraktiken als Arbeitsinstrument für die Geistes- und Kulturwissenschaften neue Qualitäten verleiht, insofern digitale Annotationen medienübergreifend wirken, leicht mit anderen geteilt und von anderen ergänzt werden können und so die Entstehung von Wissen über einen längeren Zeitraum nachvollzogen werden kann.

RoundTable_Polaroid

Prinzipiell können alle Arten von digitalen Objekten annotiert werden, nicht nur Texte, sondern z.B. auch Bilder oder Videos. In diesem thematischen Kontext hat sich der Round Table „Annotation von digitalen Medien” positioniert, organisiert von der HRA Heidelberg und mit TeilnehmerInnen verschiedener Fachdisziplinen aus Berlin, Darmstadt, Essen, Heidelberg und Rom. Er fand am 5. und 6. Juni 2014 im Heidelberger Karl Jaspers Centre statt. Anhand konkreter Beispiele aus den jeweiligen Forschungsprojekten ist die Runde gemeinsam fünf Kernfragen digitalen Annotierens nachgegangen:

  1. Was sind Annotationen?
  2. Wer nutzt Annotationen?
  3. Zu welchem Zweck?
  4. Wie werden sie eingesetzt?
  5. Warum überhaupt Annotationen?

Die Frage danach, was Annotationen sind, entspringt dem Bedürfnis einer definitorischen Abgrenzung des Gegenstandsbereichs. Auch wenn alles, was auf ein ‚Datum’ referenziert, ein ‚Metadatum’ ist, so gehen Annotationen doch über rein deskriptive Metadaten hinaus. Vielmehr können manuelle Annotationen als Mikro-Publikationen eines Autors oder einer Autorin verstanden werden, denen maschinell generierte Annotationen gegenüberstehen. Bei einer solchen Gegenüberstellung darf allerdings nicht vergessen werden, dass letzteren die Leistung zum Design des automatisierten Verfahrens vorausgeht. Weiter können wissenschaftliche, private sowie projektinterne Annotationen unterschieden werden, die sich in ihrem Zugang unterscheiden (öffentlich vs. privat) sowie in ihrer Dauerhaftigkeit (persistent vs. flüchtig). Mit diesen drei Typen und ihren Anforderungen sind auch schon unterschiedliche Nutzergruppen impliziert.

Doch aus welchem Grund annotieren welche Nutzer? Hier sind verschiedene Szenarien denkbar, die stark vom jeweiligen Workflow abhängen, in dem die Annotationen auftreten und der somit ihre Anforderungen bedingt. In einem kollaborativen Arbeitsprozess besitzen Annotationen z.B. oftmals vorläufigen Charakter. Erst nach erfolgter Prüfung werden diese im späteren Verlauf durch feststehende Annotationen abgelöst. Letztere bedürfen selbstverständlich eines anderen Status als ihre kurzlebigen (und nicht mehr benötigten?) Vorgänger, denn die Grundlage der Wissenschaftlichkeit besteht in der Nachprüfbarkeit von Belegen. Deshalb sind persistente Annotationen für wissenschaftliche Nachnutzbarkeit dringend notwendig. Konsequent umgesetzt entsteht ein verlässliches Netzwerk des Wissens, das die Idee des Konzepts ‚Linked Data’ mittels eines standardisierten Referenzsystems für wissenschaftliche Kontexte weiterdenkt.

Neben den bereits skizzierten Themenfeldern rund um das Annotieren eröffnet sich mit Fragen nach Raum- und Zeitkomponenten von zu annotierenden Objekten ein weiterer Bereich, der in diesem Kontext noch wenig diskutiert wurde: Objekte verändern sich über die Zeit. Folglich wird nicht ein Objekt annotiert, sondern dessen Zustand bzw. eine Version des Objekts, die das vorliegende Digitalisat repräsentiert.

Der Round Table hat sich als ein geeignetes Format für praxisorientierten Austausch über Annotationen erwiesen und allen TeilnehmerInnen Anregungen für ihre Forschungsprojekte gegeben. Im Rahmen von DARIAH-DE kann das Annotationscluster als Plattform für weitere Gespräche über dieses verbindende Thema fungieren. Zu diesem Zweck ist bereits eine Mailingliste eingerichtet. Wir laden alle Interessierten zum Erfahrungsaustausch ein und freuen uns auf rege Diskussionen. Let’s post-it!

Quelle: http://dhd-blog.org/?p=3831

Weiterlesen

CfP: Computer-based analysis of drama and its uses for literary criticism and historiography, 12-13 March 2015

Over the last years, some developments paved the way for the computer-based analysis of dramatic texts. On the one hand, more and more texts are available electronically as, for example, in the collection Théâtre classique  (http://www.theatre-classique.fr) for French drama, the complete works of Shakespeare (e.g. http://www.folgerdigitaltexts.org) and a collection of German dramas and libretti (http://www.textgrid.de/). On the other hand, we can now see the emergence of new methods and tools that allow us to gain and compute information like, for example, word frequency, speech length, configuration structures or topics automatically, also from large amounts of texts.

Only rarely, results of computer-based text analysis find their way into literary history (except for some studies on authorship attribution as, for example, in the Molière/Corneille and the Shakespeare/Marlowe debate). The books of, for instance, Franco Moretti, Matthew Jockers and Matt Erlin/Lynne Tatlock may serve as evidence that this is now changing but they are restricted to prose and non-fictional texts. As questions of literary criticism and history are at the heart of literary studies and dramatic texts have genuine textual structures, our workshop aims at evaluating the possibilities of computer-based drama analysis for theses domains. What can be the use of the mostly quantitative data for questions such as quality, style, popularity, canonicity, genre, periods of literary history, and individual authorial periods of production? What kind of new questions, which new micro- or macronarratives are arising from these approaches? Where are the differences to prior non-computational approaches to quantitative aspects of drama (see e.g. the works of F.v.Cube/W. Reichert, Solomon Marcus, Manfred Pfister)?
We invite contributions which mostly focus on historical and critical research on dramatic texts and libretti. We encourage interested researchers to provide also some information on the creation of their corpora, annotation of the texts, preprocessing, data mining and (semi-)automatic extraction of data from the text with the help of tools, scripts and algorithms.

Please send proposals of 600-900 words in English or German together with the most relevant research titles (your own as well as others) and brief biographical details by 30 September 2014 to katrin.dennerlein@uni-wuerzburg.de

The workshop will take place at the Bavarian Academy of Sciences and Humanities. Travel expenses and hotel costs will be refunded.

Dr. Katrin Dennerlein
Julius-Maximilians-Universität Würzburg
Lehrstuhl für Computerphilologie und Neuere deutsche Literaturgeschichte

http://www.germanistik.uni-wuerzburg.de/lehrstuehle/computerphilologie/mitarbeiter/dennerlein/

Quelle: http://dhd-blog.org/?p=3808

Weiterlesen

„Zürcher Erklärung zur digitalen Kunstgeschichte“ veröffentlicht

Wie hier im Blog bereits angekündigt, hat die Tagung „Digitale Kunstgeschichte: Herausforderungen und Perspektiven“ vom 26. und 27. Juni 2014 in acht Workshops fachspezifische Positionen und Forderungen zu drängenden Fragestellungen im Zeichen des digitalen Wandels erarbeitet und als Endergebnis die „Zürcher Erklärung zur digitalen Kunstgeschichte“ veröffentlicht, die den Anliegen der kunstwissenschaftlichen Community Ausdruck gibt.

Weitere Informationen und die Möglichkeit die Erklärung zu unterzeichnen gibt es unter: http://sik-isea.ch/Aktuell/Veranstaltungen/DigitalArtHistory/tabid/359/Default.aspx

logo_sik

Quelle: http://dhd-blog.org/?p=3801

Weiterlesen

DARIAH-DE – Workshop “Forschungsdaten für Andere”

Lizenzen, so könnte man es positiv formulieren – sollen es ermöglichen Daten(sätze)und Datafakten innerhalb der Grenzen der geltenden Gesetze so öffentlich verfügbar zu machen wie möglich. Demgegenüber stehen die Unsicherheiten und die Unkenntnis darüber, was überhaupt lizensiert werden kann und darf, was die diversen Lizenzen auf dem Markt zu leisten vermögen, wie sich die jeweiligen Lizenzen in welchem Punkt unterscheiden. Auch herrscht meist Unklarheit darüber, wie Schutzkraft von Lizenzen einzuschätzen ist. Was schließen die jeweiligen Lizenz ein und was schließen sie aus? Wo liegen die jeweiligen Stärken und Schwächen, Chancen und Grenzen der Lizenz und wie komme ich überhaupt an diese? Angesichts möglichst freier, überregionaler und langfristiger Zugriffe auf Daten zu gewährleisten, sind gerade Lizenzen ein unumgänglicher Teil im Prozess der globalen Austausches. Allerdings erscheinen Lizenzprozesse und -entscheidungen für viele Wissenschaftler ein kaum zu bewältigendes und überschaubares Minenfeld zu sein. Dies führt teilweise zu falschen Entscheidungen in Bezug auf die Lizenzierung, so dass eine freier, überregionaler und langfristiger Zugang schwierig ist, oder es wird keine Lizenz vergeben, ohne zu bedenken, dass ohne eine explizierte Lizenz die Weiterverwendung stark beschränkt ist.

Durch das enorm gewachsene Interesse am offenen Zugang zu Forschungsdaten bzw. deren Bereitstellung in den historisch arbeitenden Wissenschaften, wird es immer dringlicher eine Regelung für die offene Frage der Urheber- und Verwertungsrechte an Forschungsdaten zu finden, da Forschungsdaten Grundpfeiler wissenschaftlicher Erkenntnis darstellen und Grundlage weiterer Forschung sind.[1] Zudem ergeben sich aus Projekten (wie z.B. WissGrid) und durch die gesteigerten Anforderungen durch Geldgeber immer mehr Notwendigkeiten sich mit dem “Datenmanagement” zu beschäftigen, welches auch die Beschäftigung mit Datenlizenzierung und Entscheidungsprozessen für eine Lizenz mit impliziert.

Diese und andere Problemkonstellationen waren Anlass am Leibniz-Institut für Europäische Geschichte in Mainz zusammen mit dem Deutschen Archäologischen Institut in Berlin als Partner in DARIAH-DE am 12./13.06. 2014 ausrichtete. Der Workshop war explizit zur Lizensierung von Forschungsdaten und Datafakten für die historisch arbeitenden Wissenschaften gedacht. In theoretischer und praktischer Perspektive wurden die Lizensierungsmöglichkeiten, die Lizensierungsprozesse und -entscheidung in den Blick genommen und diskutiert.

Am ersten Tag (12.6) wurde mit Experten in Input-Talks auf die Grundlagen der Forschungsdatenlizensierung eingegangen und die Themenkomplexe Urheberrecht, Nutzungsrechte und Datenschutz behandelt. Einzelne Projekte und Einrichtungen stellten ihre Modelle und Lösungen mit Lizenzierungsentscheidungen und -prozessen für den nationalen und internationalen Datenaustausch vor.

Zunächst stellte WIBKE KOLBMANN (Berlin) das Infrastrukturprojekt DARIAH-DE vor und verdeutlichte die Notwendigkeit an und von europäischen Infrastrukturprojekten zur Schaffung von Interoperabilität von Datenbeständen bzw. Datafakten sich stärker als bisher mit Fragen rund um die Lizensierung von Forschungsdaten zu beschäftigen.

JOHANNES PAULMANN (Mainz) als Direktor des Leibniz-Instituts für Europäische Geschichte unterstrich in seinem Grußwort die Dringlichkeit der Fragen nach den sozialen und wissenschaftlichen Regeln für Bereitstellung und Nutzung von Daten. Er verwies dabei auf die Notwendigkeit des freien Zugangs zu Forschungsdaten und Publikationen in Form von Open Access und Open Data. Er verwies dabei auf die eigenen Erfahrungen mit dem Projekt Europäische Geschichte Online und den in diesem Projekt bereitgestellten Metadaten zu Beiträgen und Multimediaelementen. So wies er darauf hin, dass die Beiträge zumeist unter einer Creative-Commons-Lizenz veröffentlicht würden und dadurch potentiellen Nutzern die Bedingungen für die (Weiter-)Nutzung deutlich gemacht würden und müssten.

Der Jurist und Kulturmanager PAUL KLIMPEL (Berlin) gab einen Überblick über die rechtlichen Rahmenbedingungen für wissenschaftliche Daten. Er machte nochmals deutlich, dass zunächst wissenschaftliche Daten nicht grundsätzlich einem urheberrechtlichen Schutzbereich angehören und damit diese nicht per se geschützt sind. Vielmehr tritt hier die Notwendigkeit von Lizenzen und Lizensierungsprozessen zutage, denn in juristischer Hinsicht sind Lizenzen rechtsverbindliche Verträge, die den Gebrauch und Nutzung von Daten(-beständen) eindeutig regeln. So machte Klimpel auch darauf aufmerksam, dass der Lizenzhinweis ein wichtiges Element darstelle, insbesondere dann, wenn dieser maschinenlesbar ist (z.B. als RDF), da dieser dann als rechtlich Metadatum gelten könne.

Die Leiterin des Arbeitspaketes “Standards und Richtlinien” im Projekt APEx (ArchivPortal Europa Exzellenznetzwerk) am Bundesarchiv SUSANNE WAIDMANN (Berlin) vertiefte den Aspekt zur Angabe des Lizenzhinweises anhand von archivischen Daten im Kontext des Archivportals Europa und dem Europeana-Projekt. Sie erläuterte anhand der Aufarbeitung der archivischen Daten in XML-Dateien das Format EAD (Encoded Archival Description) und die anschließende Konvertierung in das Europeana Daten Modell (EDM), wobei in diesem Schritt die Rechteinformationen mit in die Dateien eingebaut würden. Auch in Bezug auf die Metadaten kann METS (Metadata Encoding and Transmission Standard) als Containersystem für digitale Objekte und deren Präsentation in Kombination mit METSRights eine Einbindung von Rechteinformationen über digitale Objekte erreicht werden. Allerdings gäbe es keine Einigkeit über die Nutzung von Lizenzen (so z.B. bei Europeana CC) bei Erschließungsangaben bzw. Informationen, was allerdings teils auch an den nationalen Gesetzgebungen, so dass auf CC-By-Lizenzen zurückzugreifen wäre, wie es auch das Bundesarchiv mit CC BY-NC-SA mache. Es könne aber keinen generellen Aussagen darüber gemacht werden, wann und wie Lizenzen genutzt werden, sondern hänge immer noch stark vom jeweiligen Einzelfall ab, was ein zeit- und kostenintensives Unternehmen ist. Es müsse von daher ein valider Workflow entwickelt werden, der Arbeitsaufwand und Nutzen in ein rechtes Verhältnis setze.

ALINE DEICKE und ANNA NEOVESKY (Mainz) von der Digitalen Akademie verdeutlichten in ihrem Vortrag zu OpenAccess im Akademienprogramm zunächst die Rahmenbedingungen von OpenAccess und Lizensierungen unter der spezifischen Perspektive der Akademieprogramme. Sie berichteten aus den aktuellen Projekten im Umgang mit dem Einsatz von Lizenzen und stellten sowohl grundlegende Gedanken an und brachten diese in Zusammenhang mit gewonnenen Erfahrungen aus dem Arbeitsalltag. Sie machten darauf aufmerksam, dass es keinen Automatismus zwischen der Online-Verfügbarkeit und OpenAccess gäbe, insbesondere wenn die zur Verfügung gestellten Daten unter keine Lizenz gestellt wurden, da die Unklarheit der rechtlichen Lage zur Nicht-Nutzung führen würden. In den Projekten in den Akademieprogrammen würden sich Tendenzen zu CC-Lizenzen in der Form von CC-BY-SA abzeichnen, aber die Entscheidung über Lizenzen würde immer wieder an die Erfordernisse  des Projektes abgestimmt. Einige Projekte haben für eine Entscheidung die General Public License genutzt, um zu einem Ergebnis zu kommen. Für Deicke/Neovesky sei es allerdings offen, wie es mit Lizenzen, Entscheidungen und Prozessen angesichts von kollaborativen Projekten umgegangen werden müsse und wie die Lizensierung sich auch auf die Möglichkeiten der Langzeitarchivierungsstrategien auswirken würden.

MICHAEL KAISER (Bonn) von der Max-Weber-Stiftung in seinem Beitrag “Wissen, Bewusstsein, Praktikabilität” auf die rechtlichen Implikationen des digitalen Publizierens hin. Er zeigte dies an dem von ihm betreuten Projekt perspectivia.net und betonte, dass im Durchlaufen der Phasen von der Konzeptionierung bis zum Alltagsbetrieb die lizenzrechtliche Klärung immer ein wichtiges Element darstelle. Auch die Rollenverteilung zwischen den beteiligten Akteuren auf jeder Ebenen in allen Phasen der Konzeption und Durchführung von “digitalen” bzw. hybriden Projekten spiele eine wichtige Rolle. Er konstatierte, dass die Akzeptanz von und das Bewusstsein für Lizenzen auf allen Ebenen und Dimensionen der Projektphasen noch steigerungsbedürftig seien, wobei oft der Aspekt des Designs der Lizenzierung allzu oft in den Hintergrund gerät und das Spektrum der angebotenen Lizenzen bei weitem nicht genutzt wird. Er machte am Schluss seiner Ausführung darauf aufmerksam, dass auch die Internationalisierung von Lizenzen bisher noch unzureichend bedacht und umgesetzt ist, so dass sich Probleme bei dem Umgang mit der Mehrsprachigkeit und den Konflikt mit ausländischen Rechtsnormen noch zu wenig Aufmerksamkeit geschenkt würde, wenngleich dies nicht zu einem Alarmismus führen sollte.

Am zweiten Tag (13.6) wurden verschiedene Tools zur Lizenzentscheidung und -erstellung vorgestellt.

THOMAS KOLLATZ (Essen) stellte die Creative Commons Lizenzen mit Chancen und Grenzen vor und deren Lizensierungsportal Choose a license vor. Er zeigte auf, wie die CC-Lizenzen in verschiedenen Datenformaten Verwendung finden können (z.B. TEI, (x)html, EDM XML).

NIKO BEER (Paderborn) stellte das Licensing decision tool als Teil des OER IPR Support Project vor. In diesem Projekt werden umfangreiche Informations- und Hilfsmaterialien, sowie Werkzeuge zur Verfügung gestellt und verschiedenste Wege der Offenheit der Daten und ihrer Lizensierung mit bedacht werden kann.

WIBKE KOLBMANN (Berlin) stellte wiederum den Public Domain Calculator des Projektes Europeana Connect vor. Dieser entstand im Zuge der Suche nach einem Europeana Licensing Framework und soll die Klärung der Rechtslage und Empfehlung für Datenanbieter im Hinblick auf die Lizenzierung ihrer Daten für Europeana fördern. Er ist ein Instrument zur Bestimmung, ob Schutzfristen für ein Werk ausgelaufen sind, ob andersweitige Fakten vorliegen oder ob es sich um ein neu entstandenes Werk handelt, welches freiwillig als gemeinfrei veröffentlich werden kann. Allerdings wies Kolbmann in ihren Ausführungen nochmals darauf hin, dass der Anwendungsbereich des Tools durch die Auswahl der Medienformate eingeschränkt und zudem nicht für die Evaluierung von Metadaten geeignet sei.

Abschließend testeten die Teilnehmer an eigenen Rechnern die vorgestellten Tools, die sie bei der Lizenzentscheidung und -erstellung unterstützen können anhand ihrer eigenen Daten. Jeweilige Anwendungsfragen konnten direkt mit den jeweiligen BeraterInnen von DARIAH-DE diskutiert und gelöst werden.

In der Abschlussdiskussion wurde nochmals deutlich, dass es einen enormen Bedarf an Aufklärungs- und Beratungsarbeit in Bezug auf die Entscheidungsprozesse für oder wider eine Lizenzart gibt. Es war allgemeiner Konsens, dass es eine zentrale Stelle geben sollte, um sich bei Fragen der Lizensierung von Daten und Datafakten in den historisch arbeitenden Wissenschaften beraten zu lassen. Grundsätzlich wurde aber die Notwendigkeit für die Verwendung und den Nutzen der Lizenzierung von Forschungsdaten nicht mehr in Frage gestellt, was wiederum auch ein wichtiges Ergebnis des Workshops darstellt.

Workshopübersicht

Begrüßung Johannes Paulmann (Mainz)

Einführung Wibke Kolbmann (Berlin), Lizenzen als Thema von Infrastrukturprojekten – DARIAH-DE

Theorie und Praxis – Perspektiven und Herausforderungen der Datenlizenzierung

Paul Klimpel (Berlin), Rechtliche Rahmenbedingungen für wissenschaftliche Daten – Ein Überblick

Susanne Waidmann (Berlin), Rechteangaben rund um archivische Daten im Archivportal Europa und Europeana

Aline Deicke / Anna Neovesky (Mainz), OpenAccess im Akademienprogramm – Anwendung und Herausforderungen

Michael Kaiser (Bonn), Wissen, Bewusstsein, Praktikabilität – rechtliche Implikationen des digitalen Publizierens

Methoden und Tools ? Praktische Perspektiven der Datenlizenzierung

Thomas Kollatz (Essen), creative commons 4.0

Niko Beer (Paderborn), OER Licensing Decision Tool

Wibke Kolbmann (Berlin), Public Domain Calculator

Fragen und Perspektiven

Hands-on-Session mit den vorgestellten Tools anhand von eigenen Daten und Datafakten und anschließender Diskussion mit Teilnehmern und Veranstaltern.

[1] So die Wissenschaftsallianz in ihren Grundsätzen zum Umgang mit Forschungsdaten. Die DFG sieht hierin auch die Sicherung guter wissenschaftlicher Praxis.

Quelle: http://dhd-blog.org/?p=3773

Weiterlesen

Edirom-Summer-School 2014

Vom 8.–12.9.2014 veranstaltet der Virtuelle Forschungsverbund Edirom (Universität Paderborn und Hochschule für Musik Detmold) gemeinsam mit DARIAH-DE die diesjährige Edirom-Summer-School (ESS) im Heinz-Nixdorf-Institut der Universität Paderborn. Die Anmeldung zu den Kursen ist ab sofort auf der ESS-Website bis zum 31. Juli 2014 möglich.

Das Kursangebot reicht von allgemeinen Überblicksveranstaltungen zur DARIAH-DE Infrastruktur und zur Konzeption Digitaler Musikausgaben über Einführungen in die Text Encoding Initiative (TEI) und die Music Encoding Initiative (MEI) bis hin zu praxisorientierten Kursen u.a. zur Verwendung digitaler Editionswerkzeuge (Edirom Tools) oder zum Rendering von MEI Daten. Möglichkeiten zum Einblick in und zum Erfahrungsaustausch mit digital arbeitenden Editionsprojekten bietet das Edirom User Forum.

Im Rahmen des EADH Small Grants Programm kann in diesem Jahr ein Studentenstipendium für die Teilnahme an der ESS vergeben werden. Bewerbungsschluss hierfür ist am 20. Juli 2014. Weitere Informationen zum Bewerbungsverfahren, dem Kursprogramm und zur Kursanmeldung sind auf der ESS-Website erhältlich.

Quelle: http://dhd-blog.org/?p=3699

Weiterlesen

Explore, play, analyse your corpus with TXM

A short introduction of TXM by José Calvo and Silvia Gutiérrez

 

On Feburary 6-7, 2014, the Department for Literary Computing, Würzburg University, organized a DARIAH-DE Workshop called “Introduction to the TXM Content Analysis Platform“. The workshop leader was Serge Heiden (ENS-Lyon) who is in charge of the conceptualizing and implementing TXM at the ICAR Laboratory in France.

The workshop included a brief explanation of TXM’s background, but it concentrated on a very practical approach. We learned about the “Corpora options” (that is what you can know about your corpus: POS descriptions, text navigation), but also what you can do with it: find Key Words In Context (KWIC), retrieve Parts of Speech, and moreover how you can analyse these results querying for the Most Frequent Words or the cooccurrences.

In the evening of day one, we got an overview of the state of art of the use of “Natural Language Processing for Historical Texts” in a keynote by Michael Piotrowski (IEG Mainz). First of all, he started by defining Historical Texts as all those texts that will bring major problems to NLP. In order to clarify these definitions, Dr. Piotrowski listed some of the greatest difficulties:

  • Medium and integrity: we have to remember that in order to analyse an old script that was written in clay tablets or marble, it is compulsory to first find a way to transfer this information into a digital format (not an easy task); plus: some texts are defective or unclear, and transcriptions may introduce new errors
  • Language, writing system and spelling: many of the historical texts were written in extinct languages or variants different from today’s variants; as for the writing system, the many abbreviation forms and the variety of typefaces are more or less problematic; finally, we should not forget the little problem of non-standardized spelling!
  • State of art: Historical languages are less-resourced-languages, there are few texts available, and NLP for historical languages is carried out in specific projects; that is, there are no common standards and everyone has to start from zero.

Not to discourage his public, he then offered an overview of what can be done: Part-of-speech tagging. Creating a tagger for a historical language can be done with the the following methods:

  1. From scratch: manually annotating your text
  2. Using a modern tagger and manually correcting all errors
  3. Modernizing spelling
  4. Bootstraping POS tagger (with many versions of the same text, like the Bible)

Now let’s get back to the TXM workshop. In this post, you will find a brief practical introduction to this tool. We will provide you with a rough idea of what is this software about and what you can do with it. If you would like to learn more, do check the links we have shared towards the end of this post. By the way, all words marked with a little * are explained at the end, in the “Vocabulary” section.

What is TXM?

This software is at the juncture of linguistics and scholarly editing and it’s made to help scholars analyse the content of any kind of digital text (Unicode encoded raw texts or XML/TEI tagged texts).

To get to know more about the TXM background, don’t miss Serge Heiden’s Workshop slides:

Where can I work with it?

You may work on the desktop (download page) or online version of the tool. Both platforms have advantages and disadvantages. The online version allows you to start the work without downloading or installing anything, and share your corpora with other colleagues. With the desktop version, you can easily lemmatize and analyse the Parts of Speech (POS*) of your own texts.

So that you can get a better idea of the way it works, we’ll guide you with some practical examples. Say you want to search for the lemma politics on the “Brown Corpus*. First you have to open the Index option:

2014-02-15_19h28_12

Then you use the query box to type in the query, using the following structure from the CQL* query language: [enlemma=“politics”]. In the desktop version, the results will look as follows (the web version is very similar):

2014-02-12_11h02_39

What can I do with TXM?

Explore your corpus

Corpora options

On the first column of both interfaces there’s a list of the corpora you can work with (in this case DISCOURS, GRAAL, BROWN). When you click with the right button of your mouse on one of your corpora, you will see a list of icons:

png;base6465a19490765df979These are the main tools of TXM and you will use one of these to analyse your corpus in different ways.

Corpus description (Dimensions)

Before you start with the fun, you should click the “Dimensions” option and have a look at some general information about the corpus (number of words, properties, and structural units, as well as the lexical and structural units properties). This information is richer in the desktop version:

2014-02-12_11h12_23

Text navigation

A very practical TXM feature is the text display. If you wish to open a list of the corpus’ elements, you just have to click on the book icon (called “Texts” in the online version and “Open edition” in the other). A list like the following will be shown:

2014-02-12_11h17_48

Moreover, if you click on the book icon in the “edition” column, TXM will open a readable version of our text:

2014-02-12_11h18_47

Play with your corpus

Key Words In Context (KWIC)

A very typical visualization of a corpus is the so called KWIC view, which you have already seen displayed in the politics lemma example.

With TXM you can sort the results using different criteria organizing them according to the right or left context of your word, the word form, etc; besides, you can choose which elements you want to visualize. Say you’re searching for collocations of present as an adjective and NOT the data related to the noun nor the verb form (to present). First of all you need to go to the INDEX.

Once you open this, you can set the options in the “Keyword” column and visualize the grammatical category along with the word form. Then you type “JJ_present”, where “JJ” means “adjective” and “present” is the verb form, so that only those instances of the graphical form present are selected which are adjectives. It is also possible to order this data by different criteria.

As you can see in the next screenshot, you are looking for the lemma present. Therefore, you should set the first “Sort keys” menu to “Left context”, and the second one to “Keyword”; what you’re saying to the software is that you want all the examples sorted by the Left context as a first criteria and the Keyword as a second. In the “Keyword” > “View” menu we have set “enpos, word”. With that we are ordering TXM to show us not just the word form, but also the POS. That is why we see the keywords as “VVN_present” (that means, present as a verb) or JJ_present (present as an adjective):

png;base64f22bacff5fc65745

Parts of Speech

Another way to display specific words according to their POS can be run by using the Index tool (A|Z icon), from a lexicologist point of view one the most interesting options of TXM. If you search again for the lemma present and in the properties box, you chose to see not only the word form but the POS as well, TXM will tell you the frequency, word form and POS of each different word form found in the corpus:

2014-02-12_11h53_26

If you only want the word forms of the verb to present, you can add the POS information to the query: [enlemma=“present” & enpos=“VV.*”]

These index can able to create lists of n-grams. Let’s search for the most frequent words that appear after the lemma present:

2014-02-12_11h57_37

Quantative analysis

Most Frequent Words

To query something you have to have a specific question and know some basic information, for instance: in which language is the corpus? A way to have a general idea about the texts is the Lexicon option, the icon with AZ both on white background. When you click on it, you will see a list of the most frequent word forms:

2014-02-13_11h58_08

 

You can change the settings of the query and ask to count not the word forms but the lemmas. In that case the verb to be climbs up some positions, now that is, are, were, been etc. count as one single unity:

png;base64c5510467d9a7ff1f

 

Coocurrences

Another quantitative analysis concerns the coocurrences, that is, the words (or other unities) that frequently appear close to a specific word (or to other unities). Unlike n-grams, coocurrences do not have to appear exactly after or before the unity, they just have to be somewhere close to it.

The Brown corpus was compiled in the 1960s in the United States, the main years of the Cold War. So let’s see the vocabulary related to the words United States and which one to Soviet Union:

2014-02-13_12h13_56

Progression

Another statistical option that exists on the Desktop version is the Progression (icon with an arrow). This option helps visualize how many times a unity appears in a corpus or a text. This might be interesting to see the progress of a word between two dates or see the development of a word in the different parts of a text.

For the next example, the text of Bram Stocker’s novel Dracula was imported (the version used is from the University of Adelaide). With the information of the chapters kept in XML elements, you can look for the name of the main characters and see how many times and where they appear. The next screen-shot shows the complete query:

2014-02-13_13h41_35

To understand the next graphic, you have to keep in mind that if the lines ascends, that means the name has been mentioned; if the line keeps going horizontally, it means the name didn’t appear any more.

 

2014-02-08_15h54_49

 

As you can see, the Count Dracula (yellow) is the most mentioned name in the first four chapters, but it almost disappears towards the 17th chapter. In this gap, Lucy (blue) becomes the main character and, from the 9th chapter, the Professor van Helsing (red) takes the “leading” role. It is also remarkable that this last character is not only the most frequent, but the most stable.

Sub-corpora and partitions

You can divide your corpus into two options: sub-corpora and partitions. With a sub-corpus you can choose some texts from a corpus and work with them. With the partition, you can split the corpus into more than one part and easily compare the results of the different parts. On the next screenshot, you have the menu where a Partition called “Fiction and Press partition” is being created, using the XML “text” and the property “type” to choose which kind of text is wanted. This partition will have two parts: one called “Fiction” and the other one called “Press” and each of it will contain the respective type of texts.

2014-02-13_13h26_05

Useful links

“A gentle introduction to TXM key concepts in 90 minutes” by Serge Heiden: http://sourceforge.net/projects/txm/files/documentation/IQLA-GIAT%202013%20TXM-workshop.pdf/download

Tutorial video introducing TXM 0.4.6 (WARNING: the software, specially it’s surface, is now very different): http://textometrie.ens-lyon.fr/IMG/html/intro-discours.htm

TXM background http://fr.slideshare.net/slheiden/txm-background

TXM import process http://fr.slideshare.net/slheiden/txm-import-process

Vocabulary

 

Brown Corpus

The Brown corpus consists of 500 English-language texts, with roughly one million words, compiled from works published in the United States in 1961. You can learn more about it here.

CQL

TXM uses an underlying Contextual Query Language, which is a formal system for representing queries to information retrieval systems such as web indexes, bibliographic catalogues and museum collection information. More information in the official web-page: http://www.loc.gov/standards/sru/cql/

 

POS

Here is a useful alphabetical list of part-of-speech tags used in the Penn Treebank Project (tag and description): https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Quelle: http://dhd-blog.org/?p=3384

Weiterlesen

(CpF) EHRI Workshop: Heritage and Memory. Revising Scopes and Means of Physical and Digital Preservation of Holocaust Documentation

Internationaler Workshop zur Revision der Umfang und Bedeutung der physischen und digitalen Bewahrung der Holocaust Dokumentation.

 

Interesthemen umfassen, sind aber nicht beschränkt auf:

  • Physikalische Erhaltung der Holocaust Dokumentation: Herausforderungen und Entscheidungen
    1. Wert und die Bedeutung der originallen Dokumentation in Holocaust Forschung
    2. Ethik der Erhaltung der ursprünglichen Holocaust Materialien
    3. Dilemmas in der Erhaltung der ursprünglichen Holocaust Materialien
  • Rolle der Informationstechnologien auf die Erhaltung der Holocaust Dokumentation
    1. Auswirkungen der Informationstechnologien auf den Entscheidungsprozess der Erhaltung
    2. Standards der Digitalisierung der ursprünglichen Items
    3. Dateimanagement-und Informationssicherung
    4. Digitale Fotografie und Bildbearbeitung als Dokumentations- und Forschungswerkzeug
    5. Erweiterte Imaging-Technologien und ihre Potenzial für die Erhaltung , Darstellung und Verbreitung der Holocaust Dokumentation
  • Physikalische Erhaltung und digitalen Media, parallel oder komplementär?
  • Case studies: Beispiele von Projekten , die materiell und digitale Erhaltung der Holocaust Documentation einbeziehen.

Mehr Information über die Workshop und Call for Papers (auf Englisch) auf der EHRI Website

Quelle: http://dhd-blog.org/?p=3341

Weiterlesen