Explore, play, analyse your corpus with TXM

A short introduction of TXM by José Calvo and Silvia Gutiérrez

 

On Feburary 6-7, 2014, the Department for Literary Computing, Würzburg University, organized a DARIAH-DE Workshop called “Introduction to the TXM Content Analysis Platform“. The workshop leader was Serge Heiden (ENS-Lyon) who is in charge of the conceptualizing and implementing TXM at the ICAR Laboratory in France.

The workshop included a brief explanation of TXM’s background, but it concentrated on a very practical approach. We learned about the “Corpora options” (that is what you can know about your corpus: POS descriptions, text navigation), but also what you can do with it: find Key Words In Context (KWIC), retrieve Parts of Speech, and moreover how you can analyse these results querying for the Most Frequent Words or the cooccurrences.

In the evening of day one, we got an overview of the state of art of the use of “Natural Language Processing for Historical Texts” in a keynote by Michael Piotrowski (IEG Mainz). First of all, he started by defining Historical Texts as all those texts that will bring major problems to NLP. In order to clarify these definitions, Dr. Piotrowski listed some of the greatest difficulties:

  • Medium and integrity: we have to remember that in order to analyse an old script that was written in clay tablets or marble, it is compulsory to first find a way to transfer this information into a digital format (not an easy task); plus: some texts are defective or unclear, and transcriptions may introduce new errors
  • Language, writing system and spelling: many of the historical texts were written in extinct languages or variants different from today’s variants; as for the writing system, the many abbreviation forms and the variety of typefaces are more or less problematic; finally, we should not forget the little problem of non-standardized spelling!
  • State of art: Historical languages are less-resourced-languages, there are few texts available, and NLP for historical languages is carried out in specific projects; that is, there are no common standards and everyone has to start from zero.

Not to discourage his public, he then offered an overview of what can be done: Part-of-speech tagging. Creating a tagger for a historical language can be done with the the following methods:

  1. From scratch: manually annotating your text
  2. Using a modern tagger and manually correcting all errors
  3. Modernizing spelling
  4. Bootstraping POS tagger (with many versions of the same text, like the Bible)

Now let’s get back to the TXM workshop. In this post, you will find a brief practical introduction to this tool. We will provide you with a rough idea of what is this software about and what you can do with it. If you would like to learn more, do check the links we have shared towards the end of this post. By the way, all words marked with a little * are explained at the end, in the “Vocabulary” section.

What is TXM?

This software is at the juncture of linguistics and scholarly editing and it’s made to help scholars analyse the content of any kind of digital text (Unicode encoded raw texts or XML/TEI tagged texts).

To get to know more about the TXM background, don’t miss Serge Heiden’s Workshop slides:

Where can I work with it?

You may work on the desktop (download page) or online version of the tool. Both platforms have advantages and disadvantages. The online version allows you to start the work without downloading or installing anything, and share your corpora with other colleagues. With the desktop version, you can easily lemmatize and analyse the Parts of Speech (POS*) of your own texts.

So that you can get a better idea of the way it works, we’ll guide you with some practical examples. Say you want to search for the lemma politics on the “Brown Corpus*. First you have to open the Index option:

2014-02-15_19h28_12

Then you use the query box to type in the query, using the following structure from the CQL* query language: [enlemma=“politics”]. In the desktop version, the results will look as follows (the web version is very similar):

2014-02-12_11h02_39

What can I do with TXM?

Explore your corpus

Corpora options

On the first column of both interfaces there’s a list of the corpora you can work with (in this case DISCOURS, GRAAL, BROWN). When you click with the right button of your mouse on one of your corpora, you will see a list of icons:

png;base6465a19490765df979These are the main tools of TXM and you will use one of these to analyse your corpus in different ways.

Corpus description (Dimensions)

Before you start with the fun, you should click the “Dimensions” option and have a look at some general information about the corpus (number of words, properties, and structural units, as well as the lexical and structural units properties). This information is richer in the desktop version:

2014-02-12_11h12_23

Text navigation

A very practical TXM feature is the text display. If you wish to open a list of the corpus’ elements, you just have to click on the book icon (called “Texts” in the online version and “Open edition” in the other). A list like the following will be shown:

2014-02-12_11h17_48

Moreover, if you click on the book icon in the “edition” column, TXM will open a readable version of our text:

2014-02-12_11h18_47

Play with your corpus

Key Words In Context (KWIC)

A very typical visualization of a corpus is the so called KWIC view, which you have already seen displayed in the politics lemma example.

With TXM you can sort the results using different criteria organizing them according to the right or left context of your word, the word form, etc; besides, you can choose which elements you want to visualize. Say you’re searching for collocations of present as an adjective and NOT the data related to the noun nor the verb form (to present). First of all you need to go to the INDEX.

Once you open this, you can set the options in the “Keyword” column and visualize the grammatical category along with the word form. Then you type “JJ_present”, where “JJ” means “adjective” and “present” is the verb form, so that only those instances of the graphical form present are selected which are adjectives. It is also possible to order this data by different criteria.

As you can see in the next screenshot, you are looking for the lemma present. Therefore, you should set the first “Sort keys” menu to “Left context”, and the second one to “Keyword”; what you’re saying to the software is that you want all the examples sorted by the Left context as a first criteria and the Keyword as a second. In the “Keyword” > “View” menu we have set “enpos, word”. With that we are ordering TXM to show us not just the word form, but also the POS. That is why we see the keywords as “VVN_present” (that means, present as a verb) or JJ_present (present as an adjective):

png;base64f22bacff5fc65745

Parts of Speech

Another way to display specific words according to their POS can be run by using the Index tool (A|Z icon), from a lexicologist point of view one the most interesting options of TXM. If you search again for the lemma present and in the properties box, you chose to see not only the word form but the POS as well, TXM will tell you the frequency, word form and POS of each different word form found in the corpus:

2014-02-12_11h53_26

If you only want the word forms of the verb to present, you can add the POS information to the query: [enlemma=“present” & enpos=“VV.*”]

These index can able to create lists of n-grams. Let’s search for the most frequent words that appear after the lemma present:

2014-02-12_11h57_37

Quantative analysis

Most Frequent Words

To query something you have to have a specific question and know some basic information, for instance: in which language is the corpus? A way to have a general idea about the texts is the Lexicon option, the icon with AZ both on white background. When you click on it, you will see a list of the most frequent word forms:

2014-02-13_11h58_08

 

You can change the settings of the query and ask to count not the word forms but the lemmas. In that case the verb to be climbs up some positions, now that is, are, were, been etc. count as one single unity:

png;base64c5510467d9a7ff1f

 

Coocurrences

Another quantitative analysis concerns the coocurrences, that is, the words (or other unities) that frequently appear close to a specific word (or to other unities). Unlike n-grams, coocurrences do not have to appear exactly after or before the unity, they just have to be somewhere close to it.

The Brown corpus was compiled in the 1960s in the United States, the main years of the Cold War. So let’s see the vocabulary related to the words United States and which one to Soviet Union:

2014-02-13_12h13_56

Progression

Another statistical option that exists on the Desktop version is the Progression (icon with an arrow). This option helps visualize how many times a unity appears in a corpus or a text. This might be interesting to see the progress of a word between two dates or see the development of a word in the different parts of a text.

For the next example, the text of Bram Stocker’s novel Dracula was imported (the version used is from the University of Adelaide). With the information of the chapters kept in XML elements, you can look for the name of the main characters and see how many times and where they appear. The next screen-shot shows the complete query:

2014-02-13_13h41_35

To understand the next graphic, you have to keep in mind that if the lines ascends, that means the name has been mentioned; if the line keeps going horizontally, it means the name didn’t appear any more.

 

2014-02-08_15h54_49

 

As you can see, the Count Dracula (yellow) is the most mentioned name in the first four chapters, but it almost disappears towards the 17th chapter. In this gap, Lucy (blue) becomes the main character and, from the 9th chapter, the Professor van Helsing (red) takes the “leading” role. It is also remarkable that this last character is not only the most frequent, but the most stable.

Sub-corpora and partitions

You can divide your corpus into two options: sub-corpora and partitions. With a sub-corpus you can choose some texts from a corpus and work with them. With the partition, you can split the corpus into more than one part and easily compare the results of the different parts. On the next screenshot, you have the menu where a Partition called “Fiction and Press partition” is being created, using the XML “text” and the property “type” to choose which kind of text is wanted. This partition will have two parts: one called “Fiction” and the other one called “Press” and each of it will contain the respective type of texts.

2014-02-13_13h26_05

Useful links

“A gentle introduction to TXM key concepts in 90 minutes” by Serge Heiden: http://sourceforge.net/projects/txm/files/documentation/IQLA-GIAT%202013%20TXM-workshop.pdf/download

Tutorial video introducing TXM 0.4.6 (WARNING: the software, specially it’s surface, is now very different): http://textometrie.ens-lyon.fr/IMG/html/intro-discours.htm

TXM background http://fr.slideshare.net/slheiden/txm-background

TXM import process http://fr.slideshare.net/slheiden/txm-import-process

Vocabulary

 

Brown Corpus

The Brown corpus consists of 500 English-language texts, with roughly one million words, compiled from works published in the United States in 1961. You can learn more about it here.

CQL

TXM uses an underlying Contextual Query Language, which is a formal system for representing queries to information retrieval systems such as web indexes, bibliographic catalogues and museum collection information. More information in the official web-page: http://www.loc.gov/standards/sru/cql/

 

POS

Here is a useful alphabetical list of part-of-speech tags used in the Penn Treebank Project (tag and description): https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Quelle: http://dhd-blog.org/?p=3384

Weiterlesen

CfP: DARIAH Workshop “Innovative Teaching Methods and Practices in Digital Humanities” @DH2014 verlängert!

Dear colleagues,

the deadline for contributions to the full-day DARIAH VCC2 workshop “Innovative Teaching Methods and Practices in Digital Humanities” on July 7 at the DH2014 in Lausanne has been extended to April 28!
Also, we are delighted to announce that DARIAH Austria will sponsor a 200 Euro award for the best contribution (voted on by the participants), which will also be used as a showcase in consecutive DARIAH events!

See the PDF version [CfPDARIAHWorkshop] of the call or check it out online at: http://tinyurl.com/dariah-eu-cfp

Proposals should consist of an abstract of up to 500 words and a short bio which should be submitted by e-mail to: zim@uni-graz.at
The submission deadline is April 28.
Notifications regarding the acceptance of proposals will be sent out by May 19.

 

Quelle: http://dhd-blog.org/?p=3366

Weiterlesen

Nachlese DHd 2014: Forschungsfragen und -methoden

Die Auftakt-Session der DARIAH-DE Pre-Conference widmete sich Forschungsfragen- und Methoden (digitaler) Geisteswissenschaften. Christof Schöch (Uni Würzburg) und Dirk Wintergrün (MPIWG) gaben darin einen Überblick über das Methodenfeld unter Einbeziehung von veranschaulichenden Use Cases und stellten Überlegungen zu Grundfunktionen digitaler Forschungsumgebungen an.

Einen roten Faden dieser Methoden-Sitzung bildete der Umgang mit der Heterogenität der Geisteswissenschaften – repräsentiert durch ein interdisziplinär aufgestelltes Fachpublikum mit unterschiedlichen Forschungsinteressen – und ihrer Auswirkung auf Tools sowie das Erzielen möglicher Synergie-Effekte. Die Interaktion von GeisteswissenschaftlerInnen untereinander und mit/tels Anwendungen sind Ziele, die es durch eine tragende Forschungsinfrastruktur bestmöglich zu unterstützen gilt.

So wurden Möglichkeiten zum Auffinden methodischer Gemeinsamkeiten über Disziplinen- und Projektgrenzen hinweg ebenso diskutiert wie der Transfer geisteswissenschaftlicher Methoden in eine technische Umsetzung. Schließlich wurde die Rolle von Forschungsinfrastrukturen und ihre Anforderungen anhand der Themenfelder ‘Annotation’ und ‘Big Data’ (in DARIAH II vertreten durch entsprechend thematisch ausgerichtete Cluster) perspektivisch aufgezeigt.

Eine Herausforderung an Tools und Dienste, die beim Beantworten geisteswissenschaftlicher Fragestellungen helfen oder weitere Forschungsfelder eröffnen, liegt darin, so generisch ausgerichtet zu sein, dass sie für verschiedene Kontexte Relevant haben. Aus einer generischen Basisinfrastruktur heraus müssen jedoch problemorientierte, spezifische Fragestellungen adressiert werden können. Anhand von zwei Beispielen, der Taxonomy of Digital Research Activities in the Humanities (TaDiRAH) und des DARIAH-DE GeoBrowsers lässt sich dieses Verfahren veranschaulichen:

Bei TaDiRAH handelt es sich um ein von der Community mitgestaltetes Taxonomie-Projekt von DARIAH-DE, DiRT und DHCommons, das anwendungsorientiert ist, indem es ausgehend von generisch angelegten Forschungszielen und –methoden die Möglichkeit bietet, Objekte und Techniken maßgeschneidert für den konkreten Anwendungsfall zu kombinieren und einen strukturierten Zugang zu den Daten zu eröffnen. Auf diese Art ist die Verwendung der Taxonomie in verschiedenen Bereichen von der Auszeichnung von Tool-Verzeichnissen (DiRT) über die Anreicherung bibliografischer Angaben (DARIAHs Doing DH Bibliography) möglich. Gleichzeitig kann TaDiRAH zur Reflexion über die digitale Forschungspraxis im Allgemeinen herangezogen werden.

Der in DARIAH-DE entwickelte GeoBrowser ermöglicht die Visualisierung einer zeitlich/geografischen Verteilung und bildet somit ein Paradebeispiel vielseitiger Einsatzmöglichkeiten, die von der Analyse von Raum-Zeit-Relationen bis hin zur Visualisierung entsprechender Daten und deren Anreicherung mit existierenden Ressourcen reicht.

Mit Digivoy liegt zudem ein Beispiel vor, das zeigt, wie ein etabliertes Tool – in diesem Fall die von Stéfan Sinclair und Geoffrey Rockwell entwickelten Textanalysewerkzeuge, Voyant Tools, zur Analyse eines bestehenden Angebotes (das TextGridRep) integriert werden kann.

Ein abschließender Blick auf die Themenfelder Big Data und Annotation veranschaulicht zum einen die unterschiedliche disziplinäre Auffassung der Begriffe und zeigt zum anderen das Potential digitaler Verfahren für die Geisteswissenschaften.

Das geisteswissenschaftliche ‘Big Data’ definiert sich dabei nicht über Terabyte-Einheiten. Vielmehr sind es heterogene Faktoren wie Strukturiertheit der Daten und der Grad ihrer semantischen Erschließung, die geisteswissenschaftliche Daten zu komplexen Big Data werden lassen. Hinzu kommt, dass der riesige Pool geisteswissenschaftlicher Daten (“Die meisten Daten, die da draußen rumlungern sind geisteswissenschaftlicher Art!”) nicht nur heterogenes Material umfasst sondern es sich dabei auch um verteilte Daten handelt. Mittels quantitativer Verfahren ist es nun erstmals möglich, diese Daten analysieren zu können. Entscheidendes Kriterium ist dabei die Skalierbarkeit digitaler Methoden, die gleichzeitig den Mehrwert gegenüber (rein) händischen Verfahren ausmacht.

Am Annotationsbegriff zeigen sich Heterogenität und Homogenität der (digitalen) Geisteswissenschaften gleichermaßen. Das Annotieren ist eine disziplinübergreifend etablierte Praxis. Dabei reicht das Spektrum des Begriffs vom Anfügen von Notizen bis hin zu einer vollständigen Tiefenerschließung. Hinzu kommt die Anwendbarkeit auf eine Vielfalt von Daten, z.B. Bildannotationen, Fußnoten im erweiterten Sinn oder Verknüpfungen zwischen Quellen etc.

Das Beispiel der Annotation verdeutlicht den Bedarf weiterer Annäherungen. Diese zu leisten und die wesentliche, aber keineswegs triviale Verbindung zwischen Daten und Tools herzustellen, fordert einerseits digital arbeitende GeisteswissenschaftlerInnen und erfordert andererseits eine Infrastruktur notwendig, die sie dabei unterstützt, indem sie ihre Vernetzung befördert und Schnittstellen über Standards bereitstellt.

 

Referenzen:

DHd 2014. Digital Humanities – methodischer Brückenschlag oder ‘feindliche Übernahme’? Chancen und Risiken der Begegnung zwischen Geisteswissenschaften und Informatik, 1. Jahrestagung der Digital Humanities im deutschsprachigen Raum, 25.-28. März 2014, Universität Passau, http://www.dhd2014.uni-passau.de/

Digivoy: Schöch, Christof. Digivoy. TextGrids Digitale Bibliothek mit Voyant entdecken. https://de.dariah.eu/digivoy

GeoBrowser: http://geobrowser.de.dariah.eu/

TaDiRAH: Taxonomy of Digital Research Activities in the Humanities. V. 0.5, Februar 2014. https://github.com/dhtaxonomy/TaDiRAH

Voyant: Sinclair, Stéfan; Rockwell, Geoffrey. Voyant Tools. Privacy v. 1.0 beta. 2014. via http://voyant-tools.org

Quelle: http://dhd-blog.org/?p=3316

Weiterlesen

CfP: Workshop “Innovative Teaching Methods and Practices in Digital Humanities”

We would like to share our Call for Proposals to participate in the full-day DARIAH VCC2 workshop “Innovative Teaching Methods and Practices in Digital Humanities” on July 7 at the Digital Humanities Conference 2014 in Lausanne.

With this workshop, we would like to encourage the participants – and, consequently, the DH community at large – to share their thoughts and ideas on how the development of a digital pedagogy for digital humanities should proceed. We are encouraging proposals from both long-time practitioners of DH and recent adopters with innovative ideas, methods and interest in digital humanities pedagogy. We are looking for thoughtful and creative contributions that will be surprising, enlightening and inspirational. We are interested not only in what works but also what doesn’t — and what we can learn from failed experiments.

The workshop will be divided into two sessions:

  • Showcasing best practices for teaching and learning DH

In the morning session, participants will have the opportunity to present their ideas and/or actual teaching methods and materials.

  • Challenges in DH pedagogy

The afternoon session will provide a forum for the participants to discuss the most prominent challenges and issues in (digital) teaching of DH as well as the necessary next steps in promoting DH through digital pedagogy.

 

Proposals should consist of an abstract of up to 500 words and a short bio which should be submitted by e-mail to: zim@uni-graz.at

The submission deadline is April 13.

The proposals will be evaluated and selected by a program committee of international experts. The length allocated to each contribution (10-15 minutes) will be decided by the program committee, depending on the number of contributions and the strength of the proposals.

Notifications regarding the acceptance of proposals will be sent out by May 12.

See the full version of the call on the DARIAH-EU website at: http://tinyurl.com/DARIAH-cfp-DH2014

Please distribute the call to any colleagues, blogs and mailing lists that you find appropriate!

 

We are looking forward to your contributions!

Claire Clivaz, Walter Scholger and Toma Tasovac

Quelle: http://dhd-blog.org/?p=3236

Weiterlesen

Aktuelles vom PDR

Das Personendaten-Repositorium (PDR) möchte Sie aufmerksam machen, dass

Wir freuen uns auf Ihr Feedback!

Quelle: http://dhd-blog.org/?p=3148

Weiterlesen

Aktuelles vom PDR

Das Personendaten-Repositorium (PDR) möchte Sie aufmerksam machen, dass

Wir freuen uns auf Ihr Feedback!

Quelle: http://dhd-blog.org/?p=3148

Weiterlesen

Vom “Zeitalter der Extreme” zum “Jahrhundert der Chancen”

Ekkehard Klausa beim Montagsradio

Der englische Historiker Eric Hobsbawm (1917-2012) hat in den 1990er Jahren zwei Formeln geprägt, um das zerrissene 20. Jahrhundert zu beschreiben: “das Zeitalter der Extreme” und “das kurze 20. Jahrhundert”. Was genau wird mit diesen Formeln beschrieben? Ist die Rede vom “Zeitalter der Extreme” – 20 Jahre nach der Veröffentlichung von Hobsbawms “The Age of Extremes” – überholt? Mit welchen Begriffen lässt sich das 20. Jahrhundert alternativ fassen?

Mit diesen Fragen beginnt und endet das erste MONTAGSRADIO des “Supergedenkjahres” 2014, das auf der 7. Geschichtsmesse in Suhl aufgezeichnet wurde. Im Gespräch mit dem Juristen, Soziologen und Journalisten Dr. Ekkehard Klausa diskutieren Miriam Menzel und Patrick Stegemann darüber hinaus die Bedeutung des 20. Jahrhunderts für nationale und europäische Gründungsmythen und wagen eine Prognose für das 21. Jahrhundert als “Jahrhundert der Chancen”.

Ekkehard Klausa ist u.a. an der Gedenkstätte Deutscher Widerstand und der Freien Universität Berlin tätig. In der Reihe “MONTAGSRADIO – Vor Ort in Suhl”, gefördert von der Bundesstiftung zur Aufarbeitung der SED-Diktatur, werden im Februar und März 2014 drei weitere Gespräche zu diesen Themen veröffentlicht:

Mit der Medienwissenschaftlerin Dr. Anja Hawlitschek und der BStU-Mitarbeiterin Franziska Scheffler sprechen wir über die Digitalisierung der historisch-politischen Bildung in Form von Geocaching, Serious Games, E-Learning-Umgebungen und Co.

Mit dem Regisseur und Schauspieler Stefan Weinert sprechen wir über seinen mittlerweile preisgekrönten Dokumentarfilm “Die Familie”.

Mit Dr. Thomas Schleper, Leiter des Projektverbunds “1914 – Mitten in Europa”, diskutieren wir über neue Zugänge zur “Urkatastrophe” des 20. Jahrhunderts, die Vielfalt der europäischen Erinnerung an den Ersten Weltkrieg und Möglichkeiten der Synthese.

 

Für einen schnellen Überblick: die Timeline zum Gespräch mit Ekkehard Klausa

00:25 Zum Begriff „Zeitalter der Extreme“

03:10 Die europäische Dimension des „Zeitalters der Extreme“

05:12 Die Verrohung des Geistes am Beginn des „Zeitalters der Extreme“

08:45 Ist das „Zeitalter der Extreme“ vorbei?

12:50 Erinnerung an das “Zeitalter der Extreme”: Mahnung und geistige Integration

15:45 Nationale Gründungsmythen und europäische Erinnerungskultur

18:15 1989/90 & 2004: Happy End des “Zeitalters der Extreme”?

22:00 Alternativen zur Formel “Zeitalter der Extreme”

24:36 Prognose: Das 21. Jahrhundert als “Jahrhundert der Chancen”

26:30 Die “Gedenkstätte Deutscher Widerstand” im Supergedenkjahr 2014

28:30 Der MONTAGSRADIO-Fragebogen

 

Foto: Ekkehard Klausa zu Gast im MONTAGSRADIO (Kooperative Berlin)

Quelle: http://www.montagsradio.de/2014/02/14/vom-zeitalter-der-extreme-zum-jahrhundert-der-chancen/

Weiterlesen

Grenzen überschreiten – Digitale Geisteswissenschaft heute und morgen

Der dritte Workshop des Einstein-Zirkels Digital Humanities Berlin dreht sich dieses Mal nicht primär um die theoretische Definition der Digital Humanities. Vielmehr wird es um die Vielfalt der gelebten Praxis gehen, wie sich diese im Berliner Raum entwickelt hat und wie die Zukunftsaussichten aussehen. Unter dem Titel „Grenzen überschreiten“ werden die Bedingungen für ein inter-disziplinäres und inter-institutionelles Gespräch zwischen Projekten und Institutionen geschaffen, die zur Etablierung digitaler Werkzeuge und Methoden in den Geisteswissenschaften und angrenzenden Bereichen beitragen.

60+

Das Ergebnis des im Dezember 2013 lancierten Call for Posters zeigt schon, dass es tatsächlich tatsächlich darauf ankommt, sie zu vernetzen, denn: Die geisteswissenschaftlichen Nutzer digitaler Methoden gibt es ganz offensichtlich in Berlin und Umland bereits in vielfältiger Weise. Über 60 Beiträge wurden eingereicht, die nahezu vollständig die Berliner geisteswissenschaftliche Landschaft abdecken. Präsentieren werden sie sich am 28. Februar in drei Kategorien:

  1. Institutionen und Infrastrukturen
  2. Werkzeuge und Dienstleistungen sowie
  3. Projekte.

Während Institutionen und Infrastrukturen sich an besonders exponierter Stelle durchgehend mit ihrem Poster vorstellen werden, werden Werkzeuge und Dienstleistungen sowie Projekte feuerwerkartig in einminütigen Minivorträgen im Rahmen von zwei Slam-Sessions beleuchtet, um Besuchern eine Orientierung in der Menge der präsentierten Inhalte zu verschaffen.

Aufbau, Umbau und Ausbau

Für den Nachmittag wird zu Formaten zurückgekehrt, die Geisteswissenschaftlern/innen vertrauter sein werden. In einer Keynote wird Prof. Kurt Fendt das von ihm am MIT geleitete Hyperstudio und die Spannbreite dort bestehender Projekte vorstellen, aber auch seine Gedanken zu Erfolgen und Misserfolgen teilen und was wir für Berlin daraus lernen können.

Abgerundet wird der Workshop schließlich mit einer prominenten Podiumsrunde: Entscheidungsträger großer Institutionen diskutieren unter der Moderation von Matthias Spielkamp über die Zukunft der digitalen Projekte in den Berliner Geisteswissenschaften. Die Einzigartigkeit der Berliner Landschaft an Hochschulen, Museen, Bibliotheken und Archiven gibt den Rahmen für eine vielversprechende Debatte.

Melden Sie sich an!

Veranstaltet durch die Freie Universität und die Humboldt-Universität, getragen durch die Einstein-Stiftung, setzt sich diese Veranstaltung zum Ziel, den Dialog zu (er)öffnen. Dieser Dialog wird nicht zuletzt – wie die anderen Workshops des Einstein-Zirkels zuvor – davon leben, welche Fragen und Antworten das Publikum mitbringt. Darum melden Sie sich am besten gleich an unter: http://www.digital-humanities-berlin.de/workshop-registrierung

Auf zahlreiche Besucher freuen wir uns!

Quelle: http://dhd-blog.org/?p=2997

Weiterlesen

Neu erschienen: Masterarbeit zur Langzeitarchivierung von Daten in VFUs für die Digital Humanities

Auf dem e-doc-Server der Humboldt-Universität zu Berlin wurde am Montag in der Reihe Berliner Handreichungen zur Bibliotheks- und Informationswissenschaft die Masterarbeit von Silke Baumann zur Frage der Langzeitarchivierung [von Forschungsdaten] innerhalb Virtueller Forschungsumgebungen im Bereich Digital Humanities publiziert. Der Volltext ist über urn:nbn:de:kobv:11-100214018 abrufbar.

Die Autorin befragte dafür GeisteswissenschafterInnen an der Mainzer Universität zu ihrem Datennutzungsverhalten und zu Einstellungen hinsichtlich der Langzeitarchivierung und Langzeitverfügbarhaltung von Forschungsdaten. (Einige der Ergebnisse finden sich auch im LIBREAS-Tumblr zusammengefasst.)

Silke Baumann ermittelt einen großen Bedarf an entsprechenden Lösungen, stellt aber zugleich fest,

“dass es noch nicht viele erfolgreiche Beispiele für Langzeitarchivierung innerhalb von Virtuellen Forschungsumgebungen im Bereich Digital Humanities gibt.” (S. 31)

Die Architektur des TextGrid Repositories wird jedoch immerhin bereits als sinnvolle und zweckmäßige Annäherung bewertet.

Für den Einsatz von Virtuellen Forschungsumgebungen in den Geisteswissenschaften zieht die Autorin den Schluss:

“[Es wäre] zweckmäßig, den WissenschaftlerInnen einen Rahmen anzubieten, innerhalb dessen sie, durch Werkzeuge und Infrastruktur einer Virtuellen Forschungsumgebung unterstützt, ihre Forschungsfragen kollaborativ, orts- und zeitungebunden, bearbeiten können. Durch eine solche Maßnahme könnten die WissenschaftlerInnen nachdrücklich in ihrem Arbeitsalltag entlastet werden. Dabei wäre es empfehlenswert, eine modulare Architektur zu wählen, die die Anpassung an verschiedenste Forschungsprojekte erlaubt. Die Forschungswerkzeuge müssen in enger Zusammenarbeit mit den WissenschafterInnen entwickelt werden, sodass deren Usability und Akzeptanz durch die Nutzenden sicher gestellt werden können.” (S. 58)

Abstract der Autorin:

In der vorliegenden Arbeit wird an einem konkreten Beispiel betrachtet werden, wie wissenschaftliche digitale Kooperation und die langfristige Speicherung der digitalen Daten im Bereich Digital Humanities aktuell umgesetzt werden bzw. welche Wünsche und Ansichten die ForscherInnen diesbezüglich haben. Zu diesem Zweck wurden WissenschaftlerInnen der Johannes Gutenberg-Universität Mainz zur Beantwortung eines Online-Fragebogens eingeladen. Einführend werden die schwer zu greifenden Begriffe Digital Humanities, Virtuelle Forschungsumgebung, Forschungsdaten und Langzeitarchivierung für den Kontext dieser Arbeit definiert. Es wird betrachtet, was prinzipiell die Anforderungen an Virtuelle Forschungsumgebungen, Forschungsdaten und Langzeitarchivierung im Bereich Geisteswissenschaften sind, wie der derzeitige Entwicklungsstand hier ist und welches Angebot eventuell schon existiert. Im Anschluss folgt ein Blick auf einige Vergleichsstudien, der den bisherigen Kenntnisstand zu Data Sharing und Langzeitarchivierung wiedergibt. Zusammen mit den wissenschaftlichen Hintergrundinformationen ist dieser auch Basis für die Hypothesen, die an den Ergebnissen der Befragung verifiziert werden. Nach Erläuterung der Methode und Methodologie der Datenerhebung folgen eine Beschreibung der erhobenen Daten und daraus resultierende Schlussfolgerungen.

Quelle: http://dhd-blog.org/?p=2864

Weiterlesen

Hay mas futuro que pasado – oder: wie weiter mit hist.net?

Seit dem viel zu frühen Tod meines Freundes Peter Haber stellt sich mir die Frage, wie es mit unserem gemeinsam vor 15 Jahren begonnenen Projekt “hist.net” weitergehen soll. Bald ist mir klar geworden: Die Plattform in der bisherigen Form weiter zu führen, ist (aus verschiedenen Gründen) nicht möglich – und auch nicht sinnvoll. Sie zu […]

Quelle: http://weblog.hist.net/archives/6729

Weiterlesen