Edirom-Summer-School 2014

Vom 8.–12.9.2014 veranstaltet der Virtuelle Forschungsverbund Edirom (Universität Paderborn und Hochschule für Musik Detmold) gemeinsam mit DARIAH-DE die diesjährige Edirom-Summer-School (ESS) im Heinz-Nixdorf-Institut der Universität Paderborn. Die Anmeldung zu den Kursen ist ab sofort auf der ESS-Website bis zum 31. Juli 2014 möglich.

Das Kursangebot reicht von allgemeinen Überblicksveranstaltungen zur DARIAH-DE Infrastruktur und zur Konzeption Digitaler Musikausgaben über Einführungen in die Text Encoding Initiative (TEI) und die Music Encoding Initiative (MEI) bis hin zu praxisorientierten Kursen u.a. zur Verwendung digitaler Editionswerkzeuge (Edirom Tools) oder zum Rendering von MEI Daten. Möglichkeiten zum Einblick in und zum Erfahrungsaustausch mit digital arbeitenden Editionsprojekten bietet das Edirom User Forum.

Im Rahmen des EADH Small Grants Programm kann in diesem Jahr ein Studentenstipendium für die Teilnahme an der ESS vergeben werden. Bewerbungsschluss hierfür ist am 20. Juli 2014. Weitere Informationen zum Bewerbungsverfahren, dem Kursprogramm und zur Kursanmeldung sind auf der ESS-Website erhältlich.

Quelle: http://dhd-blog.org/?p=3699

Weiterlesen

Explore, play, analyse your corpus with TXM

A short introduction of TXM by José Calvo and Silvia Gutiérrez

 

On Feburary 6-7, 2014, the Department for Literary Computing, Würzburg University, organized a DARIAH-DE Workshop called “Introduction to the TXM Content Analysis Platform“. The workshop leader was Serge Heiden (ENS-Lyon) who is in charge of the conceptualizing and implementing TXM at the ICAR Laboratory in France.

The workshop included a brief explanation of TXM’s background, but it concentrated on a very practical approach. We learned about the “Corpora options” (that is what you can know about your corpus: POS descriptions, text navigation), but also what you can do with it: find Key Words In Context (KWIC), retrieve Parts of Speech, and moreover how you can analyse these results querying for the Most Frequent Words or the cooccurrences.

In the evening of day one, we got an overview of the state of art of the use of “Natural Language Processing for Historical Texts” in a keynote by Michael Piotrowski (IEG Mainz). First of all, he started by defining Historical Texts as all those texts that will bring major problems to NLP. In order to clarify these definitions, Dr. Piotrowski listed some of the greatest difficulties:

  • Medium and integrity: we have to remember that in order to analyse an old script that was written in clay tablets or marble, it is compulsory to first find a way to transfer this information into a digital format (not an easy task); plus: some texts are defective or unclear, and transcriptions may introduce new errors
  • Language, writing system and spelling: many of the historical texts were written in extinct languages or variants different from today’s variants; as for the writing system, the many abbreviation forms and the variety of typefaces are more or less problematic; finally, we should not forget the little problem of non-standardized spelling!
  • State of art: Historical languages are less-resourced-languages, there are few texts available, and NLP for historical languages is carried out in specific projects; that is, there are no common standards and everyone has to start from zero.

Not to discourage his public, he then offered an overview of what can be done: Part-of-speech tagging. Creating a tagger for a historical language can be done with the the following methods:

  1. From scratch: manually annotating your text
  2. Using a modern tagger and manually correcting all errors
  3. Modernizing spelling
  4. Bootstraping POS tagger (with many versions of the same text, like the Bible)

Now let’s get back to the TXM workshop. In this post, you will find a brief practical introduction to this tool. We will provide you with a rough idea of what is this software about and what you can do with it. If you would like to learn more, do check the links we have shared towards the end of this post. By the way, all words marked with a little * are explained at the end, in the “Vocabulary” section.

What is TXM?

This software is at the juncture of linguistics and scholarly editing and it’s made to help scholars analyse the content of any kind of digital text (Unicode encoded raw texts or XML/TEI tagged texts).

To get to know more about the TXM background, don’t miss Serge Heiden’s Workshop slides:

Where can I work with it?

You may work on the desktop (download page) or online version of the tool. Both platforms have advantages and disadvantages. The online version allows you to start the work without downloading or installing anything, and share your corpora with other colleagues. With the desktop version, you can easily lemmatize and analyse the Parts of Speech (POS*) of your own texts.

So that you can get a better idea of the way it works, we’ll guide you with some practical examples. Say you want to search for the lemma politics on the “Brown Corpus*. First you have to open the Index option:

2014-02-15_19h28_12

Then you use the query box to type in the query, using the following structure from the CQL* query language: [enlemma=“politics”]. In the desktop version, the results will look as follows (the web version is very similar):

2014-02-12_11h02_39

What can I do with TXM?

Explore your corpus

Corpora options

On the first column of both interfaces there’s a list of the corpora you can work with (in this case DISCOURS, GRAAL, BROWN). When you click with the right button of your mouse on one of your corpora, you will see a list of icons:

png;base6465a19490765df979These are the main tools of TXM and you will use one of these to analyse your corpus in different ways.

Corpus description (Dimensions)

Before you start with the fun, you should click the “Dimensions” option and have a look at some general information about the corpus (number of words, properties, and structural units, as well as the lexical and structural units properties). This information is richer in the desktop version:

2014-02-12_11h12_23

Text navigation

A very practical TXM feature is the text display. If you wish to open a list of the corpus’ elements, you just have to click on the book icon (called “Texts” in the online version and “Open edition” in the other). A list like the following will be shown:

2014-02-12_11h17_48

Moreover, if you click on the book icon in the “edition” column, TXM will open a readable version of our text:

2014-02-12_11h18_47

Play with your corpus

Key Words In Context (KWIC)

A very typical visualization of a corpus is the so called KWIC view, which you have already seen displayed in the politics lemma example.

With TXM you can sort the results using different criteria organizing them according to the right or left context of your word, the word form, etc; besides, you can choose which elements you want to visualize. Say you’re searching for collocations of present as an adjective and NOT the data related to the noun nor the verb form (to present). First of all you need to go to the INDEX.

Once you open this, you can set the options in the “Keyword” column and visualize the grammatical category along with the word form. Then you type “JJ_present”, where “JJ” means “adjective” and “present” is the verb form, so that only those instances of the graphical form present are selected which are adjectives. It is also possible to order this data by different criteria.

As you can see in the next screenshot, you are looking for the lemma present. Therefore, you should set the first “Sort keys” menu to “Left context”, and the second one to “Keyword”; what you’re saying to the software is that you want all the examples sorted by the Left context as a first criteria and the Keyword as a second. In the “Keyword” > “View” menu we have set “enpos, word”. With that we are ordering TXM to show us not just the word form, but also the POS. That is why we see the keywords as “VVN_present” (that means, present as a verb) or JJ_present (present as an adjective):

png;base64f22bacff5fc65745

Parts of Speech

Another way to display specific words according to their POS can be run by using the Index tool (A|Z icon), from a lexicologist point of view one the most interesting options of TXM. If you search again for the lemma present and in the properties box, you chose to see not only the word form but the POS as well, TXM will tell you the frequency, word form and POS of each different word form found in the corpus:

2014-02-12_11h53_26

If you only want the word forms of the verb to present, you can add the POS information to the query: [enlemma=“present” & enpos=“VV.*”]

These index can able to create lists of n-grams. Let’s search for the most frequent words that appear after the lemma present:

2014-02-12_11h57_37

Quantative analysis

Most Frequent Words

To query something you have to have a specific question and know some basic information, for instance: in which language is the corpus? A way to have a general idea about the texts is the Lexicon option, the icon with AZ both on white background. When you click on it, you will see a list of the most frequent word forms:

2014-02-13_11h58_08

 

You can change the settings of the query and ask to count not the word forms but the lemmas. In that case the verb to be climbs up some positions, now that is, are, were, been etc. count as one single unity:

png;base64c5510467d9a7ff1f

 

Coocurrences

Another quantitative analysis concerns the coocurrences, that is, the words (or other unities) that frequently appear close to a specific word (or to other unities). Unlike n-grams, coocurrences do not have to appear exactly after or before the unity, they just have to be somewhere close to it.

The Brown corpus was compiled in the 1960s in the United States, the main years of the Cold War. So let’s see the vocabulary related to the words United States and which one to Soviet Union:

2014-02-13_12h13_56

Progression

Another statistical option that exists on the Desktop version is the Progression (icon with an arrow). This option helps visualize how many times a unity appears in a corpus or a text. This might be interesting to see the progress of a word between two dates or see the development of a word in the different parts of a text.

For the next example, the text of Bram Stocker’s novel Dracula was imported (the version used is from the University of Adelaide). With the information of the chapters kept in XML elements, you can look for the name of the main characters and see how many times and where they appear. The next screen-shot shows the complete query:

2014-02-13_13h41_35

To understand the next graphic, you have to keep in mind that if the lines ascends, that means the name has been mentioned; if the line keeps going horizontally, it means the name didn’t appear any more.

 

2014-02-08_15h54_49

 

As you can see, the Count Dracula (yellow) is the most mentioned name in the first four chapters, but it almost disappears towards the 17th chapter. In this gap, Lucy (blue) becomes the main character and, from the 9th chapter, the Professor van Helsing (red) takes the “leading” role. It is also remarkable that this last character is not only the most frequent, but the most stable.

Sub-corpora and partitions

You can divide your corpus into two options: sub-corpora and partitions. With a sub-corpus you can choose some texts from a corpus and work with them. With the partition, you can split the corpus into more than one part and easily compare the results of the different parts. On the next screenshot, you have the menu where a Partition called “Fiction and Press partition” is being created, using the XML “text” and the property “type” to choose which kind of text is wanted. This partition will have two parts: one called “Fiction” and the other one called “Press” and each of it will contain the respective type of texts.

2014-02-13_13h26_05

Useful links

“A gentle introduction to TXM key concepts in 90 minutes” by Serge Heiden: http://sourceforge.net/projects/txm/files/documentation/IQLA-GIAT%202013%20TXM-workshop.pdf/download

Tutorial video introducing TXM 0.4.6 (WARNING: the software, specially it’s surface, is now very different): http://textometrie.ens-lyon.fr/IMG/html/intro-discours.htm

TXM background http://fr.slideshare.net/slheiden/txm-background

TXM import process http://fr.slideshare.net/slheiden/txm-import-process

Vocabulary

 

Brown Corpus

The Brown corpus consists of 500 English-language texts, with roughly one million words, compiled from works published in the United States in 1961. You can learn more about it here.

CQL

TXM uses an underlying Contextual Query Language, which is a formal system for representing queries to information retrieval systems such as web indexes, bibliographic catalogues and museum collection information. More information in the official web-page: http://www.loc.gov/standards/sru/cql/

 

POS

Here is a useful alphabetical list of part-of-speech tags used in the Penn Treebank Project (tag and description): https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Quelle: http://dhd-blog.org/?p=3384

Weiterlesen

(CpF) EHRI Workshop: Heritage and Memory. Revising Scopes and Means of Physical and Digital Preservation of Holocaust Documentation

Internationaler Workshop zur Revision der Umfang und Bedeutung der physischen und digitalen Bewahrung der Holocaust Dokumentation.

 

Interesthemen umfassen, sind aber nicht beschränkt auf:

  • Physikalische Erhaltung der Holocaust Dokumentation: Herausforderungen und Entscheidungen
    1. Wert und die Bedeutung der originallen Dokumentation in Holocaust Forschung
    2. Ethik der Erhaltung der ursprünglichen Holocaust Materialien
    3. Dilemmas in der Erhaltung der ursprünglichen Holocaust Materialien
  • Rolle der Informationstechnologien auf die Erhaltung der Holocaust Dokumentation
    1. Auswirkungen der Informationstechnologien auf den Entscheidungsprozess der Erhaltung
    2. Standards der Digitalisierung der ursprünglichen Items
    3. Dateimanagement-und Informationssicherung
    4. Digitale Fotografie und Bildbearbeitung als Dokumentations- und Forschungswerkzeug
    5. Erweiterte Imaging-Technologien und ihre Potenzial für die Erhaltung , Darstellung und Verbreitung der Holocaust Dokumentation
  • Physikalische Erhaltung und digitalen Media, parallel oder komplementär?
  • Case studies: Beispiele von Projekten , die materiell und digitale Erhaltung der Holocaust Documentation einbeziehen.

Mehr Information über die Workshop und Call for Papers (auf Englisch) auf der EHRI Website

Quelle: http://dhd-blog.org/?p=3341

Weiterlesen

TAToM, oder: Text Analysis with Topic Models (Tutorial)

Eine "topic heatmap" für die Tragödien von Jean Racine

Eine “topic heatmap” für die Tragödien von Jean Racine

Die Schulungsmaterialien “TAToM – Text Analysis with Topic Models for the Humanities and Social Sciences“, die von Allen Riddell im Rahmen von DARIAH-DE erstellt wurden, sind soeben erschienen.

Sie bestehen aus einer Serie von Tutorials, die grundlegende Verfahren der quantitativen Textanalyse abdecken. Sie thematisieren die Vorbereitung eines Textkorpus für die Analyse sowie die Exploration von Textsammlungen mit Verfahren wie Topic Modeling und Maschinellem Lernen. Besonderes Augenmerk liegt darauf, dass NutzerInnen weitestgehende Kontrolle über die Vorgänge der Textprozessierung behalten können. Wichtig war bei der Entwicklung der Materialien darüber hinaus, den Aspekt der Visualisierung von Topic Models mit in das Verfahren einzubeziehen.

Die Tutorials behandeln sowohl einige grundlegende als auch fortgeschrittene Themen und bauen in gewisser Weise auf den Materialien zu Python Programming for the Humanities von Folgert Kastorp und Maarten van Gompel auf bzw. setzen diese teilweise voraus. Die Tutorials nutzen in erster Linie die beliebte Skriptsprache Python, um mit den Textdaten umzugehen.

Die Inhalte in der Übersicht:
- Preliminaries & Getting started
- Working with text
- Preprocessing
- Feature selection: finding distinctive words
- Topic modeling with MALLET
- Topic modeling in Python
- Visualizing topic models
- Classification, Machine Learning, and Logistic Regression
- Case Study: Racine’s early and late tragedies

Die Tutorials wurden von Allen Riddell für DARIAH-DE verfasst und im März 2014 in Version 1.0 veröffentlicht. Die Koordination lag bei Christof Schöch am Lehrstuhl für Computerphilologie der Universität Würzburg. Rückmeldung zu den Tutorials ist immer willkommen, ebenso wie Hinweise auf Fehler. Bitte nutzen Sie hierfür den issue tracker auf GitHub. Die Tutorials werden unter der Lizenz Creative Commons Attribution 4.0 International zur Verfügung gestellt.

Quelle: http://dhd-blog.org/?p=3275

Weiterlesen

Erfolg und Emergenz in den Digital Humanities – ein Tagungseindrucksausschnitt

von Fabian Cremer, Max-Planck-Institut zur Erfoschung multireligiöser und multiethnischer Gesellschaften

Es könnte durchaus aufhorchen lassen, mit welcher Selbstverständlichkeit ökonomische Kategorien zur Beschreibung oder Beurteilung wissenschaftlicher Vorhaben herangezogen werden, trotz der weit verbreiteten Kenntnis des Drucks [1], dem die drittmittelgeprägten Digital Humanities als Beutegemeinschaft ausgesetzt sind. Im gleichnamigen Panel der DHd 2014 [2] hängt der expliziten Frage nach dem „Mehrwert“ der Informationstechnologie in geisteswissenschaftlichen Projekten, implizit auch das Legitimationsbedürfnis einer Disziplin an, die neben ihrem Selbstverständnis auch ihre Förderwürdigkeit aus den Innovationsmomenten zieht, die in dieser Verbindung von Geisteswissenschaft und Informatik mitunter stecken. Die Entstehung des Mehrwerts lässt sich aus der Marxschen Theorie des Kapitalismus [3] auf die stärker erkenntnisgewinnorientierte Aspekte der Wissenschaft übertragen: Mit dem den Einsatz von Informationstechnologien im Arbeitsprozess der GeisteswissenschaftlerInnen entsteht ein Produkt, dessen Gegenwert über den der jeweils aufgebrachten Arbeitsleistung hinausgeht, ein wissenschaftliches Surplus. Von diesen emergenten Eigenschaften der wissenschaftlichen und personellen Verbindungen in den Digital Humanities zeugen die drei Erfolgsgeschichten, die in der Mehrwertsession erzählt wurden.

Das Forschungsgebiet kunsthistorisch motivierter Analyse von Musikvideos, in dem sich Thorsten Wübbena kunsthistorisch und Matthias Arnold informationstechnologisch bewegen [4], zeigt idealtypisch, welche Möglichkeiten sich nach dem Fall analoger Barrieren ergeben. Genuin digitale oder im Analogen nur schwer wissenschaftlich rezipierbare Medien wie Musikvideos, ergeben sich der Analyse ihres komplexen und in Bewegung befindlichen Bezugssystems aus Text, Bild und Musik in einer webbasierten Arbeitsumgebung zur Videoannotation [5] nicht nur leichtgängiger sondern auch nachhaltiger. Ohne Medienbrüche direkt im Material arbeiten zu können, erlaubt außerdem nicht nur bessere Analysebedingungen, sondern eröffnet in der wissenschaftlichen Kommunikation den Diskurspartnern auch einen anderen Zugriff auf die eigene Argumentationsgrundlage, die visuelle Materialerschließung in der digitalen Arbeitsumgebung. Der bisher unvermeidliche Umweg über den Text, die Abstraktion über die Verschriftlichung, wird vermieden.

Im Untersuchungsfeld der Wanderungsbewegungen von Musikern im 16. Und 17. Jahrhundert lässt sich anhand der Projektfolge Musici-Musmig [6] eines der Phänomene der Digital Humanities exemplarisch verfolgen, der Fokuswechsel von einer im Umfang beschränkten aber tiefgehenden Erschließung zu einer räumlich und thematisch breiteren Datenbasis mit reduzierterem Detailgrad und generalisierenden Ordnungsstrukturen. Neben der Notwendigkeit, sich dabei mit informationstechnologischen Methoden der Aufbereitung von Daten, ihrer Maschinenlesbarkeit und Modellierung auseinanderzusetzen (und dann davon zu profitieren), erschloss sich die hilfreiche Wirkung der Technologien im gemeinsamen Vortag von Berthold Over und Torsten Roeder ganz unmittelbar in den im Projekt eingesetzten Visualisierungsstrategien mit Karten und Bewegungsmustern, denn die Komplexität der untersuchten Phänomene, die Netzwerke und Dynamik von Personen, Orte, Zeiträume, Ereignissen und Beziehungen, ist in der linearen Struktur von Text und Sprache weit schwerer erfahrbar.

Die lineare Struktur von Text und ihre Formalisierbarkeit machen sich hingegen Christian Riepl und die Sprachwissenschaft zu Nutze. Der transkribierte und morphologisch und morphosyntaktisch ausgezeichnete hebräische Text des Alten Testamentes war in den letzten 30 Jahren kontinuierlich Gegenstand sprachwissenschaftlicher Fragestellungen, unter dem Kontrastmittel heutiger Dreijahresforschung eine Ewigkeit. An der Geschichte der „Biblia Hebraica transcripta“ [7] lassen sich zahlreiche Lehren für die Digital Humanities ziehen, die hier nur pointierter Form erscheinen können: Eine langfristige und dauerhafte Auseinandersetzung ist keine wissenschaftliche und technologische Innovationsbremse. Geisteswissenschaft kann in der Auseinandersetzung mit der Stukturliebe und formalisierten Denkweise der Informatik auch methodisch profitieren. Erhalt und stetige Erweiterung und Anreicherung digitaler Datenbestände sind der Schlüssel für die Pluralität und Kontinuität ihrer Nutzung. Dialogische Prinzipien in der Interaktion von Mensch und Maschine sorgen dafür, dass die Geisteswissenschaft weder in die Sklaverei formalisierter Regelwerke der Technik getrieben wird, noch in den Grenzen menschlicher Erfassungsvermögens gefangen bleibt.

Neben dem im Call der Konferenz geforderten „analytischen Mehrwert“ boten die drei Projektvorstellungen inspirierende Auseinandersetzungen mit Problemen, die sie ohne die beteiligten Computer sicher nicht gehabt hätten.

 

[1] http://www.dfg.de/foerderung/grundlagen_rahmenbedingungen/drittmitteldruck/

[2] DHd 2014. Digital Humanities – methodischer Brückenschlag oder “feindliche Übernahme”? Chancen und Risiken der Begegnung zwischen Geisteswissenschaften und Informatik, 1. Jahrestagung der Digital Humanities im deutschsprachigen Raum, 25.-28. März 2014, Universität Passau, http://www.dhd2014.uni-passau.de/

[3] Karl Marx: Das Kapital. Buch I: Der Produktionsprocess des Kapitals. Hamburg, 1867, S. 112, http://www.deutschestextarchiv.de/marx_kapital01_1867/131

[4] Portable Musicvideos: http://www.portablemvs.net; Thorsten Wübbena: http://d-nb.info/gnd/123312396, http://www.kunst.uni-frankfurt.de/de/mitarbeiter/seiten/thorsten-wuebbena/zur-person/; Matthias Arnold: http://www.asia-europe.uni-heidelberg.de/en/people/person/persdetail/arnold.html

[5] http://pan.do/ra

[6] Europäische Musiker in Venedig, Rom und Neapel (1650-1750): Musik, Identität der Nationen und kultureller Austausch: http://www.musici.eu; Music migrations in the early modern age: the meeting of the European East, West and South: http://musmig.hypotheses.org/; Berthold Over: http://d-nb.info/gnd/135197848, http://www.musikwissenschaft.uni-mainz.de/musikwissenschaft/personen/over.htm; Torsten Roeder: http://www.bbaw.de/die-akademie/mitarbeiter/roeder

[7] Biblia Hebraica transcripta – Forschungsdatenbank 3.0: http://www.bht.gwi.uni-muenchen.de/; Christian Riepl: http://d-nb.info/gnd/135197848, http://www.itg.uni-muenchen.de/personen/riepl_christian/index.html

Quelle: http://dhd-blog.org/?p=3268

Weiterlesen

Coding Da Vinci – Hackathon mit offenen Kulturdaten

In Berlin findet zum ersten Mal ein Hackathon mit http://daten.berlin.de/sites/default/files/styles/landscape/public/field/image/coding_davinci.png?itok=5AFtRl9Boffenen Daten aus verschiedenen Kultureinrichtungen statt. Der erste Kultur-Hackathon wird gemeinsam ausgerichtet von der Deutschen Digitalen Bibliothek, der Servicestelle Digitalisierung Berlin, der Open Knowledge Foundation Deutschland und Wikimedia Deutschland.

Die Daten kommen u.a. von folgenden Institutionen, die Datensätze werden ab 1. April 2014 unter http://codingdavinci.de/daten/ veröffentlicht:

  • Deutsche Digitale Bibliothek
  • Zentral- und Landesbibliothek Berlin
    • Adressbucheinträge des Jüdischen Adressbuchs von Groß-Berlin von 1931
    • Berliner Adressbuchdaten (1799-1943)
    • Daten des NS-Raubgut-Projekts
  • Ethnologisches Museum Berlin
    • Tagore-Sammlungsobjekte als CT-Daten, 3D-Modelle (Musikinstrumente Südasiens)
    • Bestimmung von Musikinstrumenten (Metadaten, Audio-, Videofiles)
  • Max-Plack-Institut für Wissenschaftsgeschichte
    • bibliografische Metadaten zur Rara-Sammlung (historischer Buchquellen vom 16.-19. Jhd.)
    • Metadaten zu Filmen aus der MPWG-Mediathek
  • Stadtmuseum Berlin
    • Stadtansichten mit Grafiken und Gemälde von Berlin im 18. und 19.Jhd.
    • Heinrich Zille zeichnet die Berliner Bevölkerung und die sozialen Verhältnisse in typischer “Berliner Schnauze” (Grafische Sammlung)
    • Nachlass des Berliner Fotografen Harry Croner, darunter Fotos der Berliner Filmfestspiele, Theaterfotografien, 1945 – 1988
  • Berlinische Galerie
    • Aufnahmen aus dem Ostberliner Fotoarchiv 1960-1970
  • Museum für Naturkunde Berlin
    • Analyse von Gigapixel-Scans von Insektenkästen
  • Ihre Daten?

Termine:

  • 26./27. April 2014
  • 5./6. Juli 2014 (mit Preisverleihung)
  • dazwischen 10 Wochen eigenständiger Sprint

Ort: Wikimedia Deutschland e.V. | Tempelhofer Ufer 23-24 | 10963 Berlin

Teilnehmen:

  • Kulturinstitutionen können Ihre Daten zur Verfügung stellen, sofern die Datensätze unter einer offenen Lizenz zur Verfügung stehen. Kontakt: Helene Hahn (OKF)
  • Kultur- und Technikinteressierte, auch und besonders die, die nicht coden können aber interessante Ideen haben, sind eingeladen, am Hackathon teilzunehmen.
  • Reisestipendien werden einige wenige vergeben, mehr Informationen unter http://codingdavinci.de/info/

Weitere Informationen:

 

Quelle: http://dhd-blog.org/?p=3214

Weiterlesen

Neuerscheinung: Literaturwissenschaft im digitalen Medienwandel

Im September 2012 fand in Leipzig im Rahmen des 8. Kongresses des Frankoromanistenverbands eine Sektion zum Thema  “Revoluton der Medien, Evolution der Literaturwissenschaft?” statt, die von Christof Schöch (Lehrstuhl für Computerphilologie, Univ. Würzburg) und Lars Schneider (Institut für Romanistik, LMU München) geleitet wurde.

Edition "Moralische Wochenschriften": Analyseansicht mit hervorgehobenen Personen, Orten und Werken.
Edition “Moralische Wochenschriften”: Analyseansicht mit hervorgehobenen Personen, Orten und Werken. (Aus dem Beitrag von Martina Semlak)

Die Beiträge dieser Sektion sind nun als Beiheft 7 zu Philologie im Netz (PhiN) unter dem Titel Literaturwissenschaft im digitalen Medienwandel erschienen. Der Sammelband fragt nach konkreten Impulsen, die der gegenwärtige Medienwandel den Literaturwissenschaften verleiht. Sein Vorgehen ist vor allem pragmatischer Natur: Die Beiträge widmen sich der Erschließung von Forschungsgegenständen bei der digitalen Textedition, ihrer Analyse mit Hilfe quantitativer Verfahren der Textanalyse, bei der sowohl technische als auch menschliche Syntheseleistungen entscheidend sind, sowie der Dissemination von Forschungsergebnissen und neuen Formen des Zusammenarbeitens.

Die Beiträge erscheinen im Open Access (CC-BY) und sind teils auf Deutsch, teils auf Französisch verfasst.

Inhaltsverzeichnis

  • Lars Schneider & Christof Schöch: Literaturwissenschaft im digitalen Medienwandel: Einleitung
  • Klaus-Dieter Ertler: Die Gattung der frankophonen “Spectators” im Spiegel der zeitgenössischen Medienrevolution
  • Martina Semlak: Digitale Edition als Instrument für literaturwissenschaftliche Forschung
  • Anne Baillot: Les corpus français sont-ils allemands? Éditer des textes de la Prusse frédéricienne en Allemagne
  • Delphine Dufour: L’enjeu numérique dans l’édition de la correspondance de Marceline Desbordes-Valmore
  • Isabel Rio Novo & Célia Vieira: e-Poeticae – Textes de théorisation littéraire en ligne
  • Glenn Roe: L’étude littéraire à l’ère du numérique : du texte à l’intertexte dans les “digital humanities”
  • Anne-Sophie Bories: Taratantara : la mémoire et l’oubli du décasyllabe dans la poésie de Raymond Queneau
  • Christof Schöch: Corneille, Molière et les autres. Stilometrische Analysen zu Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik
  • Lilian Landes: Flexibel, fluide, filternd. Weshalb die Geisteswissenschaften stärker von der Netzkultur profitieren sollten
  • Annette Keilhauer: Perspectives des études genre à l’ère de la numérisation
  • Thomas Stöber: Der “digitale Schreibtisch”: Innovationsmanagement und Vernetzung für das wissenschaftliche Arbeiten
  • Jörg Dünne: Das Jules Verne-Projekt – Alternative Heuristiken literaturwissenschaftlicher Forschung

Quelle: http://dhd-blog.org/?p=3196

Weiterlesen

TaDiRAH – Taxonomy of Digital Research Activities in the Humanities

von Luise Borek, Technische Universität Darmstadt

Die Taxonomy of Digital Research Activities in the Humanities (TaDiRAH) ist ein gemeinsames Projekt von DARIAH-DE und DiRT, das eine praxisorientierte Taxonomie für Ziele und Methoden digitaler geisteswissenschaftlicher Forschungsziele und –methoden zum Ziel hat. Sie richtet sich an digital arbeitende Forscherinnen und Forscher, deren Untersuchungsgegenstände einen strukturierten Zugang erfordern. Gleichzeitig möchte sie damit einen Beitrag für eine weite Sichtbarkeit und Vernetzung von DH-Projekten im Speziellen – und der Digital Humanities im Allgemeinen leisten.

Nach einem einjährigen Entstehungsprozess, während dem die Taxonomie von dem großen Interesse und konstruktivem Feedback der DH-Community profitieren konnte, steht TaDiRAH nun als Version 0.5 auf GitHub zur Verfügung. Es handelt sich dabei keineswegs um eine abgeschlossene Taxonomie – die Versionierung 0.5 und die als offen angelegten Listen der Objekte und Techniken bezeugen dies – vielmehr ist nun eine Phase erreicht, in der ihr praktischer Nutzen in den heterogenen Anwendungsbereichen der Community erprobt und weiter verbessert werden soll.

Aktuell wird TaDiRAH in verschiedenen Kontexten implementiert, darunter die Zotero-Bibliografie Doing Digital Humanities von DARIAH-DE, das Tool-Verzeichnis der Digital Research Tools (DiRT) sowie die Projektstruktur von DHCommons.

Eine Version in maschinenlesbaren Formaten wird folgen.

Quelle: http://dhd-blog.org/?p=3073

Weiterlesen

Evolution der Informationsinfrastruktur – Kooperation zwischen Bibliothek und Wissenschaft

Festschrift FEZum zehnjährigen Bestehen der Abteilung Forschung und Entwicklung (F&E) der Niedersächsischen Staats- und Universitätsbibliothek Göttingen ist ein Sammelband mit dem Titel “Evolution der Informationsinfrastruktur – Kooperation zwischen Bibliothek und Wissenschaft” erschienen. Das Werk resümiert entlang ausgewählter Meilensteine die Arbeit im vergangenen Jahrzehnt. Dabei begibt es sich auf die Spuren des Wandels im Leitbild wissenschaftlicher Bibliotheken. Der Sammelband wird herausgegeben von Dr. Heike Neuroth, Prof. Dr. Norbert Lossau und Prof. Dr. Andrea Rapp.

Gemeinsam mit Partnern aus der Wissenschaft wurden zahlreiche, wegweisende Projekte auf dem Gebiet der digitalen Forschung vorangebracht. Dieser Pionierarbeit in der deutschen Bibliothekslandschaft wird in 19 Aufsätzen von über 30 Autorinnen und Autoren nachgegangen.

Das Buch ist beim vwh-Verlag in Kooperation mit dem Universitätsverlag Göttingen erschienen. Sie können die digitale Open Access-Fassung für nicht-kommerzielle Zwecke hier herunterladen: http://dx.doi.org/10.3249/webdoc-39006.

Eine gedruckte Fassung des Buches kann beim vwh-Verlag für 24,90€ bestellt werden.

Eine Dokumentationsseite zur Tagung anlässlich des zehnjährigen Bestehens der Abteilung F&E ist unter diesem Link verfügbar.

ISBN:  978-3-86488-043-8                            DOI-URL: http://dx.doi.org/10.3249/webdoc-39006

Quelle: http://dhd-blog.org/?p=3012

Weiterlesen

DARIAH-DE Workshop “Introduction to the TXM Content Analysis Platform”

The Department for Literary Computing, Würzburg University, will organize a DARIAH-DE Workshop called “Introduction to the TXM Content Analysis Platform”.

Workshop outline

The objective of the “Introduction to TXM” tutorial is to introduce the participants to the methodology of text analysis through working with the TXM software directly on their own laptop computers. At the end of the tutorial, the participants will be able to input their own textual corpora (Unicode encoded raw texts or XML/TEI tagged texts) into TXM and to analyze them with the panel of content analysis tools available: word patterns frequency lists, kwic concordances and text browsing, rich full text search engine syntax (allowing to express various sequences of word forms, part of speech and lemma combinations constrained by XML structures), statistically specific sub-corpus vocabulary analysis, statistical collocation analysis, etc.). The portal version of TXM, allowing the on line access and analysis of corpora, will also be introduced.

Basic information

  • Time: February 6-7, 2014
  • Place: Würzburg University (details tba)
  • Workshop leader: Serge Heiden (Lyon)
  • Local organizer: Christof Schöch (Würzburg)

For further information:

Practical matters

The workshop is aimed at younger as well as experienced scholars from the humanities dealing with textual data. It is being organized by the Department for Literary Computing at Würzburg University, Germany, under the auspices of the DARIAH-DE initiative. It will be held by Serge Heiden, leader of the TXM project. It will take place on Feb. 6-7, 2014 at Würzburg University.

The maximum number of participants is limited to 15 and places will be filled on a first-come first-serve basis. The deadline for applications is January 20th, 2014. There is no fee for participating in this event. You will need to bring along your own laptop computer. Access to the internet will be available. Please contact Dr. Christof Schöch for further details and to sign up for the event at christof.schoech@uni-wuerzburg.de.

Preliminary programme

Thursday, February 6

  • 13:30-14:00 – Welcome
  • 14:00-15:30 – Introduction to TXM
  • 15:30-16:00 – Coffee break
  • 16:00-17:30 – Hands-on Session 1
  • 18:00-19:15 – Lecture by invited speaker (tba)
  • 20:00- – Dinner

Friday, Feb 7

  • 9:00-11:00 – Hands-on Session 2
  • 11:00-11:30 – Coffee break
  • 11:30-13:00 – Hands-on Session 3
  • 13:00-13:30 – Final discussion and farewell

Note: This event is being organized by DARIAH-DE with funding provided by the German Federal Ministry of Education and Research (BMBF) under the identifier 01UG1110J.

Quelle: http://dhd-blog.org/?p=2782

Weiterlesen