Explore, play, analyse your corpus with TXM

A short introduction of TXM by José Calvo and Silvia Gutiérrez

 

On Feburary 6-7, 2014, the Department for Literary Computing, Würzburg University, organized a DARIAH-DE Workshop called “Introduction to the TXM Content Analysis Platform“. The workshop leader was Serge Heiden (ENS-Lyon) who is in charge of the conceptualizing and implementing TXM at the ICAR Laboratory in France.

The workshop included a brief explanation of TXM’s background, but it concentrated on a very practical approach. We learned about the “Corpora options” (that is what you can know about your corpus: POS descriptions, text navigation), but also what you can do with it: find Key Words In Context (KWIC), retrieve Parts of Speech, and moreover how you can analyse these results querying for the Most Frequent Words or the cooccurrences.

In the evening of day one, we got an overview of the state of art of the use of “Natural Language Processing for Historical Texts” in a keynote by Michael Piotrowski (IEG Mainz). First of all, he started by defining Historical Texts as all those texts that will bring major problems to NLP. In order to clarify these definitions, Dr. Piotrowski listed some of the greatest difficulties:

  • Medium and integrity: we have to remember that in order to analyse an old script that was written in clay tablets or marble, it is compulsory to first find a way to transfer this information into a digital format (not an easy task); plus: some texts are defective or unclear, and transcriptions may introduce new errors
  • Language, writing system and spelling: many of the historical texts were written in extinct languages or variants different from today’s variants; as for the writing system, the many abbreviation forms and the variety of typefaces are more or less problematic; finally, we should not forget the little problem of non-standardized spelling!
  • State of art: Historical languages are less-resourced-languages, there are few texts available, and NLP for historical languages is carried out in specific projects; that is, there are no common standards and everyone has to start from zero.

Not to discourage his public, he then offered an overview of what can be done: Part-of-speech tagging. Creating a tagger for a historical language can be done with the the following methods:

  1. From scratch: manually annotating your text
  2. Using a modern tagger and manually correcting all errors
  3. Modernizing spelling
  4. Bootstraping POS tagger (with many versions of the same text, like the Bible)

Now let’s get back to the TXM workshop. In this post, you will find a brief practical introduction to this tool. We will provide you with a rough idea of what is this software about and what you can do with it. If you would like to learn more, do check the links we have shared towards the end of this post. By the way, all words marked with a little * are explained at the end, in the “Vocabulary” section.

What is TXM?

This software is at the juncture of linguistics and scholarly editing and it’s made to help scholars analyse the content of any kind of digital text (Unicode encoded raw texts or XML/TEI tagged texts).

To get to know more about the TXM background, don’t miss Serge Heiden’s Workshop slides:

Where can I work with it?

You may work on the desktop (download page) or online version of the tool. Both platforms have advantages and disadvantages. The online version allows you to start the work without downloading or installing anything, and share your corpora with other colleagues. With the desktop version, you can easily lemmatize and analyse the Parts of Speech (POS*) of your own texts.

So that you can get a better idea of the way it works, we’ll guide you with some practical examples. Say you want to search for the lemma politics on the “Brown Corpus*. First you have to open the Index option:

2014-02-15_19h28_12

Then you use the query box to type in the query, using the following structure from the CQL* query language: [enlemma=“politics”]. In the desktop version, the results will look as follows (the web version is very similar):

2014-02-12_11h02_39

What can I do with TXM?

Explore your corpus

Corpora options

On the first column of both interfaces there’s a list of the corpora you can work with (in this case DISCOURS, GRAAL, BROWN). When you click with the right button of your mouse on one of your corpora, you will see a list of icons:

png;base6465a19490765df979These are the main tools of TXM and you will use one of these to analyse your corpus in different ways.

Corpus description (Dimensions)

Before you start with the fun, you should click the “Dimensions” option and have a look at some general information about the corpus (number of words, properties, and structural units, as well as the lexical and structural units properties). This information is richer in the desktop version:

2014-02-12_11h12_23

Text navigation

A very practical TXM feature is the text display. If you wish to open a list of the corpus’ elements, you just have to click on the book icon (called “Texts” in the online version and “Open edition” in the other). A list like the following will be shown:

2014-02-12_11h17_48

Moreover, if you click on the book icon in the “edition” column, TXM will open a readable version of our text:

2014-02-12_11h18_47

Play with your corpus

Key Words In Context (KWIC)

A very typical visualization of a corpus is the so called KWIC view, which you have already seen displayed in the politics lemma example.

With TXM you can sort the results using different criteria organizing them according to the right or left context of your word, the word form, etc; besides, you can choose which elements you want to visualize. Say you’re searching for collocations of present as an adjective and NOT the data related to the noun nor the verb form (to present). First of all you need to go to the INDEX.

Once you open this, you can set the options in the “Keyword” column and visualize the grammatical category along with the word form. Then you type “JJ_present”, where “JJ” means “adjective” and “present” is the verb form, so that only those instances of the graphical form present are selected which are adjectives. It is also possible to order this data by different criteria.

As you can see in the next screenshot, you are looking for the lemma present. Therefore, you should set the first “Sort keys” menu to “Left context”, and the second one to “Keyword”; what you’re saying to the software is that you want all the examples sorted by the Left context as a first criteria and the Keyword as a second. In the “Keyword” > “View” menu we have set “enpos, word”. With that we are ordering TXM to show us not just the word form, but also the POS. That is why we see the keywords as “VVN_present” (that means, present as a verb) or JJ_present (present as an adjective):

png;base64f22bacff5fc65745

Parts of Speech

Another way to display specific words according to their POS can be run by using the Index tool (A|Z icon), from a lexicologist point of view one the most interesting options of TXM. If you search again for the lemma present and in the properties box, you chose to see not only the word form but the POS as well, TXM will tell you the frequency, word form and POS of each different word form found in the corpus:

2014-02-12_11h53_26

If you only want the word forms of the verb to present, you can add the POS information to the query: [enlemma=“present” & enpos=“VV.*”]

These index can able to create lists of n-grams. Let’s search for the most frequent words that appear after the lemma present:

2014-02-12_11h57_37

Quantative analysis

Most Frequent Words

To query something you have to have a specific question and know some basic information, for instance: in which language is the corpus? A way to have a general idea about the texts is the Lexicon option, the icon with AZ both on white background. When you click on it, you will see a list of the most frequent word forms:

2014-02-13_11h58_08

 

You can change the settings of the query and ask to count not the word forms but the lemmas. In that case the verb to be climbs up some positions, now that is, are, were, been etc. count as one single unity:

png;base64c5510467d9a7ff1f

 

Coocurrences

Another quantitative analysis concerns the coocurrences, that is, the words (or other unities) that frequently appear close to a specific word (or to other unities). Unlike n-grams, coocurrences do not have to appear exactly after or before the unity, they just have to be somewhere close to it.

The Brown corpus was compiled in the 1960s in the United States, the main years of the Cold War. So let’s see the vocabulary related to the words United States and which one to Soviet Union:

2014-02-13_12h13_56

Progression

Another statistical option that exists on the Desktop version is the Progression (icon with an arrow). This option helps visualize how many times a unity appears in a corpus or a text. This might be interesting to see the progress of a word between two dates or see the development of a word in the different parts of a text.

For the next example, the text of Bram Stocker’s novel Dracula was imported (the version used is from the University of Adelaide). With the information of the chapters kept in XML elements, you can look for the name of the main characters and see how many times and where they appear. The next screen-shot shows the complete query:

2014-02-13_13h41_35

To understand the next graphic, you have to keep in mind that if the lines ascends, that means the name has been mentioned; if the line keeps going horizontally, it means the name didn’t appear any more.

 

2014-02-08_15h54_49

 

As you can see, the Count Dracula (yellow) is the most mentioned name in the first four chapters, but it almost disappears towards the 17th chapter. In this gap, Lucy (blue) becomes the main character and, from the 9th chapter, the Professor van Helsing (red) takes the “leading” role. It is also remarkable that this last character is not only the most frequent, but the most stable.

Sub-corpora and partitions

You can divide your corpus into two options: sub-corpora and partitions. With a sub-corpus you can choose some texts from a corpus and work with them. With the partition, you can split the corpus into more than one part and easily compare the results of the different parts. On the next screenshot, you have the menu where a Partition called “Fiction and Press partition” is being created, using the XML “text” and the property “type” to choose which kind of text is wanted. This partition will have two parts: one called “Fiction” and the other one called “Press” and each of it will contain the respective type of texts.

2014-02-13_13h26_05

Useful links

“A gentle introduction to TXM key concepts in 90 minutes” by Serge Heiden: http://sourceforge.net/projects/txm/files/documentation/IQLA-GIAT%202013%20TXM-workshop.pdf/download

Tutorial video introducing TXM 0.4.6 (WARNING: the software, specially it’s surface, is now very different): http://textometrie.ens-lyon.fr/IMG/html/intro-discours.htm

TXM background http://fr.slideshare.net/slheiden/txm-background

TXM import process http://fr.slideshare.net/slheiden/txm-import-process

Vocabulary

 

Brown Corpus

The Brown corpus consists of 500 English-language texts, with roughly one million words, compiled from works published in the United States in 1961. You can learn more about it here.

CQL

TXM uses an underlying Contextual Query Language, which is a formal system for representing queries to information retrieval systems such as web indexes, bibliographic catalogues and museum collection information. More information in the official web-page: http://www.loc.gov/standards/sru/cql/

 

POS

Here is a useful alphabetical list of part-of-speech tags used in the Penn Treebank Project (tag and description): https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Quelle: http://dhd-blog.org/?p=3384

Weiterlesen

Nachlese DHd 2014: Technische Infrastruktur

Im Fokus von Session 4: Technische Infrastruktur standen Themen wie Basisdienste, Hosting Services und operative IT-Dienste und damit Aspekte des technischen Fundaments von DARIAH-DE, die durch eine enge Zusammenarbeit zwischen den beteiligten Geisteswissenschaften und Rechenzentren erarbeitet werden. Geleitet wurde die Session von Tibor Kálmán (GWDG) und Peter Gietz (DAASI), die auf der Basis praktischer Anwendungsfälle nicht nur einen Überblick über die Komponenten und Funktionsweise der Basisinfrastruktur boten, sondern insbesondere auch auf integrative Aspekte eingingen, um Fragestellungen der Einbindung weiterer Dienste sowie der Nutzbarkeit und Nachhaltigkeit angebotener Services zu beleuchten.

Unterstützt wurden sie dabei durch Thomas Kollatz und Harald Lordick (beide STI), welche anhand von praktischen Anwendungsfällen verdeutlichten, dass die in DARIAH-DE entwickelte, technische Infrastruktur bei der Bearbeitung von Forschungsprojekten einen Nutzen auf unterschiedlichen Ebenen bietet: So finden im Rahmen der von Thomas Kollatz vorgestellten Projekte epidat [1] und RiR [2] eine Vielzahl von Services der technischen Infrastruktur ihre Anwendung. Das Spektrum der unterstützen Aufgaben reicht dabei von den eher koordinativen und organisatorischen Aufgaben des Projektmanagements, die mit Hilfe von Basisdiensten wie Wiki, Jira und Etherpad erleichtert werden, hin zu dem Hosting virtueller Maschinen, der Anbindung der DARIAH-DE AAI sowie dem Einsatz des DARIAH-DE Geobrowsers [3] zur Analyse und Visualisierung z. B. epigraphischer Daten. Harald Lordick präsentierte mit seiner mobilen Web-App “Orte jüdischer Geschichte” [4] einen weiteren, aus geisteswissenschaftlichem Antrieb entstandenen Dienst, der auf Basis einer Positionserkennung Orte jüdischer Geschichte in der Umgebung des Benutzers findet und anzeigt. Ein erkennbares Ziel der App besteht dabei in der Generierung überraschender Ergebnisse durch die Bereitstellung einer neuartigen, auf der geographischen Position eines Benutzers basierenden Perspektive auf Dokumente. Auch bei der Umsetzung der App kann auf Dienste, wie Geoservice und Geobrowser, insbesondere aber auch auf Knowhow der technischen Umsetzung z. B. zu Lizenzen oder Aspekten der Datenaufberetung zurückgegriffen werden.

Wie es auch aus der DARIAH-DE Übersichtsgrafik [5] hervorgeht, bietet die technische Infrastruktur in ihrem Kern Software-, Platform- und Infrastruktur-Hosting sowie operative Dienste als technische Basis für darauf aufbauende Projekte. Darüber hinaus tritt die technische Infrastruktur insbesondere auch als Vermittler zwischen den Interessen der Fachwissenschaften und der Rechenzentren auf. Ein konkretes Beispiel für diese vermittelnde Rolle spiegelt sich bei der Einbindung neuer Dienste wider, wobei nicht nur das im Rahmen des DARIAH-DE Service Lifecycle [6] gebündelte und dokumentierte Knowhow zur Verfügung steht. Projekte werden in Zukunft zudem durch je einen technischen und einen fachwissenschaftlichen Mentor begleitet, um bei der Entwicklung und Einbindung von Diensten zu unterstützen und so z. B. auch Fragen der technischen Anbindung der REST-basierten DARIAH-DE Storage Schnittstelle [7] oder der DARIAH-DE AAI in direkter Kommunikation schnell zu lösen.

Besonders zu betonen ist auch, dass sich DARIAH-DE im Rahmen der technischen Infrastruktur nicht als Insel, sondern als Teil eines Netzes einer Vielzahl weiterer Infrastrukturen sieht und einen besonderen Fokus auf die Erkennung und Nutzung von Synergien legt. Eine besondere Rolle spielt dabei das Thema der Nachhaltigkeit, welches im Rahmen der im März gestarteten Folgephase von DARIAH-DE in Form eines dedizierten Clusters behandelt wird. Zentrale Aspekte dieses Clusters bestehen in der Erarbeitung von Konzepten und Strategien zur langfristigen Bereitstellung virtueller Maschinen und Dienste, aber auch der Beratung geisteswissenschaftlicher Forschungsprojekte. Mit der DARIAH eHumanities Infrastructure Service Unit (DeISU) soll hierzu bis 2016 eine zentrale Anlaufstelle für Geisteswissenschaftler geschaffen werden, die auch nach der Förderphase von DARIAH-DE zwischen fachwissenschaftlichen Anforderungen und technischen Diensten vermittelt.

Referenzen

[1] epidat – epigraphische Datenbank | digitales Textarchiv: http://www.steinheim-institut.de:50580/cgi-bin/epidat
[2] Relationen im Raum. Visualisierung topographischer Kleins(st)rukturen: http://www.steinheim-institut.de/wiki/index.php/RiR
[3] DARIAH-DE Geo-Browser: http://geobrowser.de.dariah.eu/
[4] Orte jüdischer Geschichte: http://app-juedische-orte.de.dariah.eu/
[5] DARIAH-DE Übersichtsgrafik: http://de.dariah.eu/dariah-visualisiert
[6] DARIAH-DE Service Lifecycle: https://dev2.dariah.eu/wiki/display/DARIAHDE/DARIAH+Service+Life+Cycle
[7] DARIAH-DE Storage API: https://dev2.dariah.eu/wiki/download/attachments/10618851/DARIAH-Storage-API-v1.0_final.pdf

Quelle: http://dhd-blog.org/?p=3357

Weiterlesen

DARIAH-DE – Portal-Relaunch

Unter de.dariah.eu steht ab sofort das überarbeitete DARIAH-DE-Portal bereit. Es bietet Zugang zum Angebot von DARIAH-DE in den Bereichen Forschung, Lehre, Forschungsdaten, Tools sowie fachwissenschaftliche und technische Dienste und fungiert als zentraler Kommunikationsort für DARIAH-DE.

Neu sind unter anderem die überarbeitete Navigation, die DARIAH-DE Working Papers als zentrales Publikationsorgan für Beiträge im Projekt-Kontext oder zum Thema Digital Humanities, sowie eine große Sammlung an Schulungsmaterialien. Hierzu zählen das Tutorial Digitale Textedition mit TEI und die Schulungsmaterialien  TAToM – Text Analysis with Topic Models for the Humanities and Social Sciences“, die grundlegende Verfahren der quantitativen Textanalyse zeigen.

DARIAH-Portal-Relaunch

Die Inhalte des Portals werden natürlich weiterhin ständig um die im Projekt erarbeiteten Ergebnisse erweitert und ergänzt. Durch die technische Realisierung als Liferay-Portal besteht außerdem die Möglichkeit, nach und nach auch weitere neue Anwendungen oder Inhalte der DH-Community  über Liferay-Portlets bzw. selbst entwickelte Portlets in das Portal zu integrieren.

Viel Spaß beim Stöbern und Entdecken!

Quelle: http://dhd-blog.org/?p=3323

Weiterlesen

DHd-Kanal auf youTube geht auf Sendung

Die Projekte DARIAH-DE und TextGrid betreiben seit heute auf YouTube einen eigenen DHd-Kanal (https://www.youtube.com/user/dhdkanal) mit Video-Clips zu DH-Themen. Rund vier Stunden Filmmaterial stehen bereits bereit, darunter zwei neue Explainity-Clips, die die Themen “Datensicherheit” und “Kollaborativ arbeiten” einfach und verständlich präsentieren.

DHd-ChannelGeplant sind weitere Videos, beispielsweise die TextGrid-Tutorials zum Arbeiten im TextGridLab und DARIAH-DE-Schulungsmaterialien.

Quelle: http://dhd-blog.org/?p=3301

Weiterlesen

Nachlese DHd 2014: Wissenschaftliche Sammlungen

Session 3 der DARIAH-DE Pre-Conference in Passau fand am Mittwoch dem 26. März statt und behandelte das Thema Wissenschaftliche Sammlungen. Dr. Thomas Stäcker, Stellvertretender Direktor der Herzog August Bibliothek Wolfenbüttel, erläuterte definitorische sowie technische Voraussetzungen wissenschaftlicher Sammlungen und berichtete von aktuellen Perspektiven und Herausforderungen im Umgang mit Forschungsdaten.

Einleitend wurden als grundlegende Aufgabenbereiche der Aufbau von wissenschaftlichen Sammlungen, wie auch die Nutzung und Integration bereits existierender Sammlungen genannt (als dritter Aufgabenbereich ist hier auch die Lizenzierung von Inhalten anzuführen, die jedoch eine dementsprechend eigene Materie darstellt). Demnach gehört es zum Aufbau wissenschaftlicher Sammlungen, technische Interoperabilität und Schnittstellen zu gewährleisten, Daten- und Metadatenstandards umzusetzen, sowie kontrollierte Vokabulare und Normdaten bereitzustellen. Darüber hinaus bietet es sich an, die im Rahmen von DARIAH-DE entwickelte Collection Registry mit Informationen über derart aufbereitete wissenschaftliche Sammlungen zu füllen und damit einer föderierten Suche zugänglich zu machen.

Für alle diese Vorgänge werden jedoch auch Kriterien benötigt, anhand derer wissenschaftliche Sammlungen begutachtet werden können. Eine Frage nach solchen Kriterien mündet schließlich auch in die Frage nach einer grundsätzlichen Definition des Sammlungsbegriffs. Als Diskussionsgrundlage präsentiert Stäcker eine Definition der Deutschen Forschungsgemeinschaft, die eine wissenschaftliche Sammlung als “Gesamtheit von Objekten, die einen kulturellen und/oder wissenschaftlichen Wert aufweist und nach bestimmten thematischen Schwerpunkten zusammengestellt ist”, beschreibt [1]. Hier wird bereits klar, dass Ordnungsprinzipien als konstitutive Merkmale wissenschaftlicher Sammlungen zu sehen sind, kurz gesagt, dass eine Ansammlung noch keine Sammlung darstellt. Es wird aber auch darauf hingewiesen, dass dabei eine phänomenologische und epistemologische Ebene zum Tragen kommt, die dafür verantwortlich ist, wann eine Sammlung denn als solche zu erkennen ist – ein umfassender Zugang, der hier jedoch als Arbeitshypothese im Raum stehen bleiben muss.

Eine weitere definitorische Herausforderung bietet der Begriff der Forschungsdaten, der eine grundlegende Voraussetzung für groß angelegte digitale Forschungsumgebungen darstellt. Für den Begriff der Forschungsdaten kann von zwei Polen, nämlich einem daten- und dokumentzentrierten Zugang ausgegangen werden, wobei ersterer die Daten in einer quantitativen, diskreten Form (z.B. Datenbanken, Listen) und zweiterer eine qualitative, kontinuierliche Form (z.B. Annotationen, Notizen) beschreibt. Stäcker ortet hier ein fehlendes Selbstverständnis bei Geisteswissenschaftlern, die eigene Arbeitsergebnisse nicht als “Daten” einschätzen und schließt mit der allgemeinen Frage an, ob und wann denn Quellen und Dokumente als Daten zu betrachten sind.

Ausgehend von dieser Fragestellung wurde im Anschluss an den Vortrag festgestellt, dass eine Form von Prozessierbarkeit für den Status als Datum ausschlaggebend ist. Wie genau diese Prozessierbarkeit jedoch gestaltet sein soll, darüber müsste weiter diskutiert werden – so stand beispielsweise die Frage im Raum, wie große Bestände von Bilddigitalisaten im Hinblick auf ihre zukünftig zu erwartende maschinelle Verarbeitung einzuschätzen sind. In einem breiteren Kontext stellt sich dabei nicht nur die Frage nach der Verarbeitung mit Hilfe technischer Werkzeuge, sondern auch nach den Zugangsmöglichkeiten zu solchen Beständen und Workflows, die immer noch weitgehend im Rahmen restriktiver Verwertungsrechte aushandelt werden. Hier lautet der Befund: Bestände, deren enduser nicht ohne Weiteres zum endmaker werden können, sind nicht als datenfähig anzusehen.

Schließlich wurden Ergebnisse des SUDAMIH Reports (Supporting Data Management Infrastructure for the Humanities) [2] vorgestellt und damit wesentliche Punkte im Umgang mit geisteswissenschaftlichen Forschungsdaten identifiziert – wie zum Beispiel die Feststellung, dass solche Datenbestände im Gegensatz zu ihren naturwissenschaftlichen Pendants eine längere Halbwertszeit aufweisen, ja oft sogar einen body of research darstellen, der das ganze Leben eines Forschers umfasst und auf den langfristig Bezug genommen werden soll. Neben solchen (teilweise stark) unterschiedlichen Organisationsprinzipien, ist auch zum Ausdruck gekommen, dass es in den Geisteswissenschaften eine gewisse Zurückhaltung gibt, Zwischenergebnisse oder Daten, die durch ihre beiliegende Interpretation erst vollständig erscheinen, der Öffentlichkeit zu präsentieren. Hier sind gegebenenfalls Möglichkeiten der anonymen Veröffentlichung anzudenken – ein weiterer Punkt, der noch zu diskutieren wäre.

Abschließend und aufbauend auf den vorangegangenen Fragestellungen gelangt Stäcker schließlich zu den folgenden Perspektiven im Aufbau wissenschaftlicher Sammlungen: Es gilt, nicht nur neue Forschungsdaten und Arbeitsumgebungen zu erstellen, sondern auch eine niederschwellige Verzeichnung von Daten und Sammlungen und eine sichere Aufbewahrung in Langzeit-Repositories sicherzustellen. Darüber hinaus sollte ein direkter Zugriff auf Sammlungseinheiten anhand ihrer Metadaten möglich sein – eine Eigenschaft, für deren Bereitstellung insbesondere auf Techniken des Semantic Web gesetzt wird. Mein persönliches Fazit der Session: Die Frage nach dem Begriff der wissenschaftlichen Sammlung ist eng verbunden mit ihren vor- und nachgelagerten Arbeitsprozessen – sowohl aus der Perspektive individueller Workflows einzelner Forscher, als auch im Hinblick auf eine darüber liegende (wissenschafts-)politische Ebene. Es handelt sich um einen stark vernetzten Themenbereich, der auch Fragen aufwirft, die aktuell nicht eindeutig zu beantworten sind.

[1] https://de.wikipedia.org/wiki/Forschungssammlung

[2] http://sudamih.oucs.ox.ac.uk/docs/Sudamih_FinalReport_v1.0.pdf

Quelle: http://dhd-blog.org/?p=3297

Weiterlesen

Nachlese Dhd 2014: Das “Objektcluster” auf der Pre-Conference von DARIAH-DE

Die neue Clusterstruktur von DARIAH-DE trägt mit ihrer Fokussierung auf bestimmte Kernbereiche der dynamischen Entwicklung der Digital Humanities Rechnung. Als Kern-DH-Verfahren wurden in der ersten Förderperiode u.a. Editions- und Erschließungsverfahren / Annotationen sowie computergestützte Analyseverfahren, d.h. das Erkennen von sprachlichen Strukturen in Texten, aber auch Erkennen von visuellen Strukturen in Bildern, benannt.[1] Insbesondere letzter Punkt, die Mustererkennung in Bildern, stellt bislang ein großes Desiderat in der und für die digitale Forschung dar, obwohl Texte keineswegs die einzigen Primärquellen sind, mit denen GeisteswissenschaftlerInnen arbeiten. Cluster 7, das so genannte “Objektcluster” unter Leitung des Deutschen Archäologischen Instituts (DAI), möchte daher dazu beitragen, dieses Deisderat anzugehen, indem es für geisteswissenschaftliche Zwecke angepasste Lösungen aus dem Bereich der automatischen Bilderkennung / Gesichtserkennung nachhaltig in die Forschungsinfrastruktur einbringt.

Auch wenn Reinhard Förtsch in seiner Präsentation dieses Vorhabens explizit keine Definition davon gegeben hat, was Objekte sind, so ist doch anzumerken, dass die Rede von einem “Objektcluster” der Tatsache geschuldet ist, dass u.a. die archäologische Objektdatenbank Arachne eine Datenbasis für die geplante Mustererkennung stellt. Mustererkennung wird also nicht an 3D-Objekten vollzogen, sondern an digital vorliegenden Fotografien von Objekten, sprich Bildern. Die Anschlußmöglichkeiten für andere Fachdisziplinen wie Kunstgeschichte oder Epigraphik sind offensichtlich, so dass zu wünschen ist, dass es zu einem regen Austausch zwischen verschiedenen Initiativen kommt, affine Projekte also “nicht mehr gemeinsam einsam sind, sondern [...] echte Synergien entstehen.”[2]

[1] Ruth Reiche, Rainer Becker, Michael Bender, Matthew Munson, Stefan Schmunk, Christof Schöch: “Verfahren der Digital Humanities in den Geistes- und Kulturwissenschaften”, in: DARIAH-DE Working Papers Nr. 4, Göttingen: DARIAH-DE, 2014.
[2] Claudine Moulin, Tweet aus dem Twitterstream zur Dhd 2014, 28. März.

Quelle: http://dhd-blog.org/?p=3286

Weiterlesen

TAToM, oder: Text Analysis with Topic Models (Tutorial)

Eine "topic heatmap" für die Tragödien von Jean Racine

Eine “topic heatmap” für die Tragödien von Jean Racine

Die Schulungsmaterialien “TAToM – Text Analysis with Topic Models for the Humanities and Social Sciences“, die von Allen Riddell im Rahmen von DARIAH-DE erstellt wurden, sind soeben erschienen.

Sie bestehen aus einer Serie von Tutorials, die grundlegende Verfahren der quantitativen Textanalyse abdecken. Sie thematisieren die Vorbereitung eines Textkorpus für die Analyse sowie die Exploration von Textsammlungen mit Verfahren wie Topic Modeling und Maschinellem Lernen. Besonderes Augenmerk liegt darauf, dass NutzerInnen weitestgehende Kontrolle über die Vorgänge der Textprozessierung behalten können. Wichtig war bei der Entwicklung der Materialien darüber hinaus, den Aspekt der Visualisierung von Topic Models mit in das Verfahren einzubeziehen.

Die Tutorials behandeln sowohl einige grundlegende als auch fortgeschrittene Themen und bauen in gewisser Weise auf den Materialien zu Python Programming for the Humanities von Folgert Kastorp und Maarten van Gompel auf bzw. setzen diese teilweise voraus. Die Tutorials nutzen in erster Linie die beliebte Skriptsprache Python, um mit den Textdaten umzugehen.

Die Inhalte in der Übersicht:
- Preliminaries & Getting started
- Working with text
- Preprocessing
- Feature selection: finding distinctive words
- Topic modeling with MALLET
- Topic modeling in Python
- Visualizing topic models
- Classification, Machine Learning, and Logistic Regression
- Case Study: Racine’s early and late tragedies

Die Tutorials wurden von Allen Riddell für DARIAH-DE verfasst und im März 2014 in Version 1.0 veröffentlicht. Die Koordination lag bei Christof Schöch am Lehrstuhl für Computerphilologie der Universität Würzburg. Rückmeldung zu den Tutorials ist immer willkommen, ebenso wie Hinweise auf Fehler. Bitte nutzen Sie hierfür den issue tracker auf GitHub. Die Tutorials werden unter der Lizenz Creative Commons Attribution 4.0 International zur Verfügung gestellt.

Quelle: http://dhd-blog.org/?p=3275

Weiterlesen

Max Weber Stiftung und DARIAH-DE kooperieren beim Aufbau von digitalen Forschungsinfrastrukturen

Die Max Weber Stiftung – Deutsche Geisteswissenschaftliche Institute im Ausland und das von der Niedersächsischen Staats- und Universitätsbibliothek Göttingen koordinierte Projekt DARIAH-DE arbeiten beim Aufbau von Forschungsinfrastrukturen für die digitalen Geisteswissenschaften künftig verstärkt zusammen.

Max Weber Stiftung & DARIAH-DEAm 19. Februar 2014 fand in der Bonner Geschäftsstelle der Max Weber Stiftung ein Workshop zum Thema „Digitale Geisteswissenschaften“ statt. Die digitalen Geisteswissenschaften – oder auch Digital Humanities – arbeiten mit digitalen Methoden, Verfahren und Daten, um Forschungsfragen in ihrer Disziplin zu beantworten. An ihm nahmen Vertreter der Auslandsinstitute der Max Weber Stiftung, Mitarbeiter der Geschäftsstelle, Kooperationspartner und insgesamt zehn Vertreter des Projekts DARIAH-DE teil.

Im Zentrum der Veranstaltung standen Fragen nach dem Umgang mit digitalen Forschungsdaten, ihrer vertrauenswürdigen und langfristigen Speicherung sowie ihrer Nachnutzung für andere Forschungsfragen. Ferner wurden relevante technische Infrastrukturkomponenten, die zum Beispiel eine gemeinsame und ortsverteilte Programmierung erlauben, und verschiedene fachwissenschaftliche Tools und Services vorgestellt. Ziel war es, die geisteswissenschaftliche Forscherperspektive mit der Sicht der IT-Experten in Austausch zu bringen und darüber hinaus Herausforderungen beim Einsatz von digitalen Forschungsinfrastrukturen in einem internationalen Umfeld aufzuzeigen.

Im Laufe des Workshops zeichneten sich viele gemeinsame Interessen zwischen der Max Weber Stiftung und DARIAH-DE ab. Die Vertreter beider Organisationen haben daher beschlossen, die hier initiierte Kooperation fortzusetzen. Dazu wurden Themen und Projekte für eine konkrete Zusammenarbeit identifiziert und ein Folgetreffen in der zweiten Hälfte des Jahres 2014 vereinbart.

Die Max Weber Stiftung – Deutsche Geisteswissenschaftliche Institute im Ausland fördert die außeruniversitäre Forschung mit Schwerpunkten auf den Gebieten der Geschichts-, Kultur-, Wirtschafts- und Sozialwissenschaften in ausgewählten Ländern sowie das gegenseitige Verständnis zwischen Deutschland und diesen Ländern. Sie unterhält zurzeit zehn geisteswissenschaftliche Institute im Ausland. Für den internationalen wissenschaftlichen Austausch betreibt sie die elektronische Publikationsplattform perspectivia.net. Sie steht im Zentrum der virtuellen Forschungsinfrastruktur, die die Max Weber Stiftung für ihre Institute und weitere Kooperationspartner anbietet. Ziel von perspectivia.net ist die Intensivierung und Weiterentwicklung der wissenschaftlichen Kommunikation durch die Bereitstellung von Forschungsmitteln in Form von Literatur, Quellen und Datenbanken. Die Publikationsumgebung ist dem Open-Access-Prinzip zur Förderung des freien wissenschaftlichen Austausches verpflichtet. Da die Grundlagenforschung ein besonderes Förderanliegen der Max Weber Stiftung darstellt, stellt perspectivia.net vermehrt Datenbanklösungen für die Präsentation von Quelleneditionen bereit. Hierbei steht nicht nur die Aufbereitung von Primärforschungsdaten im Vordergrund, sondern auch die Bereitstellung von virtuellen Arbeitsumgebungen, in denen die Erarbeitung wissenschaftlicher Ergebnisse in einem zeitgemäßen Umfeld erfolgen kann.

DARIAH-DE unterstützt die mit digitalen Methoden und Verfahren arbeitende Forschung in den Geistes- und Kulturwissenschaften. Die Forschungsinfrastruktur besteht aus vier Säulen: 1. Lehre: Durchführung von Workshops, Bereitstellung von Schulungsmaterialien und Nachwuchsförderung für die e-Humanities, 2. Forschung: Entwicklung von digitalen Tools und Services für die geistes- und kulturwissenschaftliche Forschung, 3. Forschungsdaten: Weiterentwicklung von Standards und Empfehlungen im Umgang mit Forschungsdaten und der Entwicklung eines Forschungsdaten-Repositorys und 4. Technische Infrastruktur: Bereitstellung von IT-Komponenten, wie z.B. AAI, PID-Service, Monitoring und kollaborative Arbeitsumgebungen. Auf dieser Basis wird der Austausch von Methoden, Daten, Erfahrungen und Ressourcen zwischen den verschiedenen geistes- und kulturwissenschaftlich arbeitenden Disziplinen ermöglicht und gestärkt. Durch enge Zusammenarbeit mit FachwissenschaftlerInnen verschiedener geistes- und kulturwissenschaftlicher Disziplinen wird eine nachhaltige Akzeptanz und Nutzung der Forschungsinfrastruktur durch die Forschungscommunity möglich.

DARIAH-DE (www.de.dariah.eu) ist eingebettet in das Projekt DARIAH-EU (www.dariah.eu), das in deutsch-französisch-niederländischer Zusammenarbeit geleitet wird. Auf Grundlage des ESFRI-Roadmap und der Rechtsform ERIC wird die DARIAH-DE-Forschungsinfrastruktur in eine pan-europäische digitale Forschungsinfrastruktur überführt.

Die Niedersächsische Staats- und Universitätsbibliothek Göttingen ist federführend an einer Vielzahl nationaler und internationaler Projekte zur Optimierung der Literatur- und Informationsversorgung sowie zum Auf- und Ausbau digitaler Forschungs- und Informationsinfrastrukturen beteiligt. Als Verbundprojekte zum Aufbau von digitalen geistes- und kulturwissenschaftlichen Infrastrukturen unterstützen die von der Bibliothek koordinierten Projekte DARIAH-DE und TextGrid Forscherinnen und Forscher mithilfe neuer IT-gestützter Technologien. Dazu zählt etwa die Entwicklung digitaler Technologien, mit deren Hilfe eine Zusammenarbeit möglich ist, um Informationen standortunabhängig und disziplinübergreifend auszutauschen, auszuwerten und zu bearbeiten. Mit verschiedenen Kooperationspartern am Wissenschaftsstandort Göttingen entwickelt die Bibliothek digitale Editionen des Werkes namhafter Wissenschaftler und Autoren wie des Altertumswissenschaftlers Christian Gottlob Heyne oder des Schriftstellers Theodor Fontane; in Zusammenarbeit mit der Akademie der Wissenschaften zu Göttingen stellt sie ein Internet-Portal bereit, das umfangreiche Informationen über Forschungsprojekte aus dem Akademienprogramm mit Datenbanken und Multimedia-Inhalten verbindet.

 

Die Pressemitteilung ist auch zu finden unter: https://de.dariah.eu/pressemitteilung-max-weber-stiftung

 

Weitere Informationen und Kontakt:

Dr. Michael Kaiser
Leiter des Referats perspectivia.net, Bibliotheken, IT

Max Weber Stiftung – Deutsche Geisteswissenschaftliche Institute im Ausland

Rheinallee 6

53173 Bonn
Tel.: +49 (0)228 377 86 24
Mobil: +49 (0)173 729 72 76

Fax: +49 (0)228 377 86 19
E-Mail: kaiser@maxweberstiftung.dewww.perspectivia.net,
http://dkblog.hypotheses.org, www.maxweberstiftung.de

 

Dr. Heike Neuroth

Niedersächsische Staats- und Universitätsbibliothek Göttingen

Papendiek 14, 37073 Göttingen

Telefon (0551) 39-33866

E-Mail: neuroth@sub.uni-goettingen.de

Internet: www.sub.uni-goettingen.de

 

 

Quelle: http://dhd-blog.org/?p=3224

Weiterlesen

Save the Date: Digital Humanities Summit 03. bis 04. März 2015 in Göttingen

TextGridundDARIAHDie Projekte DARIAH-DE und TextGrid laden zum Digital Humanities Summit vom 03. bis 04. März 2015 nach Göttingen ein.

Das Event richtet sich besonders an die DH-Projektverbünde, DH-Zentren und Nachwuchsgruppen aus den letzten BMBF-Calls, willkommen sind jedoch alle Projekte und Forschende, die sich für Digital Humanities interessieren!

Dazu sind flankierend weitere Veranstaltungen geplant, wie ein Hackaton, ein TextGrid Nutzertreffen und ein Editionenworkshop.

Genauere Informationen folgen zeitnaher. Bitte merken Sie sich den Termin schon mal vor.

Quelle: http://dhd-blog.org/?p=3165

Weiterlesen

Pre-Conference: „DARIAH-DE – Aufbau von Forschungsinfrastrukturen für die e-Humanities“

DARIAH-DE Logo ohne Unterschrift RGB fuer PPT

 

Im Rahmen der ersten Jahrestagung „Digital Humanities – methodischer Brückenschlag oder `feindliche Übernahme`? Chancen und Risiken der Begegnung zwischen Geisteswissenschaften und Informatik“ der Digital Humanities im deutschsprachigen Raum (Dhd), die vom 25.-28.03.2014 in Passau stattfindet, lädt DARIAH-DE zur Pre-Conference. Vom 25.-26.03.2014 werden in Workshop-Sessions verschiedene Aspekte der DARIAH-DE Forschungsinfrastruktur erörtert. Im Mittelpunkt stehen dabei Fragen nach den methodischen, thematischen und technologischen Anforderungen der Geistes- und  Kulturwissenschaften an eine digitale Forschungsinfrastruktur und die Auswirkungen der Anforderungen auf die Lehre. Außerdem soll es um die Frage gehen, wie digitale Forschungsinfrastrukturen nachhaltig etabliert werden können – und zwar unabhängig von befristeten Projektförderzeiträumen.

In vier Sessions werden die Kernelemente der DARIAH-DE Forschungsinfrastruktur -  Lehre, Forschung, Forschungsdaten und technische Infrastruktur – behandelt. Zusätzlich soll der Umgang mit Daten, die Objekte beschreiben, diskutiert werden. Denn bild- und objektanalysierende Kulturwissenschaften, wie beispielsweise die Archäologie, stellen digitale Forschungsinfrastrukturen vor neue Herausforderungen.

Als Abschluss des ersten Tages referiert Dr. Karl-Heinz Mörth, Institute for Corpus Linguistics and Text Technology, Austrian Academy of Science, über die derzeitigen Entwicklungen beim Aufbau von digitalen Forschungsinfrastrukturen für die Geistes- und Kulturwissenschaften in Österreich und deren Verbindung und Kooperationen zu den gemeinsamen Entwicklungen innerhalb des europäischen Forschungsraums.

Während der zweitägigen Pre-Conference finden DARIAH-Cafés statt, in denen Teilnehmende ihre Forschungsprojekte präsentieren. Diese mit DARIAH-DE assoziierten Projekte zeigen auf, wie vielseitig die DARIAH-DE Forschungsinfrastruktur nutzbar ist. Während der DARIAH-Cafés soll der Dialog zwischen EntwicklerInnen, WissenschaftlerInnen und VertreterInnen von Forschungsinfrastrukturen gefördert sowie neue Kontakte aufgebaut werden. DARIAH-DE-VertreterInnen präsentieren die im Projekt entwickelten fachwissenschaftlichen Dienste, wie z.B. den Geo-Browser und die Collection Registry. Weitere Komponenten der technischen Infrastruktur, curriculare Themen, in Planung befindliche DH-Studiengänge und forschungsbezogene Ergebnisse werden vorgestellt. Studentische Gruppen von verschiedenen Universitäten präsentieren darüber hinaus eigene Forschungsprojekte und ihre aktuellen Arbeiten.

Darüber hinaus werden Studierende und NachwuchswissenschaftlerInnen unterschiedlichster Disziplinen ihre eigenen DH-Projekte und Vorhaben vorstellen. Das DARIAH-DE Café bietet somit einen guten Überblick über aktuelle Themen, Methoden, Verfahren und Curricula-Entwicklungen in den Digital Humanities. Folgende Präsentationen werden im Rahmen des DARIAH-DE-Cafés stattfinden:

Weitere Infos zur Konferenz und Anmeldung erhalten Sie unter http://www.dhd2014.uni-passau.de/. Erfolgt die Registrierung bis zum 08. März 2014, wird Frühbucher-Rabatt erstattet.

Kontaktadresse:

Dr. Heike Neuroth
Niedersächsische Staats- und Universitätsbibliothek Göttingen
Papendiek 14, 37073 Göttingen
Telefon (0551) 39-33866
E-Mail: neuroth@sub.uni-goettingen.de
Internet: www.sub.uni-goettingen.de

Programm der DARIAH-DE Pre-Conference:

Dienstag, 25. März 2014

Uhrzeit Thema
13:00-13:30 Begrüßung und Eröffnung - Dr. Heike Neuroth (SUB Göttingen)
13:30-15:00 1. Session Forschungsfragen und -methoden - Dr. Christof Schöch (Uni Würzburg), Dirk Wintergrün (MPIWG Berlin)
15:00-15:30 Kaffeepause
15:30-16:30 2. Session Lehre - Prof. Dr. Manfred Thaller (Uni Köln)
16:30-18:00 Demo-Session Teil I (in einem gesonderten Raum): Demo-Sessions im Rahmen des DARIAH-DE-Cafés, Demo-Sessions assoziierter DARIAH-DE Projekte
ab 18:00 Abendvortrag - Dr. Karlheinz Mörth, Österreichische Akademie der Wissenschaften: „Der Aufbau von digitalen Forschungsinfrastrukturen für die Geistes- und Kulturwissenschaften in Österreich“
ab 20:00 Gemeinsames Pre-Conference Abendessen

Mittwoch, 26. März 2014

Uhrzeit Thema
9:00-9:15 Eröffnung des 2. Tages
9:15-10:30 3. Session Wissenschaftliche Sammlungen - Dr. Thomas Stäcker (HAB Wolfenbüttel)
10:30-10:45 Kaffeepause
10:45-12:00 4. Session Technische Infrastruktur – PeterGietz (DAASI), Tibor Kalman (GWDG, Göttingen)
12:00-12:30 5. Session Objekt-Cluster - Prof. Dr. Reinhard Förtsch (DAI Berlin)
12:30-13:00 Abschlussdiskussion: „Digitales Forschen und Lehren in den Geisteswissenschaften – Themen und Perspektiven für DARIAH-DE“ - Dr. Heike Neuroth (SUB Göttingen)
13:00-14:00 Demo-Sessions Teil II (in einem Raum): Demo-Sessions im Rahmen des DARIAH-DE-Cafés, Demo-Sessions assoziierter DARIAH-DE Projekte

 

Quelle: http://dhd-blog.org/?p=3058

Weiterlesen