2. DiXiT-Camp in Graz: XML/TEI for Digital Scholarly Editions

Von 14.-19 September 2014 veranstaltet das Zentrum für Informationsmodellierung – Austrian Centre for Digital Humanities das zweite DiXiT-Camp mit dem Titel “XML/TEI for Digital Scholarly Editions – Standards, tools and software”. Der einwöchige Workshop findet im Rahmen des Marie-Curie Initial Training Network “DiXiT” (Digital Scholarly Editions Initial Training Network) statt. Die Unterrichtseinheiten werden von MitarbeiterInnen des ZIM und der Karl-Franzens-Universität, Experten der Universität Oxford, der Universität zu Köln, der Königlich Niederländischen Akademie der Wissenschaften, SynchRO, TEI-C und Text Grid abgehalten.

Das DiXiT-Camp ist der Erstellung von digitalen Editionen mit XML TEI P5 gewidmet, ergänzt um die Verwendung weiterer Standards, Werkzeuge und Software bei der digitalen Editionsarbeit. Der Kurs ist darauf ausgerichtet, zukünftige digitale Editoren zu befähigen, selbständig mit den Technologien umzugehen und sie in ihren Projekten praktisch einzusetzen.

Die TeilnehmerInnenzahl der Veranstaltung ist auf 25 beschränkt, wobei 12 Plätze bereits für die DiXiT Fellows reserviert sind. Insgesamt gibt es also 13 Plätze, die mit internationalen Universitätsabsolventen und Doktoranden, die bereits Erfahrung mit wissenschaftlichen Editionen haben, besetzt werden sollen. Die Unterrichtssprache ist Englisch.

Detaillierte Informationen zu Programm und Bewerbungsverfahren sind in der englischen Ausschreibung auf der Webseite des Zentrums für Informationsmodellierung zu finden: http://informationsmodellierung.uni-graz.at/de/forschen/dixit/

Quelle: http://dhd-blog.org/?p=3695

Weiterlesen

Viertes TextGrid-Nutzertreffen: Anpassungen und Erweiterungen

Am 4. und 5. August 2014 wird an der Albert-Ludwigs-Universität Freiburg das vierte TextGrid-Nutzertreffen stattfinden. Der Themenschwerpunkt „Anpassungen und Erweiterungen“ verbindet dabei Erfahrungsberichte aus Projekten, die TextGrid nutzen, mit Workshops zur fortgeschrittenen Nutzung von TextGrid Laboratory und Repository. Die Veranstaltung richtet sich aber auch an Interessierte, die noch keine Erfahrung im Umgang mit der Forschungsumgebung TextGrid haben.

In Vorträgen und bei den Posterpräsentationen im Rahmen des TextGrid-Cafés werden die Projekte „SlaVaComp“, „Theodor Fontanes Notizbücher“ und „Blumenbach online“ vorgestellt. Eine einführende Schulung vermittelt im Vorfeld des Treffens die Grundlagen für die Arbeit mit der virtuellen Forschungsumgebung. In Workshops werden Anpassungen aus konkreten Projekten vorgestellt und in Übungen nachvollzogen. In einem Workshop wird gezeigt, wie XML-Datenbanken in TextGrid eingebunden werden können. Ein anderer demonstriert, wie mit XSLT synoptische Ansichten erzeugt werden können. Die Möglichkeit, mit Entwicklern von TextGrid direkt ins Gespräch zu kommen, rundet das Programm ab.

Eine Anmeldung ist erforderlich. Das entsprechende Formular und weitere Informationen finden sich auf der Webseite zum Nutzertreffen.

Quelle: http://dhd-blog.org/?p=3556

Weiterlesen

Explore, play, analyse your corpus with TXM

A short introduction of TXM by José Calvo and Silvia Gutiérrez

 

On Feburary 6-7, 2014, the Department for Literary Computing, Würzburg University, organized a DARIAH-DE Workshop called “Introduction to the TXM Content Analysis Platform“. The workshop leader was Serge Heiden (ENS-Lyon) who is in charge of the conceptualizing and implementing TXM at the ICAR Laboratory in France.

The workshop included a brief explanation of TXM’s background, but it concentrated on a very practical approach. We learned about the “Corpora options” (that is what you can know about your corpus: POS descriptions, text navigation), but also what you can do with it: find Key Words In Context (KWIC), retrieve Parts of Speech, and moreover how you can analyse these results querying for the Most Frequent Words or the cooccurrences.

In the evening of day one, we got an overview of the state of art of the use of “Natural Language Processing for Historical Texts” in a keynote by Michael Piotrowski (IEG Mainz). First of all, he started by defining Historical Texts as all those texts that will bring major problems to NLP. In order to clarify these definitions, Dr. Piotrowski listed some of the greatest difficulties:

  • Medium and integrity: we have to remember that in order to analyse an old script that was written in clay tablets or marble, it is compulsory to first find a way to transfer this information into a digital format (not an easy task); plus: some texts are defective or unclear, and transcriptions may introduce new errors
  • Language, writing system and spelling: many of the historical texts were written in extinct languages or variants different from today’s variants; as for the writing system, the many abbreviation forms and the variety of typefaces are more or less problematic; finally, we should not forget the little problem of non-standardized spelling!
  • State of art: Historical languages are less-resourced-languages, there are few texts available, and NLP for historical languages is carried out in specific projects; that is, there are no common standards and everyone has to start from zero.

Not to discourage his public, he then offered an overview of what can be done: Part-of-speech tagging. Creating a tagger for a historical language can be done with the the following methods:

  1. From scratch: manually annotating your text
  2. Using a modern tagger and manually correcting all errors
  3. Modernizing spelling
  4. Bootstraping POS tagger (with many versions of the same text, like the Bible)

Now let’s get back to the TXM workshop. In this post, you will find a brief practical introduction to this tool. We will provide you with a rough idea of what is this software about and what you can do with it. If you would like to learn more, do check the links we have shared towards the end of this post. By the way, all words marked with a little * are explained at the end, in the “Vocabulary” section.

What is TXM?

This software is at the juncture of linguistics and scholarly editing and it’s made to help scholars analyse the content of any kind of digital text (Unicode encoded raw texts or XML/TEI tagged texts).

To get to know more about the TXM background, don’t miss Serge Heiden’s Workshop slides:

Where can I work with it?

You may work on the desktop (download page) or online version of the tool. Both platforms have advantages and disadvantages. The online version allows you to start the work without downloading or installing anything, and share your corpora with other colleagues. With the desktop version, you can easily lemmatize and analyse the Parts of Speech (POS*) of your own texts.

So that you can get a better idea of the way it works, we’ll guide you with some practical examples. Say you want to search for the lemma politics on the “Brown Corpus*. First you have to open the Index option:

2014-02-15_19h28_12

Then you use the query box to type in the query, using the following structure from the CQL* query language: [enlemma=“politics”]. In the desktop version, the results will look as follows (the web version is very similar):

2014-02-12_11h02_39

What can I do with TXM?

Explore your corpus

Corpora options

On the first column of both interfaces there’s a list of the corpora you can work with (in this case DISCOURS, GRAAL, BROWN). When you click with the right button of your mouse on one of your corpora, you will see a list of icons:

png;base6465a19490765df979These are the main tools of TXM and you will use one of these to analyse your corpus in different ways.

Corpus description (Dimensions)

Before you start with the fun, you should click the “Dimensions” option and have a look at some general information about the corpus (number of words, properties, and structural units, as well as the lexical and structural units properties). This information is richer in the desktop version:

2014-02-12_11h12_23

Text navigation

A very practical TXM feature is the text display. If you wish to open a list of the corpus’ elements, you just have to click on the book icon (called “Texts” in the online version and “Open edition” in the other). A list like the following will be shown:

2014-02-12_11h17_48

Moreover, if you click on the book icon in the “edition” column, TXM will open a readable version of our text:

2014-02-12_11h18_47

Play with your corpus

Key Words In Context (KWIC)

A very typical visualization of a corpus is the so called KWIC view, which you have already seen displayed in the politics lemma example.

With TXM you can sort the results using different criteria organizing them according to the right or left context of your word, the word form, etc; besides, you can choose which elements you want to visualize. Say you’re searching for collocations of present as an adjective and NOT the data related to the noun nor the verb form (to present). First of all you need to go to the INDEX.

Once you open this, you can set the options in the “Keyword” column and visualize the grammatical category along with the word form. Then you type “JJ_present”, where “JJ” means “adjective” and “present” is the verb form, so that only those instances of the graphical form present are selected which are adjectives. It is also possible to order this data by different criteria.

As you can see in the next screenshot, you are looking for the lemma present. Therefore, you should set the first “Sort keys” menu to “Left context”, and the second one to “Keyword”; what you’re saying to the software is that you want all the examples sorted by the Left context as a first criteria and the Keyword as a second. In the “Keyword” > “View” menu we have set “enpos, word”. With that we are ordering TXM to show us not just the word form, but also the POS. That is why we see the keywords as “VVN_present” (that means, present as a verb) or JJ_present (present as an adjective):

png;base64f22bacff5fc65745

Parts of Speech

Another way to display specific words according to their POS can be run by using the Index tool (A|Z icon), from a lexicologist point of view one the most interesting options of TXM. If you search again for the lemma present and in the properties box, you chose to see not only the word form but the POS as well, TXM will tell you the frequency, word form and POS of each different word form found in the corpus:

2014-02-12_11h53_26

If you only want the word forms of the verb to present, you can add the POS information to the query: [enlemma=“present” & enpos=“VV.*”]

These index can able to create lists of n-grams. Let’s search for the most frequent words that appear after the lemma present:

2014-02-12_11h57_37

Quantative analysis

Most Frequent Words

To query something you have to have a specific question and know some basic information, for instance: in which language is the corpus? A way to have a general idea about the texts is the Lexicon option, the icon with AZ both on white background. When you click on it, you will see a list of the most frequent word forms:

2014-02-13_11h58_08

 

You can change the settings of the query and ask to count not the word forms but the lemmas. In that case the verb to be climbs up some positions, now that is, are, were, been etc. count as one single unity:

png;base64c5510467d9a7ff1f

 

Coocurrences

Another quantitative analysis concerns the coocurrences, that is, the words (or other unities) that frequently appear close to a specific word (or to other unities). Unlike n-grams, coocurrences do not have to appear exactly after or before the unity, they just have to be somewhere close to it.

The Brown corpus was compiled in the 1960s in the United States, the main years of the Cold War. So let’s see the vocabulary related to the words United States and which one to Soviet Union:

2014-02-13_12h13_56

Progression

Another statistical option that exists on the Desktop version is the Progression (icon with an arrow). This option helps visualize how many times a unity appears in a corpus or a text. This might be interesting to see the progress of a word between two dates or see the development of a word in the different parts of a text.

For the next example, the text of Bram Stocker’s novel Dracula was imported (the version used is from the University of Adelaide). With the information of the chapters kept in XML elements, you can look for the name of the main characters and see how many times and where they appear. The next screen-shot shows the complete query:

2014-02-13_13h41_35

To understand the next graphic, you have to keep in mind that if the lines ascends, that means the name has been mentioned; if the line keeps going horizontally, it means the name didn’t appear any more.

 

2014-02-08_15h54_49

 

As you can see, the Count Dracula (yellow) is the most mentioned name in the first four chapters, but it almost disappears towards the 17th chapter. In this gap, Lucy (blue) becomes the main character and, from the 9th chapter, the Professor van Helsing (red) takes the “leading” role. It is also remarkable that this last character is not only the most frequent, but the most stable.

Sub-corpora and partitions

You can divide your corpus into two options: sub-corpora and partitions. With a sub-corpus you can choose some texts from a corpus and work with them. With the partition, you can split the corpus into more than one part and easily compare the results of the different parts. On the next screenshot, you have the menu where a Partition called “Fiction and Press partition” is being created, using the XML “text” and the property “type” to choose which kind of text is wanted. This partition will have two parts: one called “Fiction” and the other one called “Press” and each of it will contain the respective type of texts.

2014-02-13_13h26_05

Useful links

“A gentle introduction to TXM key concepts in 90 minutes” by Serge Heiden: http://sourceforge.net/projects/txm/files/documentation/IQLA-GIAT%202013%20TXM-workshop.pdf/download

Tutorial video introducing TXM 0.4.6 (WARNING: the software, specially it’s surface, is now very different): http://textometrie.ens-lyon.fr/IMG/html/intro-discours.htm

TXM background http://fr.slideshare.net/slheiden/txm-background

TXM import process http://fr.slideshare.net/slheiden/txm-import-process

Vocabulary

 

Brown Corpus

The Brown corpus consists of 500 English-language texts, with roughly one million words, compiled from works published in the United States in 1961. You can learn more about it here.

CQL

TXM uses an underlying Contextual Query Language, which is a formal system for representing queries to information retrieval systems such as web indexes, bibliographic catalogues and museum collection information. More information in the official web-page: http://www.loc.gov/standards/sru/cql/

 

POS

Here is a useful alphabetical list of part-of-speech tags used in the Penn Treebank Project (tag and description): https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Quelle: http://dhd-blog.org/?p=3384

Weiterlesen

Methodenworkshop »Techniken der digitalen Edition für die historisch arbeitenden Textwissenschaften«

  • Veranstalter: Leibniz-Institut für Europäische Geschichte (IEG, http://www.ieg-mainz.de/) und DARIAH-DE (http://de.dariah.eu)
  • Ort: Leibniz-Institut für Europäische Geschichte, Alte Universitätsstraße 19, 55116 Mainz
  • Beginn: 29. Januar 2014, 14.00 Uhr
  • Ende: 30. Januar, 13.00 Uhr

Die Vorrangstellung der Informationsstrukturierung und -vermittlung in Form gedruckter Bücher hat durch den Übergang von traditionellen hin zu neuen, digitalen Formen der Erschließung und Repräsentation von Texten an Bedeutung verloren. Zunehmend lösen digitale Texte die »klassischen« Medien ab. Infolge dieser Entwicklung wird vom Wissenschaftsrat in seinen publizierten Empfehlungen zu »Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften« empfohlen, »sich nachhaltig für einen Ausbau forschungstauglicher Digitalisierungen« einzusetzen; auch auf wissenschaftspolitischer Ebene können die Vorteile der digitalen Erschließung und Aufbereitung als unbestritten gelten.

Vor diesem Hintergrund und den daraus resultierenden vielfältigen Möglichkeiten der Digital Humanities möchte der vom IEG im Rahmen von DARIAH-DE (gefördert vom Bundesministerium für Bildung und Forschung) organisierte Workshop Grundlagen, Methoden und Techniken von Digitalen Editionen für die historisch arbeitenden Textwissenschaften vermitteln und bereits vorhandene Lösungsansätze und -szenarien mit den Teilnehmern diskutieren. Der Methodenworkshop ist Teil einer Veranstaltungsreihe von DARIAH-DE, die in Kooperation mit Partnerinstitutionen mit unterschiedlichen geisteswissenschaftlichen Schwerpunkten durchgeführt werden.

Der Methodenworkshop nimmt thematisch die Forderung nach dem Ausbau forschungstauglicher Digitalisierungen in Form von »digitalen Editionen« auf. Digitale Editionen sollen dabei das klassische Editionskonzept nicht verwerfen, sondern ergänzen, weil auch dort das Ergebnis der Arbeit darin bestand, mehrere Schichten von Informationen (z.B. in Form von Erläuterungen, inhaltlichen Anmerkungen, Angaben von Textvarianten, bibliographischen Angaben usw.) zu einem Text zu sammeln, zu systematisieren und dem Nutzer in Form eines abgeschlossenen Werks zur Verfügung zu stellen. Mit anderen Worten, beim klassischen Editionsmodell handelt es sich bereits um einen Hypertext. Die Schichtenstruktur klassischer Editionen lässt sich digital leichter – und konsequenter – abbilden. Dabei können viele Beschränkungen des konventionellen Buchdrucks überwunden werden, insbesondere diejenigen, die die materielle Überlieferung betreffen (visuelle Wiedergabe des Textes, Informationsumfang). Gleichzeitig kommen ganz neue Möglichkeiten hinzu wie Mehrdimensionalität und Modifizierbarkeit.

Der Methodenworkshop widmet sich konkret der Frage: Was bedeutet Digitalisierung im Kontext historischer Editionen? Wo müssen Schwerpunkte gesetzt werden, um aus komplexen Textstrukturen digitale Objekte zu erzeugen? Und vor allem: Wie müssen diese Textstrukturen aufbereitet werden, um aus ihnen eine digitale Edition zu formen?

Eine grundlegende Technik zur Erstellung von Digitalen Editionen bilden die Auszeichnungsstandards der Text Encoding Initiative (TEI). TEI wurde als XML-basierte Auszeichnungssprache speziell für die Zwecke der Geisteswissenschaften konzipiert und stellt mittlerweile einen De-facto-Standard für die wissenschaftliche Textkodierung dar, die wiederum als Grundlage für die Aufarbeitung von Texten zu betrachten ist.

Im Rahmen des Workshops werden Grundkenntnisse im Bereich der Textkodierung mit XML/TEI, der Weiterverarbeitung XML-kodierter Daten sowie ihrer Aufbereitung vermittelt, die  als Grundlage für die Erstellung von digitalen Editionen dienen.

Am ersten Tag werden zunächst die Grundlagen von Konzeption und Planung digitaler Ausgaben an zwei konkreten Editionsprojekten (Briefedition Alfred Escher & Kritische Online-Edition der Nuntiaturberichte von Eugenio Pacelli 1917–1929) erläutert. Ausgehend davon können unterschiedliche Konzepte digitaler Editionen diskutiert sowie der jeweils damit verbundene Aufwand und die Anwendbarkeit für verschiedene editorische Fragestellungen/Bedürfnisse thematisiert werden.

Am zweiten Tag sollen sich die Teilnehmer, nach einer knappen allgemeinen Einführung in XML, anhand von kleinen Übungen in die Praxis der Textauszeichnung mit TEI einarbeiten und einen Überblick über die Bedeutung und die verschiedenen Module dieser Sprache erhalten. Vordergründiges Ziel dieser »hands-on session« ist es, die Teilnehmer zum selbstständigen Umgang mit den TEI-Guidelines anzuleiten, um ihnen so ein Werkzeug in die Hand zu geben, mit dem sie später im Rahmen ihrer Projekte selbst arbeiten können.

Der Methodenworkshop ‘Techniken der digitalen Edition für die historisch arbeitenden Textwissenschaften’ richtet sich an alle historisch arbeitenden Textwissenschaftler und möchte insbesondere Nachwuchswissenschaftler (Doktoranden und Post-Doktoranden), aber auch Forscher ansprechen, die sich in ihrem Forschungsalltag und in aktuellen Projekten mit Themen der Planung und Erstellung von Digitalen Editionen beschäftigen.

Um einen reibungslosen Ablauf zu gewährleisten, werden die Teilnehmer gebeten, ihre eigenen Notebooks mitzubringen, so dass gemeinsam anhand von Beispieldaten einige Tools und Anwendungsszenarien getestet werden können. Es besteht ferner die Möglichkeit, dass die Teilnehmer vor Workshopbeginn Daten aus ihren eigenen Forschungsprojekten einreichen, um mithilfe dieser Daten exemplarische Erfassungsprobleme thematisieren und Anwendungsoptionen diskutieren zu können.

Das ausführliche Programm des Workshops, weiterführende Informationen und ggf. weitere Aktualisierungen werden auf www.staff.uni-mainz.de/marcuhel/methods2014 veröffentlicht.

Die Teilnehmerzahl ist auf 20 begrenzt.

Bewerbungen zur Teilnahme am Workshop sind ab sofort bis zum 18. Dezember 2013 möglich. Eine verbindliche Einladung erfolgt am 20. Dezember 2013.

Für die Bewerbung senden Sie bitte eine E-Mail mit einem kurzen Lebenslauf und einem kurzen Motivationsschreiben (jeweils max. eine Seite) an: aurast@ieg-mainz.de und held@ieg-mainz.de.

Bei inhaltlichen oder organisatorischen Rückfragen wenden Sie sich bitte an:

Quelle: http://dhd-blog.org/?p=2626

Weiterlesen

Document Engineering und Digital Humanities

Dokumente aller Art spielen seit jeher in den Geisteswissenschaften eine zentrale Rolle, sowohl als Untersuchungsgegenstand als auch zur Dokumentation von Forschungsergebnissen. Entsprechend beschäftigen sich auch die Digital Humanities mit Dokumenten, insbesondere digitalen Dokumenten. Neben den »traditionellen« geisteswissenschaftlichen Fragen stellen sich dabei auch neue Fragen, z. B. zur Codierung, Auszeichnung und Verarbeitung von Texten, bei denen technische und geisteswissenschaftliche Aspekte interagieren. Anne Baillot hat in einem Blogbeitrag mit dem Titel »Encoding IS conceptualizing« einige schöne Beispiele dafür genannt; die Diskussionen auf TEI-L sind eine unerschöpfliche Quelle weiterer Beispiele.

In der Informatik ist Document Engineering das Gebiet, in dem man sich mit Systemen zur Repräsentation und Verarbeitung von Dokumenten in allen Formen und Medien beschäftigt. Leider gibt es bislang nur wenige Berührungspunkte zwischen Document Engineering und Digital Humanities – eigentlich seltsam, denn wir hätten hier einerseits Leute, die sehr hohe Ansprüche an die Erstellung, Verarbeitung und Darstellung digitaler Dokumente stellen (man denke hier nur etwa an verschiedene, sich überlappende Auszeichnungsebenen) und andererseits Leute, die daran arbeiten, den Stand der Technik in eben diesem Bereich voranzubringen.

Daher möchte ich an dieser Stelle auf eine Konferenz hinweisen, die im DH-Umfeld erst wenigen bekannt ist, aber für Leute, die sich mit Dokumenten, XML, TEI usw. beschäftigen, sehr interessant ist, und die auch eine sehr gute Möglichkeit darstellt, mit den Informatikern, die in diesem Bereich arbeiten, ins Gespräch zu kommen: das ACM Symposium on Document Engineering, kurz DocEng.

Proceedings), aber auch andere Beiträge — z. B. zu XML, OCR, Suchverfahren — waren für Forscher in den DH relevant.

Ich bin sicher, dass es auch bei DocEng 2013 wieder einiges für DH-Forscher zu entdecken geben wird. DocEng 2013 findet vom 10. bis zum 13. September in Florenz statt; am 10. finden die Workshops DChanges 2013: First International Workshop on (Document) Changes: Modelling Detection, Storage and Visualization, DH-CASE 2013: Collaborative Annotations in Shared Environments: Metadata, Vocabularies and Techniques in the Digital Humanities (explizit DH!) und Reimagining Digital Publishing for Technical Documents statt. Ich persönlich bin davon überzeugt, dass sowohl DH als auch Document Engineering von einem verstärkten Austausch nur profitieren können. Und vielleicht es auch mal eine erfrischende Abwechslung zur »Was-sind-eigentlich-die-Digital-Humanities-Nabelschau« …

Ganz besonders möchte ich aber noch Doktoranden auf ProDoc@DocEng hinweisen, das erste doctoral consortium bei DocEng. Dabei können Doktoranden ihr Dissertationsprojekt (das natürlich einen Bezug zu Document Engineering haben muss) vorstellen und bekommen Feedback von einem Panel erfahrener Forscher und vom Publikum. Das Ziel von ProDoc@DocEng ist es, Doktoranden dabei zu helfen, ihre Forschungsfrage zu formulieren, die richtigen Ansätze und Methoden zu wählen und ganz allgemein auf neue Ideen zu kommen.

Ein doctoral consortium ist eine außergewöhnliche Gelegenheit, um Rückmeldungen von den führenden Forschern zu seinem Dissertationsprojekt zu bekommen und gleichzeitig an der Konferenz zu lernen, wie der aktuelle Forschungsstand im Bereich Document Engineering ist und wertvolle Kontakte zu knüpfen — eine sehr gute Voraussetzung, um dann bei einem der nächsten Symposia selbst ein Paper bei der Hauptkonferenz vorstellen zu können.

Die Frist für Einreichungen zu ProDoc@DocEng läuft noch bis zum 28. Juni. Die Details finden sich im Call for Submissions. Doktoranden, die für ProDoc@DocEng angenommen wurden, können sich auch um Student Travel Awards bewerben.

Quelle: http://dhd-blog.org/?p=1814

Weiterlesen

Wie schreibt man DH richtig? II

DH ernst zu nehmen, scheint mir gerade als Geisteswissenschaftler ein höchst selbstreferentieller Prozess zu sein (s.a. meinen Beitrag zu Open Access http://dhd-blog.org/?p=673). Nachdem die Kulturtechnik Lesen unter Titeln wie distant reading (Moretti), hyperreading (Sosnoski) oder maschine reading (Hayles) umfassend thematisiert wurde, verwundert es ein wenig, dass bisher dem Schreiben vergleichsweise wenig Aufmerksamkeit zuteil wurde, auch wenn natürlich die Literatur z.B. zu Markup mittlerweile Legion ist. Es ist aber m.E. ein Unterschied, ob man vorhandenene Texte “editorisch” mit Markup versieht oder ob man selbst Texte nicht mehr layoutbasiert, sondern strukturell schreibt, eben Texte, die den Anforderungen einer computergestützten Geistes- und Kulturwissenschaft genügen.

In der Theorie weiss man natürlich, dass Word-Dateien mit Blick auf ihre maschinelle Nachbearbeitung und -nutzung enge Grenzen haben und dass es besser wäre, statt dem WYSIWYG Prinzip zu huldigen, sich wieder auf Textstrukturen und – bedeutung zu besinnen. Nun ist WYSIWYG ein süßes Gift und hat viel dazu beigetragen, den Computer in den Geisteswissenschaften zu etablieren. Diese Leichtigkeit des Schreibens in Frage zu stellen und WORD z.B. mit einem XML Editor wie oXygen zu vertauschen, ist denn auch ein Schritt, den viele unserer Zunft vermutlich scheuen werden, und doch scheint mir genau dieser Schritt zum Strukturellen Schreiben, wie ich es nennen möchte, unverzichtbar, um das volle Potential der DH ausschöpfen zu können. Ich habe mich daher in einem Beitrag im Bibliotheksdienst (s. vor allem den ersten Teil DOI 10.1515/bd-2013-0005) einmal mit dieser Frage auseinandergesetzt und versucht “basale” Strukturen für das strukturelle Schreiben, oder wie man es nennen möchte, zu identifizieren. Das Pikante daran ist natürlich, dass,  wenn man schon über Strukturelles Schreiben “schreibt”, dann es auch füglich selbst tun sollte. Ich hatte daher dem Verlag abbedungen, den Beitrag nicht mit einer moving wall zu belegen, sondern ihn unter einer CC BY-SA Lizenz zu veröffentlichen und bereitete zeitgleich eine alternative Publikation vor, die mitttlerweile auch vorliegt (vgl http://diglib.hab.de/ebooks/ed000149/start.htm). Unterdessen hat aber auch der Verlag den Text online gestellt (DOI s.o.). Dies nun ist interessant, denn wenn man die beiden Versionen vergleicht, wird unmittelbar deutlich, warum online allein nicht ausreicht (auch wenn OA ein Wert an sich ist), und es einer intensiveren Bemühung um den Text bedarf, um ihn wirklich nutzbar zu machen. Augenfällig ist, dass z.B. die Links fehlen.  Sie sind in dem Beitrag auf der Verlagsseite allesamt nicht clickbar. Überhaupt hinterlässt er einen etwas lieblosen Eindruck. Das Entscheinde liegt aber unter der Oberfläche dieser Version, die unter “strukturellen Gesichtspunkten”(Markup)  gänzlich ungenügend ist. Z.B. würde man sich zu Schlagworten und Personen GND Nummern wünschen. Diese habe ich in meiner Version ergänzt (wenn auch noch nicht sichtbar gemacht). Sie stecken im XML Quelltext (http://diglib.hab.de/ebooks/ed000149/BD-2013-01.xml) und werden später vor allem in übergreifenden Suchalgorithmen ausgewertet werden (zum Einsatz wird die DB eXist kommen). Mit Blick auf zukünftige Szenarien der Nachnutzung im semantic web habe ich zudem einige grundlegende Dinge, wie Titel, Autor, Schlagworte mit RDFa markiert,. z.B. <span property=”dc:title”>Wie schreibt man Digital Humanities richtig…<span> (eine gut verständliche Einführung zu RDFa findet sich hier:http://www.w3.org/TR/xhtml-rdfa-primer/). Nebenbei habe ich auch versucht diesen Blockbeitrag zu “semantisieren”, was allerdings fehlschlug, weil WordPress Attribute wie @property aus den Tags zu entfernen scheint. Aber vielleicht hat dazu jemand eine Idee?

Das Besondere und die Herausforderung, in dieser Art zu schreiben, liegt darin, dass man sich ständig reflexiv mit dem Text auseinander setzen muss. Besonders schwierig ist dabei die Frage, in welcher Tiefe und Granularität Texte ausgezeichnet werden müssen und sollen. Hier bedarf es sicher weiterer Erfahrungen und auch einer gewissen Kanonisierung. Da sich in einem Webumfeld auch die Lineariät des Textes nicht mehr selbstverständlich versteht, muss man als Autor die Visualisierung des Textes im Auge behalten, – und hier gilt es, nicht nur mit Landow an die hypertextuellen Strukturen zu denken (Verlinkungen zu anderen Texten oder Gegenständen), sondern auch an Dinge wie z.B. ein zu- und aufklappbares Inhaltsverzeichnis und Abstrakt. Die Dinge werden also komplizierter, aber, so meine Überzeugung, die Möglichkeiten des strukturellen Schreibens erhöhen auch die Sichtbarkeit, Funktionalität und Nachnutzbarkeit elektronischer Publikationen und ebenen den Weg zu einem semantic web, das auch Forschungsliteratur auf verschiedenen Ebenen des Textes integriert.

 

Quelle: http://dhd-blog.org/?p=1370

Weiterlesen

Trancribe Bentham in a Panopticon: verspätete Berichterstattung zum Vortrag von Philipp Schofield im Rahmen der Darmstädter Ringvorlesung am 8.11.

Text von Jörg Lehning, TU Darmstadt

Im Rahmen der Ringvorlesung “Digital Humanities” war Philip Schofield, Leiter des Bentham-Projektes und General Editor der Gesammelten Werke Jeremy Benthams zu Gast und erfreute die interessierten Hörerinnen und Hörer mit seinem Vortrag “Transcribe Bentham – An experiment in scholarly crowdsourching”.

Das (im Übrigen preisgekrönte) interdisziplinäre Bentham-Projekt ist ein großartiges Beispiel für ein wissenschaftliches Projekt, das mit den neuen Technologien zusammenwächst. Das “scholarly crowdsourcing”, was man vielleicht mit “wissenschaftliche Bearbeitung durch unwissenschaftliche Mengen” etwas wenig elegant umschreiben könnte, ist hierbei ein elementarer Baustein des Projekts.

Wie Schofield ausführte, sei es auch in diesem Projekt zunächst wichtig, Ziele zu definieren. In diesem Fall sei das die Erstellung einer neuen gedruckten Edition gewesen, ein weiteres, dass diese kostengünstig sein sollte.

Bentham, so Schofield, hätte den technologischen Fortschritt mit offenen Armen begrüßt, und das nicht nur, weil er zeitlebens Technik zur Vereinfachung von Arbeitsabläufen erfunden hatte, sondern auch, weil er mit ihr seine Ideen wesentlich besser hätte umsetzen können.

Das Computerzeitalter wäre mitunter auch hilfreich, veraltete oder nicht hilfreiche Strukturen zu überwinden, meinte Schofield mit Blick auf diverse alte Regularien (Oxford Standard of storage rules), etwas was auch in den Debatten um die Definition der Digital Humanities eine Rolle spielt.

Die Bentham Dokument Datenbank, die von 2003-2006 bearbeitete Dokumente bereitstellt, ist eine zentrale Quelle für Metadaten, die von Editoren und Forschern genutzt werden kann.
Die Technik hat jedoch nicht nur Vorteile: im Rahmen des Arbeitsablaufs wird durch einen wissenschaftlichen Mitarbeiter die Qualität der fertig bearbeiteten Dokumente geprüft, bevor sie hochgeladen werden können. Die Erfahrung zeigt hier, dass händisches XML/TEI-Tagging zu steigender Fehlerzahl und somit auch zu steigendem Zeitverbrauch führen kann. Aber: Die Probleme mit der Technik können mitunter auch durch die Technik behoben werden, so z.B. durch das Interface, das die Text-XML-TEI-Erstellung erleichtert und somit die menschlichen Fehlerquellen in diesem Fall umgeht.

Mitarbeiter werden bei Wunsch genannt und bekommen auch Rückmeldung zu ihrer Arbeit. Von den Transkripten werden 95% von sogenannten “super-transcribers” bearbeitet. Bemerkenswert ist, dass viele der “User”, die an dem Projekt arbeiten, gar nicht unbedingt an Bentham interessiert waren und sind, sondern vor allem die Art der Arbeit im Rahmen des Projekts interessant fanden. Auch die digitale Komponente schien zu reizen.

Projekte wie dieses haben als limitierende Faktoren oft Zeit und Komplexität. Wirtschaftliche Argumente für diese Projekte sind wichtig, wenn es darum geht, sie überhaupt in die Tat umzusetzen. Die ökonomische Rechtfertigung kann hier darin bestehen, dass die Methode des “scholarly crowdsourcing” kosteneffizient ist, z.B. im Vergleich zu bezahlten Forschern.

Abschließend stellte sich Schofield Fragen nach der Berechtigung und dem Erfolg des Projekts und kam zu dem Schluss, dass es ein Erfolg sei, weil Bedarf daran besteht und es wissenschaftlich fundiert sei. Die digitalen Geisteswissenschaften indes würden das Projekt dazu zwingen, die Funde auch mit neuen Methoden aufzubereiten und zu präsentieren.

Fragen hinsichtlich der Existenzberechtigung des Projektes beinhalten die Überprüfung der Zielsetzung Druck im Hinblick auf Ideen und Modelle der “freien Information”. So taucht zum Beispiel die Frage auf, ob nicht nur noch eine editierte Fassung online stehen soll, die die gedruckte Ausgabe ersetzt. Hier stehen sich die Punkte Kosteneffektivität und beständige, gesicherte Referenz durch physikalische Permanenz gegenüber.

Follow us on Twitter: @DHDarmstadt @RappAndrea #DHDarmstadtLecture

Am 22.11.2012 ist Martin Wynne (Oxford University) zu Gast: “Corpus and Text Analysis for Research in the Humanities”; 18.00 Uhr s.t., Schloss, Raum 36. Gäste sind herzlich willkommen.

Quelle: http://dhd-blog.org/?p=1077

Weiterlesen

CLARIN-AT / DARIAH-AT Workshop: Texttechnologische Standards in den Geisteswissenschaften

Das Institut für Corpuslinguistik und Texttechnologie (ICLTT) der Österreichischen Akademie der Wissenschaften, das Zentrum für Translationswissenschaft (ZTW) der Universität Wien und das Zentrum für Informationsmodellierung (ZIM) der Universität Graz veranstalten den ersten von mehreren CLARIN-AT / DARIAH-AT Workshops zu unterschiedlichen texttechnologischen Fragestellungen mit dem Titel: “Texttechnologische Standards in den Geisteswissenschaften – Encoding in TEI“.

  • Termin: 17. Oktober 2012 ganztägig und 18. Oktober 2012 halbtägig
  • Ort: Österreichische Akademie der Wissenschaften, Dr. Ignaz Seipel-Platz 2, 1010 Wien

Der Workshop wird einen stark praxisorientierten Einblick in die Guidelines der Text Encoding Initiative (TEI) bieten und gibt damit Anregung für deren Einsatz in den Geisteswissenschaften. Welche neuen, methodologischen Möglichkeiten sich aus dem technologischen Wandel ergeben, soll im Rahmen dieses Workshops gemeinsam erörtert werden.

Nähere Informationen zum Programm und ein Anmeldeformular finden Sie unter:
http://corpus3.aac.ac.at/showcase/index.php/workshop01

Quelle: http://dhd-blog.org/?p=655

Weiterlesen