Stellenausschreibung: Postdoc Computerlinguistik oder Korpuslinguistik mit Fokus Latein

The Faculty of Arts of the University of Lausanne (UNIL) invites applications for a Postdoctoral Researcher (SNSF) in Computational Linguistics or Corpus Linguistics with a focus on Latin in the Department of Language and Information Sciences.

  • Expected start date: 1st March 2019 (or to be agreed)
  • Contract length: 4 years
  • Activity rate: 75%
  • Workplace: University of Lausanne, Campus Dorigny

The successful candidate will work on the project A world of possibilities. Modal pathways on the extra-long period of time: the diachrony of modality in the Latin language funded by the Swiss National Science Foundation (project no. PP00P1_176778).

The team will consist of the PI and of a PhD student in addition to the postdoc. The main tasks of the postdoc researcher will be:

  • the development of suitable annotation schemes
  • the creation and development of a database and of its interface
  • the creation and maintenance of the website of the project
  • the annotation of Latin texts
  • the collaboration at various research activities connected with the project (publications and other ways of disseminating results)

Your profile

PhD or equivalent qualification in Linguistics or Computer Science with a specialisation in Computational Linguistics or Corpus Linguistics.

[...]

Quelle: https://dhd-blog.org/?p=10838

Weiterlesen

Workshop «Computational Methods in the Humanities» (COMHUM 2018)

Am 4. und 5. Juni 2018 veranstaltet die Sektion für Sprach- und Informationswissenschaft der Universität Lausanne (Schweiz) einen Workshop zum Thema «Computational Methods in the Humanities» (COMHUM2018). Das Ziel des Workshops ist es, die Forschung zu informatischen Ansätzen in den Geisteswissenschaften voranzubringen – insbesondere zu innovativen, methodisch expliziten Ansätzen – und den disziplinenübergreifenden Austausch anzuregen.

Die offizielle Sprache des Workshops ist Englisch, Beiträge können in englischer oder französischer Sprache eingereicht werden. Die Einreichungsfrist für Abstracts von 1–2 Seiten ist der 16. April 2018. Nähere Informationen finden sie auf der COMHUM-2018-Webseite sowie in der folgenden Ankündigung:

Call for Proposals



[...]

Quelle: http://dhd-blog.org/?p=9516

Weiterlesen

Virtuelle Forschungsplattformen im Vergleich: MONK, Textgrid, Transcribo und Transkribus

Eine zentrale Forderung zur Unterstützung digitaler Editionen und Texterschliessungsvorgänge ist das Anbieten virtueller Umgebungen zur Produktion und zum Management digitaler Daten. In den letzten Jahren wurden aufgrund fachwissenschaftlicher Nachfrage mehrere Plattformen geschaffen, die Prozesse der digitalen Datenerstellung von der Aufnahme von Informationen (Metadaten, Transkriptionen) über die Auswertung und Anreicherung bis hin zur Publikation unterstützen. Die Plattformen unterscheiden sich in ihren zugrundeliegenden Konzepten, den Arbeitsabläufe und den integrierten Hilfsmitteln. Damit unterscheiden sich zwangsläufig auch die Angebote, nicht nur in der Leistungsfähigkeit, sondern vor allem in den unterstützten Prozessen und damit ihrer Eignung für bestimmte Projekte.

Im Rahmen eines Panels an der DHd2017 in Bern wurden aus diesem Grund vier im Bereich der Handschriftentranskription häufig eingesetzte, aber gleichzeitig sehr unterschiedliche Plattformen in ihrer Ausrichtung und ihrem Leistungsumfang verglichen und einander gegenübergestellt, nämlich MONK, TextGrid, Transcribo und Transkribus. Zur Vorbereitung des Panels wurden die Anbieter der vier Plattformen gebeten, einen Fragebogen mit den folgenden Punkten zu beantworten:

  • Idealtypischer Ablauf für den Gebrauch der Plattform
  • Zeitliche Anforderungen, um ein Projekt aufzusetzen bzw. ein Dokument zu verarbeiten und zu exportieren
  • Herstellung von Transkriptionen
  • Bild-Text-Verknüpfung
  • Text-Markup
  • Ausgabemöglichkeiten (für Edition und/oder Transkription)
  • Vernetzungsmöglichkeiten (Wörterbücher, externe Ressourcen, Ontologien)
  • Datei-/Bildverwaltung
  • Projektverwaltung
  • Auswertungs-/Abfrageoptionen
  • Automatisierungen
  • Crowdsourcing, Möglichkeit zum Einbezug von Laien oder Externen
  • Nachhaltigkeit der Plattform bzw. der darin enthaltenen Daten
  • Updates bis 2018

Im Panel selbst wurden die Systeme von Lambert Schomaker (MONK), Mirjam Blümm (TextGrid), Thomas Burch (Transcribo) und Tobias Hodel (Transkribus) vorgestellt, moderiert wurde das Panel von Michael Piotrowski (Université de Lausanne).

[...]

Quelle: http://dhd-blog.org/?p=7810

Weiterlesen

Stellenangebot: zwei Programmierer/innen (50%-Anstellung) Projekt histHub

Die Rechtsquellenstiftung des Schweizerischen Juristenvereins sucht per 1. Juni 2017

zwei Programmierer/innen (50%-Anstellung)

die im Rahmen des interdisziplinären Kooperationsprojekt histHub eine digitale Forschungsinfrastruktur für geisteswissenschaftliche Daten aufbauen. Das Ziel ist Erschliessung von Daten zu historischen Personen, Sachen, Orten und Konzepten dank verschiedener Zugriffsformen, die Entwicklung von Thesauri in drei Landessprachen sowie die multilaterale Verlinkung der Daten inkl. Anreicherung mit Normdaten. Die Finanzen sind für eine einjährige Projektzeit gesichert (mit Option auf Verlängerung).

Wir bieten:

  • Spannende Mitarbeit am Aufbau eines Datenhubs und eines Laboratory für Linked Open Data zu historischen Entitäten der Schweiz
  • Persönliche Arbeitsgestaltung, Arbeitsort Zürich
  • Lohn entsprechend den Vorgaben des Schweizerischen Nationalfonds
  • Kleines, hochmotiviertes, interdisziplinäres Team

Sie bringen mit:



[...]

Quelle: http://dhd-blog.org/?p=7678

Weiterlesen

Stellenangebot: operative/r Leiter/in Projekt histHub (60–80 %)

Consortium Historicum sucht eine/n

operative/n Leiter/in Projekt histHub (60–80 %)

Das interdisziplinäre Kooperationsprojekt histHub der Rechtsquellenstiftung des Schweizerischen Juristenvereins, der Diplomatischen Dokumente der Schweiz, des Historischen Lexikons der Schweiz, des Schweizerdeutschen Wörterbuchs und des Portals der schweizerischen Ortsnamenforschung leistet einen Beitrag zur umfassenden Förderung von Linked Open Data zu historischen Entitäten aller Epochen und Regionen der Schweiz. Hauptziel von histHub ist der Aufbau einer Infrastruktur, welche die Produktion, Kuration und Nutzung von qualitativ hochstehenden Forschungsdaten über die Sprachgrenzen hinweg langfristig ermöglicht und fördert. histHub entwickelt, betreut und verbreitet dringend benötigte digitale Open-Source-Werkzeuge, damit die Methoden und Technologien der Digital Humanities im Prozess der wissenschaftlichen Datenproduktion rechtzeitig zur Anwendung kommen. Unter Vorbehalt der Finanzierung wird die Stelle per 1.1.2017 oder nach Vereinbarung besetzt.

Wir bieten:



[...]

Quelle: http://dhd-blog.org/?p=7371

Weiterlesen

Neuer Masterstudiengang in Mainz: Digitale Methodik in den Geistes- und Kulturwissenschaften

Erstmals zum Wintersemester 2016/2017 bieten die Johannes Gutenberg-Universität und die Hochschule Mainz gemeinsam diesen hochschulübergreifenden Masterstudiengang an. Im Mittelpunkt des Studienangebots steht die angewandte Informatik in geisteswissenschaftlichem Kontext.

Digitale Daten und Anwendungen werden in wachsendem Maße zur Untersuchung geistes- und kulturwissenschaftlicher Fragestellungen eingesetzt. Gleichzeitig verändert das Internet und seine Anwendungsfelder die Art und Weise, wie Wissen entsteht, repräsentiert und kommuniziert wird. Dieses Wissenschaftsfeld wird heute auch mit den Begriffen „Digital Humanities“ oder „eHumanities“ bezeichnet. Für die Informatik stellt die Repräsentation der überaus vielfältigen, heterogenen Information der Geistes- und Kulturwissenschaften neue Herausforderungen. Zu bewältigen sind sie nur mit einem grundlegenden Verständnis für die Genese der Daten, die Fragestellungen und Herangehensweisen der Geistes- und Kulturwissenschaften. Andererseits wiederum können die Geistes- und Kulturwissenschaften die Wirkungsweise von digitaler Information und Algorithmik auf ihre Forschungsfragen nur beurteilen, wenn sie ein Verständnis für informationstechnischen Zusammenhänge entwickeln.

[...]

Quelle: http://dhd-blog.org/?p=6696

Weiterlesen

Methodenworkshop »Techniken der digitalen Edition für die historisch arbeitenden Textwissenschaften«

  • Veranstalter: Leibniz-Institut für Europäische Geschichte (IEG, http://www.ieg-mainz.de/) und DARIAH-DE (http://de.dariah.eu)
  • Ort: Leibniz-Institut für Europäische Geschichte, Alte Universitätsstraße 19, 55116 Mainz
  • Beginn: 29. Januar 2014, 14.00 Uhr
  • Ende: 30. Januar, 13.00 Uhr

Die Vorrangstellung der Informationsstrukturierung und -vermittlung in Form gedruckter Bücher hat durch den Übergang von traditionellen hin zu neuen, digitalen Formen der Erschließung und Repräsentation von Texten an Bedeutung verloren. Zunehmend lösen digitale Texte die »klassischen« Medien ab. Infolge dieser Entwicklung wird vom Wissenschaftsrat in seinen publizierten Empfehlungen zu »Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften« empfohlen, »sich nachhaltig für einen Ausbau forschungstauglicher Digitalisierungen« einzusetzen; auch auf wissenschaftspolitischer Ebene können die Vorteile der digitalen Erschließung und Aufbereitung als unbestritten gelten.

Vor diesem Hintergrund und den daraus resultierenden vielfältigen Möglichkeiten der Digital Humanities möchte der vom IEG im Rahmen von DARIAH-DE (gefördert vom Bundesministerium für Bildung und Forschung) organisierte Workshop Grundlagen, Methoden und Techniken von Digitalen Editionen für die historisch arbeitenden Textwissenschaften vermitteln und bereits vorhandene Lösungsansätze und -szenarien mit den Teilnehmern diskutieren. Der Methodenworkshop ist Teil einer Veranstaltungsreihe von DARIAH-DE, die in Kooperation mit Partnerinstitutionen mit unterschiedlichen geisteswissenschaftlichen Schwerpunkten durchgeführt werden.

Der Methodenworkshop nimmt thematisch die Forderung nach dem Ausbau forschungstauglicher Digitalisierungen in Form von »digitalen Editionen« auf. Digitale Editionen sollen dabei das klassische Editionskonzept nicht verwerfen, sondern ergänzen, weil auch dort das Ergebnis der Arbeit darin bestand, mehrere Schichten von Informationen (z.B. in Form von Erläuterungen, inhaltlichen Anmerkungen, Angaben von Textvarianten, bibliographischen Angaben usw.) zu einem Text zu sammeln, zu systematisieren und dem Nutzer in Form eines abgeschlossenen Werks zur Verfügung zu stellen. Mit anderen Worten, beim klassischen Editionsmodell handelt es sich bereits um einen Hypertext. Die Schichtenstruktur klassischer Editionen lässt sich digital leichter – und konsequenter – abbilden. Dabei können viele Beschränkungen des konventionellen Buchdrucks überwunden werden, insbesondere diejenigen, die die materielle Überlieferung betreffen (visuelle Wiedergabe des Textes, Informationsumfang). Gleichzeitig kommen ganz neue Möglichkeiten hinzu wie Mehrdimensionalität und Modifizierbarkeit.

Der Methodenworkshop widmet sich konkret der Frage: Was bedeutet Digitalisierung im Kontext historischer Editionen? Wo müssen Schwerpunkte gesetzt werden, um aus komplexen Textstrukturen digitale Objekte zu erzeugen? Und vor allem: Wie müssen diese Textstrukturen aufbereitet werden, um aus ihnen eine digitale Edition zu formen?

Eine grundlegende Technik zur Erstellung von Digitalen Editionen bilden die Auszeichnungsstandards der Text Encoding Initiative (TEI). TEI wurde als XML-basierte Auszeichnungssprache speziell für die Zwecke der Geisteswissenschaften konzipiert und stellt mittlerweile einen De-facto-Standard für die wissenschaftliche Textkodierung dar, die wiederum als Grundlage für die Aufarbeitung von Texten zu betrachten ist.

Im Rahmen des Workshops werden Grundkenntnisse im Bereich der Textkodierung mit XML/TEI, der Weiterverarbeitung XML-kodierter Daten sowie ihrer Aufbereitung vermittelt, die  als Grundlage für die Erstellung von digitalen Editionen dienen.

Am ersten Tag werden zunächst die Grundlagen von Konzeption und Planung digitaler Ausgaben an zwei konkreten Editionsprojekten (Briefedition Alfred Escher & Kritische Online-Edition der Nuntiaturberichte von Eugenio Pacelli 1917–1929) erläutert. Ausgehend davon können unterschiedliche Konzepte digitaler Editionen diskutiert sowie der jeweils damit verbundene Aufwand und die Anwendbarkeit für verschiedene editorische Fragestellungen/Bedürfnisse thematisiert werden.

Am zweiten Tag sollen sich die Teilnehmer, nach einer knappen allgemeinen Einführung in XML, anhand von kleinen Übungen in die Praxis der Textauszeichnung mit TEI einarbeiten und einen Überblick über die Bedeutung und die verschiedenen Module dieser Sprache erhalten. Vordergründiges Ziel dieser »hands-on session« ist es, die Teilnehmer zum selbstständigen Umgang mit den TEI-Guidelines anzuleiten, um ihnen so ein Werkzeug in die Hand zu geben, mit dem sie später im Rahmen ihrer Projekte selbst arbeiten können.

Der Methodenworkshop ‘Techniken der digitalen Edition für die historisch arbeitenden Textwissenschaften’ richtet sich an alle historisch arbeitenden Textwissenschaftler und möchte insbesondere Nachwuchswissenschaftler (Doktoranden und Post-Doktoranden), aber auch Forscher ansprechen, die sich in ihrem Forschungsalltag und in aktuellen Projekten mit Themen der Planung und Erstellung von Digitalen Editionen beschäftigen.

Um einen reibungslosen Ablauf zu gewährleisten, werden die Teilnehmer gebeten, ihre eigenen Notebooks mitzubringen, so dass gemeinsam anhand von Beispieldaten einige Tools und Anwendungsszenarien getestet werden können. Es besteht ferner die Möglichkeit, dass die Teilnehmer vor Workshopbeginn Daten aus ihren eigenen Forschungsprojekten einreichen, um mithilfe dieser Daten exemplarische Erfassungsprobleme thematisieren und Anwendungsoptionen diskutieren zu können.

Das ausführliche Programm des Workshops, weiterführende Informationen und ggf. weitere Aktualisierungen werden auf www.staff.uni-mainz.de/marcuhel/methods2014 veröffentlicht.

Die Teilnehmerzahl ist auf 20 begrenzt.

Bewerbungen zur Teilnahme am Workshop sind ab sofort bis zum 18. Dezember 2013 möglich. Eine verbindliche Einladung erfolgt am 20. Dezember 2013.

Für die Bewerbung senden Sie bitte eine E-Mail mit einem kurzen Lebenslauf und einem kurzen Motivationsschreiben (jeweils max. eine Seite) an: aurast@ieg-mainz.de und held@ieg-mainz.de.

Bei inhaltlichen oder organisatorischen Rückfragen wenden Sie sich bitte an:

Quelle: http://dhd-blog.org/?p=2626

Weiterlesen

Kurzbericht zum DARIAH-DE-Expertenworkshop »Controlled Vocabularies for Historical Place Types«

Am 10. und 11. November fand in der historischen Domus universitatis in Mainz, dem Sitz des Leibniz-Instituts für Europäische Geschichte (IEG) ein DARIAH-DE-Expertenworkshop zum Thema »kontrollierte Vokabulare für Typen historischer Orte« statt. Diese Thematik ist ein Schwerpunkt der  Arbeiten des IEG in DARIAH-DE, wobei der räumliche und zeitliche Fokus dabei zunächst auf dem mittelalterlichem und frühneuzeitlichen Europa liegt. Das Ziel des Workshops war es, Experten aus verschiedenen Disziplinen an einen Tisch zu holen und Prinzipien für die Entwicklung eines kontrollierten Vokabulars für historische Ortstypen und eine ersten Version eines Grundvokabulars zu entwickeln.

expert_workshop

Der Expertenworkshop in Mainz war durch intensive Diskussionen, aber auch durch große Übereinstimmung zwischen den Teilnehmern gekennzeichnet.

Am Workshop nahmen 19 Experten aus Deutschland, Österreich, der Schweiz, Frankreich, Polen, Großbritannien und Norwegen und natürlich die Organisatoren vom IEG (Michael Piotrowski, Giovanni Colavizza und Anna Aurast) teil. Am ersten Tag eröffnete Giovanni Colavizza den Workshop mit einer Einführung in das Thema unter dem Titel »Kontrollierte Vokabulare und Geisteswissenschaften: Probleme einer Beziehung« und stellte den Ansatz des Projekts, nämlich die funktionale Kategorisierung von historischen Ortstypen, vor und beschrieb die damit verbundenen Herausforderungen. Anschließend fand eine erste Diskussion, verbunden mit einer Vorstellungsrunde statt.

Im Anschluss stellten mehrere der eingeladenen Experten ihre Projekte vor:

  • Francesco Beretta und Charlotte Butez (CNRS/Université de Lyon): »The SyMoGIH project (Système modulaire de gestion de l’information historique) and the issue of the historical place types«
  • Marco Jorio (Historisches Lexikon der Schweiz): »Geographical categories in the Historical Lexicon of Switzerland«
  • Luc Schneider (Universität des Saarlandes): »On Sites and Functions: the BFO approach (Basic Formal Ontology)«
  • Franziska Ruchti (Diplomatische Dokumente der Schweiz): »The DODIS Database – geriatric challenges of a fountain of youth«).
  • Kai-Christian Bruhn (Fachhochschule Mainz): »On the use of controlled vocabularies at the Institute for Spatial Information and Surveying Technology«
  • Bogumił Szady (Instytut Historii Polskiej Akademii Nauk): »Sacral objects and church administration units as a subject of historical spatio-temporal databases«
  • Pascale Sutter (Rechtsquellenstiftung des Schweizerischen Juristenvereins): »Places in the Collection of Swiss Law Sources«
  • Marek Słoń (Instytut Historii Polskiej Akademii Nauk): »Types of settlements in Poland in the 16th century.

Abschließend wurden die Erkenntnisse aus den Präsentationen und das Projekt des IEG miteinander verglichen und diskutiert. Das gemeinsame Abendessen fand – passend zum Thema des Workshops – im »Heiliggeist« statt, das sich in einem 1236 ursprünglich als Spital erbauten Gebäude befindet, dessen wechselvolle Geschichte sehr gut die Problematik der Klassifikation historischer Orte illustriert.

Am zweiten Tag des Workshops fand zunächst intensive Arbeit in zwei Gruppen statt, fokussiert auf das Vorhaben des IEG-Projektes zur funktionalen Kategorisierung von historischen Ortstypen.  Eine Gruppe beschäftigte sich anhand von konkreten Beispielen historischer Orte mit den Funktionen, die verschiedenen Typen von Orten inhärent sind; in der anderen Gruppe anderen wurde über konzeptuelle Ansätze und Beschreibungsformalismen diskutiert. Anschließend wurden im Plenum die Ergebnisse aus den beiden  Gruppen analysiert. Zum Abschluss wurden die Ergebnisse des Workshops und die zukünftige Arbeit besprochen.

Durch den Workshop gelang es uns, eine Diskussion über kontrollierte Vokabulare für Ortstypen anzustoßen, die aus verschiedenen Fach- und Forschungsperspektiven geführt wurde. Durch die Veranstaltung ist eine kleine Community von interessierten Wissenschaftlern aus verschiedenen Fachrichtungen entstanden, die noch weiter wachsen soll. Der von IEG vorgeschlagene Ansatz wurde ausführlich diskutiert, verbessert und wird zurzeit weiter entwickelt und implementiert.

In der Zukunft wollen wir weitere wissenschaftliche Communities einbinden, um sinnvolle Erweiterungen des Vokabulars zu diskutieren. Parallel sollen grundlegenden Prinzipien für kontrollierte Vokabulare in den Geisteswissenschaften erforscht werden, um die Entwicklung von weiteren Vokabularen für andere Anwendungen in der nächsten Projektphase vorzubereiten.

Quelle: http://dhd-blog.org/?p=2589

Weiterlesen

Computerlinguistik und Digital Humanities

In einem Kommentar zu meinem Kurzbericht von der GSCL 2013 hat Patrick Sahle folgendes geschrieben:

Das finde ich spannend: Computerlinguistik/Sprachtechnologie ist
nach diesem Beitrag KEIN “Teil” von DH, sondern macht (auch) Sachen,
die für DH relevant sind.

Michael, könntest Du ein paar Hinweise dazu geben,
a) wieso CL/ST nicht als Teil der DH aufzufassen sind und
b) wie Du DH definierst, so dass man daraus ableiten kann, welche
CL/ST-Themen für die DH einschlägig/relevant/interessant sind
?
Das würde bei mir vermutlich vieles erhellen.

Ich möchte hier zunächst Frage (a) beantworten, also die Frage, ob Computerlinguistik (CL) und Sprachtechnologie (NLP) ein »Teil« der Digital Humanities sind. Diese Frage führt natürlich direkt zur Frage, was die Digital Humanities sind. In meinem Buch definiere ich sie wie folgt:

The emerging field of digital humanities aims to exploit the possibilities offered by digital data for humanities research. The digital humanities combine traditional qualitative methods with quantitative, computer-based methods and tools, such as information retrieval, text analytics, data mining, visualization, and geographic information systems (GIS).

Nach meiner Definition ist DH also die Ergänzung traditioneller geisteswissenschaftlicher Methoden durch rechnergestützte quantitative Methoden und Werkzeuge zur Beantwortung geisteswissenschaftlicher Forschungsfragen.

Was ist unter CL und NLP zu verstehen? CL und NLP hängen eng zusammen, im üblichen Sprachgebrauch wird CL meist für stärker linguistisch und theoretisch orientierte Forschung verwendet, während NLP nicht umsonst oft auch als »language engineering« bezeichnet wird: Hier geht es nicht um linguistische Forschungsfragen, sondern primär darum, effektive und effiziente Algorithmen, Datenstrukturen usw. für die Verarbeitung natürlicher Sprachen zu erforschen und für praktische Anwendungen nutzbar zu machen. Ein gutes Beispiel dafür ist die aktuelle Forschung im Bereich der maschinellen Übersetzung (MÜ).
Diese Definition nimmt bereits einen Teil der Antwort vorweg: NLP ist meines Erachtens kein Teil der DH, da sich NLP nicht mit geisteswissenschaftlichen Forschungsfragen beschäftigt. Die Situation ist vergleichbar mit der Rolle von NLP in der Pharmaforschung: Biomedizinisches Textmining spielt ein wichtige Rolle, dennoch ist Sprachtechnologie kein Teil der Pharmazie.

Auch wenn NLP kein Teil der DH ist, ist NLP aber eine wichtige Grundlage, oder, wie ich es in meinem Buch (S. 10) ausgedrückt habe: »NLP—and NLP for historical texts in particular—should be considered a foundation for the emerging discipline of digital humanities.«
Wenn Computerlinguistik und Sprachtechnologie nicht das selbe sind, wie sieht es dann mit der Computerlinguistik aus? Die Linguistik wird ja üblicherweise zu den Geisteswissenschaften gerechnet.

Zunächst ist hier zu beachten, dass die Linguistik eine der »naturwissenschaftlichsten« geisteswissenschaftlichen Disziplinen ist; ihre Methoden unterscheiden sich deutlich von – zum Beispiel – der Geschichtswissenschaft oder der Literaturwissenschaft.
Dazu kommt, dass sich die Computerlinguistik in den letzten 50 Jahren weitgehend von der Linguistik emanzipiert hat. Natürlich gibt es noch Forscher in der Computerlinguistik, die linguistische Fragestellungen bearbeiten, der Mainstream hat sich aber stark in Richtung NLP entwickelt. Wissensfreie statistische Verfahren haben sich etabliert, und angesichts der schnellen Erfolge, die man mit ihnen insbesondere in der MÜ erreicht hat, muss man sich heutzutage für regelbasierte, linguistisch motivierte Ansätze oft rechtfertigen. Die geringe Rolle der Linguistik in der Computerlinguistik wird andererseits aber auch seit einiger Zeit innerhalb der CL diskutiert (siehe etwa die Proceedings des EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics oder die Artikel Computational Linguistics: What About the Linguistics? von Karen Spärck Jones und What Science Underlies Natural Language Engineering? von Shuly Wintner).

Ich würde daher auch die heutige CL nicht – jedenfalls nicht als Ganzes – als Teil der DH betrachten. Da die CL aber eine der Grundlagen für NLP sind, sind sie auch eine Grundlage für DH.

CL-Forschung mit einer stärkeren linguistischen Ausrichtung – also quasi die »klassische« CL, bei der es um die rechnergestützte Modellierung sprachlicher Phänomene geht, um ein besseres Verständnis von natürlicher Sprache zu erreichen – könnte man durchaus als Teil der DH betrachten, diese Forschung ist aber heute eher in der Korpuslinguistik angesiedelt.
Die Antwort auf die Frage (a) ist jetzt schon recht lang geraten, daher werde ich mich mit (b) in einem weiteren Beitrag beschäftigen.

Quelle: http://dhd-blog.org/?p=2532

Weiterlesen

Kurzer Bericht von der GSCL 2013 in Darmstadt

Die diesjährige Tagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2013) fand vom 25. bis zum 27. September 2013 an der TU Darmstadt statt, mit Workshops am 23. September und Tutorials am 24. September. Ich berichte aus zwei Gründen hier im DHd-Blog über die GSCL 2013: Zum einen hat man mich freundlich darum gebeten, zum anderen wies GSCL 2013 eine bemerkenswerte Anzahl von Beiträgen mit DH-Bezug auf.

Zu den Workshops kann ich leider nichts sagen, da ich am Montag noch nicht in Darmstadt war, hier verweise ich aufs Workshop-Programm. Im Tutorial-Programm am Dienstag waren die Digital Humanities zweifach vertreten, vormittags mit meinem Tutorial »Natural Language Processing for Historical Texts« (Folien), nachmittags mit »Text Analysis and Mining for Digital Humanities« (gehalten von Caroline Sporleder, Universität Trier).

Die eigentliche Konferenz wurde am 25. September mit einem eingeladenen Vortrag »Big Data and Text Analytics« von Hans Uszkoreit (DFKI) eröffnet. Danach gab es zwei parallele Sessions, von denen sich eine mit Sprachverarbeitung für Social-Media-Texten beschäftigte (Melanie Neunerdt, Bianka Trevisan, Michael Reyer, Rudolf Mathar: »Part-of-Speech Tagging for Social Media Texts«, Ines Rehbein: »Fine-Grained POS Tagging of German Twitter Data«, Manuel Burghardt, Alexander Bazo, Christian Wolff: »TWORPUS – An Easy-to-Use Tool for the Creation of Tailored Twitter Corpora«) und die andere mit computerlinguistischen Themen (Sabine Schulte Im Walde, Maximilian Köper: »Pattern-based Distinction of Paradigmatic Relations for German Nouns, Verbs, Adjectives«, Noëmi Aepli, Martin Volk: »Reconstructing Complete Lemmas for Incomplete German Compounds«, Thomas Bögel, Anette Frank: »A Joint Inference Architecture for Global Coreference Clustering with Anaphoricity«).

Nach der Mittagspause trugen die Kandidaten für den GSCL-Preis für die beste studentische Abschlussarbeit vor:

  • Marcel Bollmann (Ruhr-Universität Bochum): »Automatic Normalization for Linguistic Annotation of Historical Language Data« – auch das ein Thema mit starkem Digital-Humanities-Bezug –,
  • Yevgen Chebotar (TU Darmstadt): »Dialog Act Classification in Wikipedia Discussion Pages« und
  • Steffen Remus: »Automatically Identifying Lexical Chains by Means of Statistical Methods – A Knowledge-Free Approach«.

Im Anschluss fand die Mitgliederversammlung der GSCL statt. Aus DH-Perspektive ist insbesondere berichtenswert, dass die Mitglieder einstimmig die Einrichtung des Arbeitskreises »CL4DH: Computerlinguistik für Digital Humanities« guthießen. Der Arbeitskreis wird von Anette Frank (Universität Heidelberg) und Anke Lüdeling (HU Berlin) geleitet. Ziel des Arbeitskreises ist es, die Leistungsfähigkeit computerlinguistischer Werkzeuge und Verfahren für den Einsatz in den Digital Humanities zu verbessern. Hierfür sollen spezielle Bedürfnisse, Fragestellungen und Interessensgebiete aus den Digital Humanities in eine gemeinsame Forschungsagenda aufgenommen werden. Außerdem sollen Desiderata der aktuellen computerlinguistischen Forschung für das Deutsche analysiert werden, um durch Community-Aktivitäten die Qualität computerlinguistischer Werkzeuge für den Einsatz in den Digital Humanities zu verbessern. Weitere Informationen zum Arbeitskreis finden sich auf seiner Webseite.

Der Donnerstag begann mit einer Poster-Session. Aus einer DH-Perspektive möchte ich hier vor allem die Poster »Technological Support for Older Germanic Languages« (Christian Chiarcos, Timothy Price, Maria Sukhareva) und »Erkennung interpersonaler Relationen in XML-kodierten Texten mit lokalen Grammatiken« (Sophia Stotz, Valentina Stuss) hervorheben.

Bei den folgenden parallelen Paper-Sessions hatte vor allem Claes Neuefeinds Vortrag »Collaboratively Building Corpora – a Case Study for Romansh« einen DH-Bezug. Nach der Mittagspause gab es eine weitere Poster-Session, bei der auch wieder mehrere Arbeiten mit DH-Bezug vorgestellt wurden, etwa »Building and Analyzing a Massively Parallel Bible Corpus« (Thomas Mayer, Michael Cysouw) und »Computational Humanities« (Alexander Mehler, Rüdiger Gleim, Andy Lücking, Giuseppe Abrami, Tim vor der Brück, Zahurul Islam, Armin Hoenen).

Anschließend gab es einen weiteren eingeladenen Vortrag, »Distributed Wikipedia LDA« von Massimiliano Ciaramita. Danach wurde der GSCL-Preis für die beste studentische Abschlussarbeit verliehen, und zwar an Marcel Bollmann – und damit für eine Arbeit mit starkem DH-Bezug, siehe oben. Der Tag endete mit dem sehr gelungenen Konferenzdinner im Biergarten »Zum Scheinheil’gen«.

Der Freitag begann mit dem eingeladenen Vortrag »Multimodal Sentiment Analysis« von Rada Mihalcea und der Verleihung der GSCL-Ehrenmitgliedschaft an Burghard Rieger. Leider konnte ich an der abschließenden Kaleidoskop-Session nicht mehr teilnehmen, an der weitere Arbeiten mit DH-Bezug vorgestellt wurden; dazu gehörten die Vorstellung des Arbeitskreises »Computerlinguistik für Digital Humanities« durch Anette Frank und Anke Lüdeling, »Digital Humanities Text Analysis: Needs and Deeds« von Sabine Bartsch und Andrea Rapp, »SeNeReKo – Netzwerkanalyse für die Religionsgeschichte« von Frederik Elwert und »Graph Databases for the Exploration of Large Corpora in the eHumanities« von Thomas Efer.

Je nach Forschungsfrage sind natürlich noch weitere als die genannten Vorträge und Poster für Forscher in den Digital Humanities interessant; ich habe mich hier auf die beschränkt, bei denen der Bezug explizit ist und verweise auf die Proceedings. Festzuhalten ist auf jeden Fall, dass die Digital Humanities in der Computerlinguistik als interessantes Anwendungsgebiet wahrgenommen werden und sich als solches auch etabliert haben.

 

 

Quelle: http://dhd-blog.org/?p=2418

Weiterlesen