Zurück zum Kerngeschäft

In der letzten Zeit habe ich hier eine Reihe aktueller Projekte und Projektideen vorgestellt, an denen ich beteiligt bin.1 Diese sind auf Kooperationen mit Historikern (autoChirp), Literaturwissenschaftlern (tiwoliJ) und Kunstgeschichtlerinnen (Cheiron) zurückzuführen, decken also einen relativ weiten Bereich des (zugegebenermaßen noch immer unüberschaubaren) Spielfelds der Digital Humanities ab. Einerseits bin ich sehr froh darum, die Gelegenheit zu haben, auf diesem Feld weit herumzukommen. Andererseits verliere ich darüber ungern mein Kerngeschäft als Computerlinguist aus den Augen und möchte es natürlich auch hier im Blog zumndest ab und an gewürdigt wissen. Da trifft es sich gut, dass just heute ein Beitrag erschienen ist, an dem ich mitgearbeitet habe und der genau dieses Kerngeschäft betrifft.

Natürlich haben auch die oben aufgeführten Projekte immer eine Schnittstelle zur Computerlinguistik, die einen eine größere (bei Cheiron geht es explizit um TextMining in einem kunstgeschichtlichen Korpus), die anderen eher eine am Rand (autoChirp hat auch eine Funktion, mit der Wikipedia-Artikel automatisch analysiert werden, allerdings nur in Hinsicht auf das Vorkommen von Zeitreferenzen). Die finanzielle Lage und das Zeitmanagement ist bei diesen kleinen Projekten immer etwas prekär, zwischendurch bekommt man mal eine Anschubfinanzierung, dann sind Gelder aus irgendwelchen Förderfonds oder Programmpauschalen übrig, schließlich ist es möglich, Studierende im Rahmen ihrer Studienleistungen an etwas arbeiten zu lassen, das sich nachher als etwas Nutzbares oder als Kristallisationspunkt für einen neuen Projektantrag herausstellt. Allerdings sind gute Leute eigentlich nur zu halten, wenn man sie auch einigermaßen anständig bezahlt.



[...]

Quelle: http://texperimentales.hypotheses.org/1863

Weiterlesen

Tagungsbericht zum <philtag n=“13″/>

Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, der 13. Workshop der Reihe abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr.

[...]

Quelle: http://dhd-blog.org/?p=6501

Weiterlesen

Was sind Digital Humanities? Definitionsfragen und Praxisbeispiele aus der Geschichtswissenschaft

14578927449_aa0a93e58f_k„Why can a computer do so little?“, so lautete 1976 die auf den ersten Blick überraschende Frage von Roberto Busa, den man gemeinhin als den Vater der Digital Humanities bezeichnet[1]. Tatsächlich steckt in diesem Satz eine der grundsätzlichen und bis heute gültigen Fragestellungen bezüglich des Einsatzes von Computern und digitalen Methoden in den Geisteswissenschaften: Geht es darum, effizienter zu sein, menschliche Arbeit zu vereinfachen und Arbeitskraft zu sparen? Oder können Computer uns dabei helfen, neue wissenschaftliche Fragestellungen zu generieren und alte Fragestellungen systematischer, tiefer und besser zu beantworten? Ist auch letzteres der Fall – und davon soll hier ausgegangen werden – dann muss man, mit Willard McCarty, die Frage weitertreiben und nicht nur fragen, warum Computer so wenig können, sondern überlegen, warum Geisteswissenschaftlerinnen und Geisteswissenschaftler so wenig mit Computern machen[2]. Und: woher wissen wir eigentlich, dass es tatsächlich so wenig ist? Und weiter: Wenn es nicht so wenig ist oder mehr sein könnte, warum machen wir es dann so?[3]

Die Debatten um die Digital Humanities oder Humanities Computing wie sie bis ca. zum Jahr 2000 hießen, sind zahlreich und gehen mehrere Jahrzehnte zurück.

[...]

Quelle: http://dhdhi.hypotheses.org/2642

Weiterlesen

Was sind Digital Humanities? Definitionsfragen und Praxisbeispiele aus der Geschichtswissenschaft

14578927449_aa0a93e58f_k„Why can a computer do so little?“, so lautete 1976 die auf den ersten Blick überraschende Frage von Roberto Busa, den man gemeinhin als den Vater der Digital Humanities bezeichnet[1]. Tatsächlich steckt in diesem Satz eine der grundsätzlichen und bis heute gültigen Fragestellungen bezüglich des Einsatzes von Computern und digitalen Methoden in den Geisteswissenschaften: Geht es darum, effizienter zu sein, menschliche Arbeit zu vereinfachen und Arbeitskraft zu sparen? Oder können Computer uns dabei helfen, neue wissenschaftliche Fragestellungen zu generieren und alte Fragestellungen systematischer, tiefer und besser zu beantworten? Ist auch letzteres der Fall – und davon soll hier ausgegangen werden – dann muss man, mit Willard McCarty, die Frage weitertreiben und nicht nur fragen, warum Computer so wenig können, sondern überlegen, warum Geisteswissenschaftlerinnen und Geisteswissenschaftler so wenig mit Computern machen[2]. Und: woher wissen wir eigentlich, dass es tatsächlich so wenig ist? Und weiter: Wenn es nicht so wenig ist oder mehr sein könnte, warum machen wir es dann so?[3]

Die Debatten um die Digital Humanities oder Humanities Computing wie sie bis ca. zum Jahr 2000 hießen, sind zahlreich und gehen mehrere Jahrzehnte zurück.

[...]

Quelle: http://dhdhi.hypotheses.org/2642

Weiterlesen

<PhilTag nr=“13″/>

Am 25. und 26. Februar 2016 findet unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der  Universitätsbibliothek Würzburg, der 13. Workshop der Reihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neuen Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bilden OCR-Verfahren, die vor allem am 1. Seminartag vorgestellt und von den Teilnehmern auch in der Praxis erprobt werden sollen. Der 2. Seminartag behandelt aktuelle Projekte der Digital Humanities mit besonderem Schwerpunkt auf Textmining-Verfahren.

[...]

Quelle: http://dhd-blog.org/?p=6047

Weiterlesen

Stellenausschreibung: Postdoktorand/in bzw. Doktorand/in im Bereich Text Mining/Machine Learning (bis TV-L 14 bzw. TV-L 13, ganztags)

An der Julius-Maximilians-Universität Würzburg ist in der Arbeitsgruppe DMIR (Data Mining and Information Retrieval Group) von Prof. Dr. Andreas Hotho zum nächstmöglichen Zeitpunkt die Stelle

einer/s Postdoktoranden/in oder einer/s Doktoranden/in im Bereich Text Mining/Machine Learning (bis TV-L 14 bzw. TV-L 13, ganztags)

befristet für zunächst zwei Jahre mit der Option auf Verlängerung bis mind. 31.3.2019, zu besetzen.



[...]

Quelle: http://dhd-blog.org/?p=5053

Weiterlesen

Umfrage zu “Text und Data Mining”

Liebe Kolleginnen und Kollegen,

Verlage versuchen in letzter Zeit vermehrt, Regelungen zu Text und Data Mining in Lizenzverträge aufzunehmen. Seitens der Bibliotheken und Konsortialgeschäftsstellen, die  solche Verträge verhandeln, wird dem sehr zurückhaltend begegnet. So lange nicht klar ist, welche inhaltlichen und technischen Voraussetzungen erfüllt sein müssen erscheint es nicht sinnvoll, weit in die Zukunft reichende Festlegungen zu treffen.

Um andererseits nicht auf Dauer ungeregelte Zustände zu haben und Regelungen möglichst im Sinne der Wissenschaft zu optimieren, hat die AG Lizenzen der Allianz-Initiative „Digitale Information“ eine Task Force „Text und Data Mining“ ins Leben gerufen. Ihr gehören zwei bibliothekarische Mitglieder an (Dr. Irina Sens, TIB Hannover und Dr. Bernhard Mittermaier, Forschungszentrum Jülich) sowie mit Dr. Christof Schöch (Uni Würzburg) ein Vertreter der Wissenschaft und mit Dr. Matthias Katerbow ein Vertreter der DFG.

Zur Feststellung des tatsächlichen Bedarfs hat die Task Force eine Umfrage konzipiert:
https://survey.uni-hannover.de/index.php/326967/lang-de.

Wir bitten Sie herzlich um Teilnahme. Die Umfrage wird bis zum 15.05.2015 online sein. Sie können den Link sehr gerne auch an Kolleginnen und Kollegen weitergeben. Wir sind an einem möglichst breiten Bild interessiert.

Mit Dank und freundlichen Grüßen,
Dr. Christof Schöch für die Task Force

Quelle: http://dhd-blog.org/?p=4940

Weiterlesen

Dozenten-Nähkästchen (II) – Seminarplanung

Im beginnenden Semester habe ich die Möglichkeit (wie hier berichtet), an Stelle eines meiner Pflichtkurse ein neu völlig zusammengestelltes Seminar anzubieten. Dazu ist zwar einiges an Organisation nötig, die man irgendwann vor Beginn des Semesters oder zumindest der ersten Vorlesungswoche (also vor heute) hinbekommen haben muss. Lustigerweise hatte Kathrin Passig heute auch die richtigen Tweets dazu:

 

Nachdem ich ein Thema gefunden und geändert, mir einen Zeitslot und einen Raum ausgesucht habe, bzw. mir habe zuweisen lassen (das war auch schon ohne Großbaustelle an der Uni Köln schwer genug, ist mir aber wider Erwarten doch einigermaßen schnell gelungen), konnte ich mich an die inhaltliche Planung setzen, in die ich hier einen kurzen Einblick geben will.

Der formale Rahmen einer Uni-Veranstaltung wird meist dadurch vorgegeben, dass man 16 Doppelstunden zur Verfügung hat, die man auf eine Art füllen muss, welche die Studierenden weder langweilen noch überfordern sollte. Und am Ende mit dem Gefühl zurücklässt, dass sie inhaltlich und methodisch etwas dazugelernt haben.

Als erstes braucht man ein Thema, das eine Klammer um das bildet, was man im Kurs beabsichtigt zu tun. Wie es aussieht, habe ich gerade einen Auftrag für unser Institut an Land gezogen, bei dem es genau um die Evaluierung unterschiedlicher Text-Mining-Methoden geht. Dieser ist noch nicht ganz in trockenen Tüchern, deswegen kann ich hier noch keine konkreten Angaben machen. Vage geht es darum, aus einem sehr großen Korpus relativ homogener Texte Informationen zu extrahieren, um diese in strukturierter Form (Datenbank) abzulegen. Die dort zu behandelnden Texte haben eine Art von Binnenstruktur, d.h. sie zerfallen in der Regel in drei Teile. Es ist einfacher, Informationen aus ihnen zu extrahieren, wenn man weiß, in welchem der drei Textteile man zu suchen hat. So bietet sich an, vor der Informationsextraktion eine Textklassifikation vorzunehmen, in der man versucht, diese Teile im Gesamttext auszumachen und zu labeln (Demnächst vielleicht mal etwas konkreter).

Nun ist es durchaus sinnvoll, die beiden Aufgaben – Projektbetreuung und Seminarangebot – miteinander zu verknüpfen, so dass beide Aufgaben davon profitieren können. In diesem Fall ist es auch durchaus legitim, da die von mir angebotene Übung zum Modulslot  ”Angewandte Sprachverarbeitung” wie die Faust aufs Auge passt. Es bleibt aber noch zu überlegen, wie das Seminar aufgebaut sein kann, so dass die Studierenden davon auch bestmöglich profitieren.

Einerseits braucht es natürlich eine Einführung in den Bereich Text Mining und seine Unterdisziplinen Information Extraction und Text Categorization. Dafür galt es einführende Literatur zu finden, an der ich mich im Unterricht orientieren kann und die damit von den Studierenden als Grundlage für meine Ausführungen herangezogen werden kann (ich könnte denen ja sonstwas erzählen). Es gibt inzwischen eine Reihe recht annehmbarer Lehrbücher zu den Themen, deswegen wurde ich dort relativ schnell fündig. Allerdings setzen die entsprechenden Kapitel meist eine gewisse Grundbildung in induktiver Statistik voraus, wenn man die angewendeten Methoden tatsächlich auch von Grund auf verstehen will. Für die Studierenden kann ich das nicht unbedingt voraussetzen weswegen ich noch eine Einführung in dieses Thema angesetzt habe. Ein dritter – in unserem Studiengang sehr wichtiger Bereich – betrifft die konkrete Umsetzung des Gelernten in einer Software-Lösung.

Zusammengefasst besteht das Seminar aus aus drei Oberthemen – dem konkreten Anwendungsfall (aus dem Bereich Text Mining), dem zugrundeliegenden Handwerkszeug (induktive Statistik) sowie der Art und Weise der Umsetzung (Software Implementierung). Nach dieser Grob-Strukturierung entschloss ich mich erst einmal eine Mind Map anzulegen1, welche speziellen Themen behandelt werden müssten und wie diese zusammenhängen. Das erste Resultat ist dieses hier gewesen:

Course-Text-Mining_37e2acb0

Diese Mind Map gibt mir einen Überblick darüber, was ich in den zur Verfügung stehenden 16 Semesterwochenstunden ansprechen sollte und hilft mir bei der Gliederung des Seminars und der Verteilung von Aufgaben, die durch die Studierenden in Form von Kurzreferaten übernommen werden können. Damit bin ich zwar noch nicht ganz durch, aber es bleiben ja auch noch ein paar Stunden Zeit bis zur ersten Sitzung…

1Hab ich mit Bubbl gemacht, ging erstaunlich problemlos online https://bubbl.us/

Quelle: http://texperimentales.hypotheses.org/1042

Weiterlesen

Dozenten-Nähkästchen (I)

In einem kleinen Fach wie der Informationsverarbeitung besteht das Curriculum – bedingt durch die sehr begrenzten Ressourcen – zu weiten Teilen aus Lehrveranstaltungen, deren Inhalte weitestgehend vorgegeben sind. Das geht natürlich auch zum Teil auf die Kappe des Bologna-Prozesses, in dessen Zuge u.a. Modulhandbücher eingeführt wurden, in denen bisweilen haarklein dokumentiert ist, was in welchen angebotenen Kursen für Inhalte behandelt werden müssen. Beziehungsweise muss das dort genau umgekehrt verschlüsselt werden – es zählt nicht der Input, also die Inhalte, die gelehrt werden, sondern der Outcome, mithin die Kompetenzen, welche die Besucher der Veranstaltung/des Veranstaltungsbündels im Modul erworben haben (sollten). Ob letzteres, was als toller Paradigmenwechsel gefeiert wurde, wirklich so viel sinnvollere Lehrveranstaltungen bedingt, sei dahingestellt. Ich selbst finde es gar nicht verkehrt, dass die Studierenden mit dem Modulhandbuch schwarz auf weiß bekommen, mit welchen Themen sie zu rechnen haben/was letztlich von ihnen verlangt wird und so weniger eventueller Willkür einzelner Dozentinnen oder Dozenten ausgesetzt sind.

Dass ich dem ganzen aufgeschlossen gegenüber stehe, liegt womöglich auch daran, dass ich jetzt schon lange genug dabei bin und die gegenwärtig geltenden Modulhandbücher sowie deren – hoffentlich im nächsten Jahr in Kraft tretenden – Nachfolger mitschreiben durfte. Oder musste. Und möglicherweise ist es leichter, wenn man sich an einen Plan halten muss, den man sich selbst ausgedacht hat. Lehrveranstaltungen, die über die Jahre nur schwach variieren, haben natürlich auch den Vorteil, dass sie in der Vorbereitung nur beim ersten Mal wirklich viel Arbeit machen. Ich habe in den letzten Jahren die je zweisemestrigen Kurse “Computerlinguistik” und “Softwaretechnologie: Java” (Seminar bzw. Programmierpraktikum) gegeben. Mit jedem Jahr wird die Vorbereitungszeit kürzer – die relevante Literatur ist gesichtet, Folien (bei denen bei mir eh immer nur wenig draufsteht) sind entworfen, Beispielanwendungen gefunden. Natürlich kommt bei so dynamischen Gebieten wie Computerlinguistik und Programmiersprachen immer etwas neues hinzu, das sich aber nach meiner Erfahrung relativ fix in einen bereits existierenden Plan einbetten lässt.

Pano-unikoeln-magnusplatz

Mit der Zeit wird es aber natürlich etwas langweilig, immer das gleiche zu unterrichten – bei aller Dynamizität der Inhalte. Deshalb habe ich schon in früheren Semestern mit Co-Dozenten Seminare zu ausgewählten Themen angeboten, die gerade ins Konzept passten (laufende Projekte, an denen ich gearbeitet habe oder Bereiche, die in meiner Dissertation eine Rolle spielten) und über mein Lehrdeputat, das ich verpflichtet bin, abzuleisten, hinausgingen. Mit mehr Fleiß hätte ich das vielleicht auch regelmäßig hinbekommen, es spielte hier aber auch eine Rolle, die Preise nicht zu verderben – es ergäben sich ja für die Bundesländer enorme Einsparpotentiale, wenn jeder Dozierende in seiner Freizeit regelmäßig zusätzliche Kurse ohne Bezahlung gäbe.

So war ich dann sehr froh, als wir am Institut Verstärkung bekommen haben und diese im nächsten Semester mein Programmierpraktikum übernehmen kann. Damit kann ich ein Seminar anbieten, dessen Inhalte ich weitgehend selbst bestimmen darf – es muss nur auf das Thema “Sprachverarbeitung” passen, was hinzukriegen sein dürfte. Eigentlich wollte ich diesen Blogpost dazu nutzen, zu beschreiben, auf welche Weise ein solches Seminar geplant werden kann. Das werde ich dann – so meine Bloglaune es will – im nächsten Teil berichten.

Bild: By A.Savin (Own work) [GFDL (http://www.gnu.org/copyleft/fdl.html) or CC-BY-SA-3.0-2.5-2.0-1.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Quelle: http://texperimentales.hypotheses.org/1026

Weiterlesen

CfP: TextMining in der Politikwissenschaft

LogoEpol3

Unter dem Titel “Anwendung von Text Mining-Tools auf demokratiebezogene Fragestellungen im Kontext der BR Deutschland (1949-2012)” laden die Verbundpartner von ePol dazu ein, mit einem Textdatenkorpus und Analysetools eigene Fragestellungen zu bearbeiten und Erfahrungen im Umgang mit Text Mining zu sammeln.

Das Projekt “ePol – Postdemokratie und Neoliberalismus”  untersucht ein Korpus von 3,5 Millionen Zeitungsartikeln mit Hilfe von Text Mining-Verfahren, um die Entwicklungen der politischen Argumentationsmuster im medialen Diskurs aufzuspüren. Der Call richtet sich an Forschende, die zu demokratiebezogenen Fragestellungen arbeiten und deren Vorhaben sich mithilfe des Textdatenkorpus realisieren lässt, das aus Artikeln der taz, FAZ, SZ und Die Zeit besteht und sich über 6 Jahrzehnte erstreckt. Interessierte können an einem Workshop teilnehmen, in dem die Arbeitstechniken mit der Analyseoberfläche erklärt und die Fragestellungen diskutiert werden. Die Ergebnisse der Arbeiten sollen dann in einem Sammelband veröffentlicht werden.

Weiter Informationen zum Call erhalten Sie hier.

 

Quelle: http://dhd-blog.org/?p=3037

Weiterlesen