Text as a Resource. Text Mining in Historical Science #dhiha7

International Symposium at the German Historical Institute Paris (DHIP)

June 29-30, 2017

DHIP, 8, rue du Parc Royal, 75003 Paris

Organized by Mareike König (DHIP), Marie Puren (INRIA) and Matthias Lemke (DHIP) in collaboration with the working group “Digital Humanities” of the Max Weber Foundation

With the financial support of DARIAH-ERIC and the Max Weber Foundation.

Please register under event@dhi-paris.fr

 

Thursday, June 29, 2017



[...]

Quelle: http://dhdhi.hypotheses.org/2714

Weiterlesen

#oat2016 Open Library Badge. Ein Anreizsystem für mehr Offenheit in Bibliotheken

http://dx.doi.org/10.5281/zenodo.153920 Ziel der Initiative Open Library Badge (OLB) ist es, ein Anreizsystem für Bibliotheken zu schaffen, die das Konzept der Offenheit verfolgen. Der Badge soll entsprechende Aktivitäten und Angebote von Bibliotheken sichtbar machen. Er richtet sich sowohl an die Fachöffentlichkeit als auch an die eigenen NutzerInnen und soll eine Belohnung für den bibliothekarischen Einsatz für mehr Offenheit in Wissenschaft und Gesellschaft […]

Quelle: http://www.einsichten-online.de/2016/12/6847/

Weiterlesen

Zurück zum Kerngeschäft

In der letzten Zeit habe ich hier eine Reihe aktueller Projekte und Projektideen vorgestellt, an denen ich beteiligt bin.1 Diese sind auf Kooperationen mit Historikern (autoChirp), Literaturwissenschaftlern (tiwoliJ) und Kunstgeschichtlerinnen (Cheiron) zurückzuführen, decken also einen relativ weiten Bereich des (zugegebenermaßen noch immer unüberschaubaren) Spielfelds der Digital Humanities ab. Einerseits bin ich sehr froh darum, die Gelegenheit zu haben, auf diesem Feld weit herumzukommen. Andererseits verliere ich darüber ungern mein Kerngeschäft als Computerlinguist aus den Augen und möchte es natürlich auch hier im Blog zumndest ab und an gewürdigt wissen. Da trifft es sich gut, dass just heute ein Beitrag erschienen ist, an dem ich mitgearbeitet habe und der genau dieses Kerngeschäft betrifft.

Natürlich haben auch die oben aufgeführten Projekte immer eine Schnittstelle zur Computerlinguistik, die einen eine größere (bei Cheiron geht es explizit um TextMining in einem kunstgeschichtlichen Korpus), die anderen eher eine am Rand (autoChirp hat auch eine Funktion, mit der Wikipedia-Artikel automatisch analysiert werden, allerdings nur in Hinsicht auf das Vorkommen von Zeitreferenzen). Die finanzielle Lage und das Zeitmanagement ist bei diesen kleinen Projekten immer etwas prekär, zwischendurch bekommt man mal eine Anschubfinanzierung, dann sind Gelder aus irgendwelchen Förderfonds oder Programmpauschalen übrig, schließlich ist es möglich, Studierende im Rahmen ihrer Studienleistungen an etwas arbeiten zu lassen, das sich nachher als etwas Nutzbares oder als Kristallisationspunkt für einen neuen Projektantrag herausstellt. Allerdings sind gute Leute eigentlich nur zu halten, wenn man sie auch einigermaßen anständig bezahlt.



[...]

Quelle: http://texperimentales.hypotheses.org/1863

Weiterlesen

Tagungsbericht zum <philtag n=“13″/>

Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, der 13. Workshop der Reihe abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr.

[...]

Quelle: http://dhd-blog.org/?p=6501

Weiterlesen

Was sind Digital Humanities? Definitionsfragen und Praxisbeispiele aus der Geschichtswissenschaft

14578927449_aa0a93e58f_k„Why can a computer do so little?“, so lautete 1976 die auf den ersten Blick überraschende Frage von Roberto Busa, den man gemeinhin als den Vater der Digital Humanities bezeichnet[1]. Tatsächlich steckt in diesem Satz eine der grundsätzlichen und bis heute gültigen Fragestellungen bezüglich des Einsatzes von Computern und digitalen Methoden in den Geisteswissenschaften: Geht es darum, effizienter zu sein, menschliche Arbeit zu vereinfachen und Arbeitskraft zu sparen? Oder können Computer uns dabei helfen, neue wissenschaftliche Fragestellungen zu generieren und alte Fragestellungen systematischer, tiefer und besser zu beantworten? Ist auch letzteres der Fall – und davon soll hier ausgegangen werden – dann muss man, mit Willard McCarty, die Frage weitertreiben und nicht nur fragen, warum Computer so wenig können, sondern überlegen, warum Geisteswissenschaftlerinnen und Geisteswissenschaftler so wenig mit Computern machen[2]. Und: woher wissen wir eigentlich, dass es tatsächlich so wenig ist? Und weiter: Wenn es nicht so wenig ist oder mehr sein könnte, warum machen wir es dann so?[3]

Die Debatten um die Digital Humanities oder Humanities Computing wie sie bis ca. zum Jahr 2000 hießen, sind zahlreich und gehen mehrere Jahrzehnte zurück.

[...]

Quelle: http://dhdhi.hypotheses.org/2642

Weiterlesen

Was sind Digital Humanities? Definitionsfragen und Praxisbeispiele aus der Geschichtswissenschaft

14578927449_aa0a93e58f_k„Why can a computer do so little?“, so lautete 1976 die auf den ersten Blick überraschende Frage von Roberto Busa, den man gemeinhin als den Vater der Digital Humanities bezeichnet[1]. Tatsächlich steckt in diesem Satz eine der grundsätzlichen und bis heute gültigen Fragestellungen bezüglich des Einsatzes von Computern und digitalen Methoden in den Geisteswissenschaften: Geht es darum, effizienter zu sein, menschliche Arbeit zu vereinfachen und Arbeitskraft zu sparen? Oder können Computer uns dabei helfen, neue wissenschaftliche Fragestellungen zu generieren und alte Fragestellungen systematischer, tiefer und besser zu beantworten? Ist auch letzteres der Fall – und davon soll hier ausgegangen werden – dann muss man, mit Willard McCarty, die Frage weitertreiben und nicht nur fragen, warum Computer so wenig können, sondern überlegen, warum Geisteswissenschaftlerinnen und Geisteswissenschaftler so wenig mit Computern machen[2]. Und: woher wissen wir eigentlich, dass es tatsächlich so wenig ist? Und weiter: Wenn es nicht so wenig ist oder mehr sein könnte, warum machen wir es dann so?[3]

Die Debatten um die Digital Humanities oder Humanities Computing wie sie bis ca. zum Jahr 2000 hießen, sind zahlreich und gehen mehrere Jahrzehnte zurück.

[...]

Quelle: http://dhdhi.hypotheses.org/2642

Weiterlesen

<PhilTag nr=“13″/>

Am 25. und 26. Februar 2016 findet unter der Leitung von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der  Universitätsbibliothek Würzburg, der 13. Workshop der Reihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neuen Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

Einen Themenschwerpunkt in diesem Jahr bilden OCR-Verfahren, die vor allem am 1. Seminartag vorgestellt und von den Teilnehmern auch in der Praxis erprobt werden sollen. Der 2. Seminartag behandelt aktuelle Projekte der Digital Humanities mit besonderem Schwerpunkt auf Textmining-Verfahren.

[...]

Quelle: http://dhd-blog.org/?p=6047

Weiterlesen

Stellenausschreibung: Postdoktorand/in bzw. Doktorand/in im Bereich Text Mining/Machine Learning (bis TV-L 14 bzw. TV-L 13, ganztags)

An der Julius-Maximilians-Universität Würzburg ist in der Arbeitsgruppe DMIR (Data Mining and Information Retrieval Group) von Prof. Dr. Andreas Hotho zum nächstmöglichen Zeitpunkt die Stelle

einer/s Postdoktoranden/in oder einer/s Doktoranden/in im Bereich Text Mining/Machine Learning (bis TV-L 14 bzw. TV-L 13, ganztags)

befristet für zunächst zwei Jahre mit der Option auf Verlängerung bis mind. 31.3.2019, zu besetzen.



[...]

Quelle: http://dhd-blog.org/?p=5053

Weiterlesen

Umfrage zu “Text und Data Mining”

Liebe Kolleginnen und Kollegen,

Verlage versuchen in letzter Zeit vermehrt, Regelungen zu Text und Data Mining in Lizenzverträge aufzunehmen. Seitens der Bibliotheken und Konsortialgeschäftsstellen, die  solche Verträge verhandeln, wird dem sehr zurückhaltend begegnet. So lange nicht klar ist, welche inhaltlichen und technischen Voraussetzungen erfüllt sein müssen erscheint es nicht sinnvoll, weit in die Zukunft reichende Festlegungen zu treffen.

Um andererseits nicht auf Dauer ungeregelte Zustände zu haben und Regelungen möglichst im Sinne der Wissenschaft zu optimieren, hat die AG Lizenzen der Allianz-Initiative „Digitale Information“ eine Task Force „Text und Data Mining“ ins Leben gerufen. Ihr gehören zwei bibliothekarische Mitglieder an (Dr. Irina Sens, TIB Hannover und Dr. Bernhard Mittermaier, Forschungszentrum Jülich) sowie mit Dr. Christof Schöch (Uni Würzburg) ein Vertreter der Wissenschaft und mit Dr. Matthias Katerbow ein Vertreter der DFG.

Zur Feststellung des tatsächlichen Bedarfs hat die Task Force eine Umfrage konzipiert:
https://survey.uni-hannover.de/index.php/326967/lang-de.

Wir bitten Sie herzlich um Teilnahme. Die Umfrage wird bis zum 15.05.2015 online sein. Sie können den Link sehr gerne auch an Kolleginnen und Kollegen weitergeben. Wir sind an einem möglichst breiten Bild interessiert.

Mit Dank und freundlichen Grüßen,
Dr. Christof Schöch für die Task Force

Quelle: http://dhd-blog.org/?p=4940

Weiterlesen

Dozenten-Nähkästchen (II) – Seminarplanung

Im beginnenden Semester habe ich die Möglichkeit (wie hier berichtet), an Stelle eines meiner Pflichtkurse ein neu völlig zusammengestelltes Seminar anzubieten. Dazu ist zwar einiges an Organisation nötig, die man irgendwann vor Beginn des Semesters oder zumindest der ersten Vorlesungswoche (also vor heute) hinbekommen haben muss. Lustigerweise hatte Kathrin Passig heute auch die richtigen Tweets dazu:

 

Nachdem ich ein Thema gefunden und geändert, mir einen Zeitslot und einen Raum ausgesucht habe, bzw. mir habe zuweisen lassen (das war auch schon ohne Großbaustelle an der Uni Köln schwer genug, ist mir aber wider Erwarten doch einigermaßen schnell gelungen), konnte ich mich an die inhaltliche Planung setzen, in die ich hier einen kurzen Einblick geben will.

Der formale Rahmen einer Uni-Veranstaltung wird meist dadurch vorgegeben, dass man 16 Doppelstunden zur Verfügung hat, die man auf eine Art füllen muss, welche die Studierenden weder langweilen noch überfordern sollte. Und am Ende mit dem Gefühl zurücklässt, dass sie inhaltlich und methodisch etwas dazugelernt haben.

Als erstes braucht man ein Thema, das eine Klammer um das bildet, was man im Kurs beabsichtigt zu tun. Wie es aussieht, habe ich gerade einen Auftrag für unser Institut an Land gezogen, bei dem es genau um die Evaluierung unterschiedlicher Text-Mining-Methoden geht. Dieser ist noch nicht ganz in trockenen Tüchern, deswegen kann ich hier noch keine konkreten Angaben machen. Vage geht es darum, aus einem sehr großen Korpus relativ homogener Texte Informationen zu extrahieren, um diese in strukturierter Form (Datenbank) abzulegen. Die dort zu behandelnden Texte haben eine Art von Binnenstruktur, d.h. sie zerfallen in der Regel in drei Teile. Es ist einfacher, Informationen aus ihnen zu extrahieren, wenn man weiß, in welchem der drei Textteile man zu suchen hat. So bietet sich an, vor der Informationsextraktion eine Textklassifikation vorzunehmen, in der man versucht, diese Teile im Gesamttext auszumachen und zu labeln (Demnächst vielleicht mal etwas konkreter).

Nun ist es durchaus sinnvoll, die beiden Aufgaben – Projektbetreuung und Seminarangebot – miteinander zu verknüpfen, so dass beide Aufgaben davon profitieren können. In diesem Fall ist es auch durchaus legitim, da die von mir angebotene Übung zum Modulslot  ”Angewandte Sprachverarbeitung” wie die Faust aufs Auge passt. Es bleibt aber noch zu überlegen, wie das Seminar aufgebaut sein kann, so dass die Studierenden davon auch bestmöglich profitieren.

Einerseits braucht es natürlich eine Einführung in den Bereich Text Mining und seine Unterdisziplinen Information Extraction und Text Categorization. Dafür galt es einführende Literatur zu finden, an der ich mich im Unterricht orientieren kann und die damit von den Studierenden als Grundlage für meine Ausführungen herangezogen werden kann (ich könnte denen ja sonstwas erzählen). Es gibt inzwischen eine Reihe recht annehmbarer Lehrbücher zu den Themen, deswegen wurde ich dort relativ schnell fündig. Allerdings setzen die entsprechenden Kapitel meist eine gewisse Grundbildung in induktiver Statistik voraus, wenn man die angewendeten Methoden tatsächlich auch von Grund auf verstehen will. Für die Studierenden kann ich das nicht unbedingt voraussetzen weswegen ich noch eine Einführung in dieses Thema angesetzt habe. Ein dritter – in unserem Studiengang sehr wichtiger Bereich – betrifft die konkrete Umsetzung des Gelernten in einer Software-Lösung.

Zusammengefasst besteht das Seminar aus aus drei Oberthemen – dem konkreten Anwendungsfall (aus dem Bereich Text Mining), dem zugrundeliegenden Handwerkszeug (induktive Statistik) sowie der Art und Weise der Umsetzung (Software Implementierung). Nach dieser Grob-Strukturierung entschloss ich mich erst einmal eine Mind Map anzulegen1, welche speziellen Themen behandelt werden müssten und wie diese zusammenhängen. Das erste Resultat ist dieses hier gewesen:

Course-Text-Mining_37e2acb0

Diese Mind Map gibt mir einen Überblick darüber, was ich in den zur Verfügung stehenden 16 Semesterwochenstunden ansprechen sollte und hilft mir bei der Gliederung des Seminars und der Verteilung von Aufgaben, die durch die Studierenden in Form von Kurzreferaten übernommen werden können. Damit bin ich zwar noch nicht ganz durch, aber es bleiben ja auch noch ein paar Stunden Zeit bis zur ersten Sitzung…

1Hab ich mit Bubbl gemacht, ging erstaunlich problemlos online https://bubbl.us/

Quelle: http://texperimentales.hypotheses.org/1042

Weiterlesen