Tagung ML-DSE: Programm & Anmeldung

Am 9. und 10. Juni 2022 findet an der Universität Rostock die Konferenz „Machine Learning and Data Mining for Digital Scholarly Editions“ statt. Ziel der Konferenz ist es, Forscher zu versammeln, die an der Schnittstelle der beiden Bereiche Digital Edition und Maschinelles Lernen/Data Mining arbeiten, und die Diskussion über die Anwendbarkeit von maschinellem Lernen und Data-Mining-Techniken im Bereich des digitalen wissenschaftlichen Editierens zu fördern.

Organisiert wird die Tagung vom Institut für Dokumentologie und Editorik, DH Rostock, dem Know Center und dem Centre for Information Modelling at the University of Graz. Sie wird von der Universität Rostock gefördert und von dem Projekt NEISS unterstützt.

Die Tagung findet in Rostock in Präsenz statt, kann aber auch virtuell besucht werden. Die Teilnahme ist kostenlos.

[...]

Quelle: https://dhd-blog.org/?p=17898

Weiterlesen

Frist verlängert – Machine Learning and Data Mining for Digital Scholarly Editions

Die Frist für die Einreichung von Beiträgen zur Tagung „Machine Learning and Data Mining for Digital Scholarly Editions“, die am 9. und 10. Juni 2022 an der Universität Rostock stattfinden wird, wurde verlängert: Beiträge können nun bis zum 1. März 2022 eingereicht werden.

Organisiert wird die Tagung vom Institut für Dokumentologie und Editorik, DH Rostock, dem Know Center und dem Centre for Information Modelling at the University of Graz. Sie wird von der Universität Rostock gefördert und von dem Projekt NEISS unterstützt.

Inhaltlich beschäftigt sich die Tagung mit Techniken des Data Mining und Machine Learning, die in mehreren Bereichen der Digital Humanities zunehmend eingesetzt werden, so auch im Bereich der Digitalen Editorik, etwa zur Texterkennung, zum Vergleich von Textzeugen oder zur Anreicherung von Texten mit sprachlichen oder semantischen Informationen. Ziel der Tagung ist es, gemeinsam über bestehende Ansätze zur Verwendung von Maschinellem Lernen und Data Mining im Workflow des digitalen Edierens zu diskutieren, diese zu reflektieren und über weitere, künftige Einsatzmöglichkeiten nachzudenken.

[...]

Quelle: https://dhd-blog.org/?p=17420

Weiterlesen

Call for Papers – Machine Learning and Data Mining for Digital Scholarly Editions

Das Institut für Dokumentologie und Editorik (IDE) lädt herzlich zu der Tagung „Machine Learning and Data Mining for Digital Scholarly Editions“ ein, die am 9. und 10. Juni 2022 an der Universität Rostock stattfinden wird.

Techniken des Data Mining und Machine Learning werden in mehreren Bereichen der Digital Humanities zunehmend eingesetzt, z.B. zur Verarbeitung und Extraktion von Informationen aus digitalen Bildern oder zur Analyse von Volltexten, die geisteswissenschaftliche Quellen repräsentieren. Auch im Bereich der Digitalen Editorik werden Methoden des Machine Learning und Data Mining bereits eingesetzt, etwa zur Texterkennung, zum Vergleich von Textzeugen oder zur Anreicherung von Texten mit sprachlichen oder semantischen Informationen. Ziel der Tagung ist es, gemeinsam über bestehende Ansätze zur Verwendung von Maschinellem Lernen und Data Mining im Workflow des digitalen Edierens zu diskutieren, diese zu reflektieren und über weitere, künftige Einsatzmöglichkeiten nachzudenken.



[...]

Quelle: https://dhd-blog.org/?p=16645

Weiterlesen

Stellenangebot: Wiss. Mitarb. (Postdoc, m/w/d) „Digital History“, Vollzeit, max. 6 Jahre – HU Berlin

Digital History (Humboldt Universität zu Berlin)

Die Digital History, und insbesondere die Computational History, ist ein sich dynamisch entwickelndes Feld mit viel Potenzial für neue und innovative Forschungsansätze und Projekte. In ihrem Fokus steht die Arbeit mit komplexen und heterogenen Daten, die neue technologische und methodologische Herausforderungen mit sich bringen und dadurch zu experimentellen Lösungsstrategien anregen.

Die Professur für Digital History an der Humboldt-Universität zu Berlin wurde 2020 eingerichtet und hat ihren Schwerpunkt in der Anwendung und Adaption datenbasierter informatischer Methoden auf geschichtswissenschaftliche Fragestellungen und deren kritische Reflexion. Sie arbeitet ebenso mit Texten, wie mit Bildern und strukturierten Daten. Für den weiteren Ausbau der Professur suchen wir eine*n

Wissenschaftliche*r Mitarbeiter*in (Postdoc) im Bereich Digital History (m/w/d) – Vollzeit – E 13 TV-L HU, max. 6 Jahre (nach WissZeitVG)

Aufgabengebiet:



[...]

Quelle: https://dhd-blog.org/?p=15282

Weiterlesen

Maschinelles Lernen als Interpretationsgrundlage!? – Ein Erfahrungsbericht zur DHd 2020

Vom 03. bis 06. März 2020 habe ich an der DHd 2020 in Paderborn teilgenommen. Im Folgenden möchte ich einen thematischen Schwerpunkt näher beleuchten, der mich als Teilnehmer besonders interessiert hat.

Das Thema, an dem ich auch persönlich forsche und das ich daher auf der diesjährigen DHd besonders gesucht und verfolgt habe, ist die Frage, wie und inwieweit Maschinelles Lernen (ML) genutzt werden kann, um geisteswissenschaftliche (und insbesondere literaturwissenschaftliche) Fragestellungen zu beantworten (oder zumindest neue Einsichten zu erzeugen).

Maschinelles Lernen bezeichnet eine Methode, bei der mittels statistischer Algorithmen und Daten Modelle erzeugt werden, die aus den gesehenen Daten (statistische) Verallgemeinerungen ziehen und somit auf neue und vorher ungesehene Daten angewendet werden können. Die Fülle an vorhandenen Algorithmen und Verfahren ist groß; eine ML-Familie ist unter dem Namen “Deep Learning” bekannt geworden und bedient sich vor allem Künstlicher Neuronaler Netze. Diese Netze waren, auch unter Verwendung von immer stärker werdenden Rechnerresourcen, in bestimmten Gebieten wie Automatische Bilderkennung oder Automatische Spracherkennung, so erfolgreich, dass sie bald zugleich für andere Gebiete im großen Stil eingesetzt wurden; darunter für Textverarbeitung.

[...]

Quelle: https://dhd-blog.org/?p=13737&utm_source=rss&utm_medium=rss&utm_campaign=maschinelles-lernen-als-interpretationsgrundlage-ein-erfahrungsbericht-zur-dhd-2020

Weiterlesen

ÖNB Labs: Symposium und Workshop

Mitgeteilt von Sophie-Carolin Wagner

Die ÖNB Labs sind eine Webplattform zum Forschen, Experimentieren und kreativen Arbeiten mit digitalen Beständen und Metadaten der Österreichischen Nationalbibliothek.

Die Veranstaltung besteht aus einem Workshop mit Gene Kogan und Sofia Crespo am 12.6. (nachmittags, 15:00-18:00 Uhr) und 13.6. (vormittags, 10:00-13:00 Uhr) und einem Labs-Symposium am 13.6. nachmittags, im Anschluss an den Workshop (14:30-18:30 Uhr).

[...]

Quelle: https://dhd-blog.org/?p=11729

Weiterlesen

Algorithmen für Ängstliche

In jüngerer Zeit kam die Berichterstattung über Algorithmen wieder auf die Tagesordnung und man ist fast versucht, als Tenor “Lasst, die ihr eintretet, alle Hoffnung fahren!” zu vernehmen: Die Welt ist beherrscht von einer weithin unbekannten Supermacht, die das Dasein jedes Einzelnen und das Zusammenleben aller durch unsichtbare Fäden aus dem Hintergrund lenkt. Da werden Frauen über ihr Konsumverhalten als schwanger kategorisiert, ehe sie sich dessen selbst bewusst werden. Da bekommen Lebensgemeinschaften keinen Kredit, weil sie am falschen Ende der Straße wohnen. Da plant ein Online-Versand, Kunden die gewünschten Waren zuzusenden, bevor sie überhaupt daran dachten, diese zu bestellen. Und das alles nur, weil da jemand die “richtige mathematische Formel” gefunden hat und in der Lage war, diese “auf einem Computer zu programmieren”. Und jetzt sind die so geschaffenen Algorithmen dabei, sich von ihren Schöpfern loszusagen und die gesamte Menschheit bis zum Sankt Nimmerleinstag zu knechten.

angst

Der Zaubertrank: Deep Learning

Ich habe zunächst versucht, den Wahrheitsgehalt dieser Darstellungen in meinem Unwissen zu finden, was mir nicht sonderlich gut gelang. Sollten etwa die anderen doch nicht mit Wasser kochen und das, was ich so über das Thema weiß, überholtes Wissen sein? Ja, natürlich gibt es auf der einen Seite den Deep-Learning-Ansatz, der – salopp gesagt – irgendwie sowas wie die Architektur des menschlichen Gehirns auf einem künstlichen Rechnersystem nachbildet und das Ergebnis mit Beispielen füttert, auf dass es eigenständige Kategorisierungen vornehme. Ein solcher Ansatz benötigt allerdings auch in unserer Zeit schneller Desktop-PCs noch nicht-alltägliche Rechneranlagen, eine Menge Spezialisten für die Implementation und das Training neuronaler Netzwerke sowie eine hohe Frustrationstoleranz, weil relativ schwer analysierbar ist, was genau passiert und wie man Ergebnisse verbessern kann. Der Deep-Learning-Ansatz wird deswegen vor allem von großen Forschungseinrichtungen und Unternehmen eingesetzt, Google etwa hat Ray Kurzweil darauf angesetzt.

Deep-Learning-Techniken eignen sich vor allem für Aufgaben, wo Muster erkannt werden müssen, die sich nicht oder nur schwer durch spezifische Merkmale beschreiben lassen. So werden sie z. B. die Spracherkennungssyteme von iOS und Andoid eingesetzt. Soweit ich das beurteilen kann, wird der Ansatz abgesehen davon in freier Wildbahn noch kaum angewendet, weil er einfach noch nicht gut genug modellierbar ist.

Der Kochtopf mit Wasser: Maschinelles Lernen

Realweltszenarien, in denen Algorithmen eingesetzt werden, lassen sich fast alle durch Klassifikations- oder Gruppierungsproblem formulieren: Ist die Nutzerin schwanger oder nicht? Welche Kreditkonditionen bekommen die Kunden in der Gruppe, in die der potentielle Kreditnehmer eingeordnet wurde? Produkte welcher Warengruppe haben die anderen Käufer des Artikels noch erworben?  Ist der Autor des unbekannten Pamphlets Donald Rumsfeld oder der Una-Bomber? Will die Politikerin Europa – ja oder nein? Oder – wie in der Facebook-Studie damals - ist der Nutzer bzw. die Nutzerin heterosexuell oder irgendwas anderes (sic!)?

Es ist hier nicht mein Punkt, welche der möglichen Anwendungsszenarien methodisch zweifelhaft oder gar ethisch verwerflich sind. Was gemacht werden kann, wird wahrscheinlich eh irgendwo durchgeführt werden, da habe ich wenig Illusionen. Mir geht es hier nur darum, aufzuzeigen, dass dort in den seltensten Fällen neue mathematische Formeln ersonnen werden, die dann irgendwer auf dem Computer programmiert. Vielmehr steht ein ganzer Werkzeugkasten bekannter Verfahren zur Klassifikation und Gruppierung (Clustering) von Objekten zur freien Verfügung. Theoretisch könnte sich also jede|r daran bedienen und für welche Typisierungen auch immer anwenden. Mit ein wenig Geduld kommt man auch mit so mächtigen Programmen wie WEKA zurecht (da bekommt man auch eine graphische Benutzeroberfläche). Oder man ist so verwegen und installiert sich die entsprechenden Pakete für R.

Und schon ist man Data Scientist. Eigentlich, denn der Teufel liegt mal wieder … in den Daten. Um Objekte zu klassifizieren, muss man sie zunächst durch Merkmale beschreiben, jedenfalls wenn man nicht einen solchen Zauber-Neuronalen-Netzwerk-Ansatz wie oben beschrieben verfolgt. Texte kann ich z.B. beschreiben über die Wörter, die sie enthalten; Menschen über ihre Augenfarbe, ihre Größe, ihr Geschlecht, ihren Wohnort oder eben über die Bücher, die sie bisher erworben haben. Oder ich kombiniere einfach mehrere Merkmale. Und gewichte sie dann möglicherweise unterschiedlich – Augenfarbe ist wichtig, Anzahl der Muttermale etwas weniger relevant. Was auch immer ich messen oder abzählen kann, ist als Merkmal verwendbar. Schwierig ist die Mischung von Merkmalen unterschiedlicher Skalenniveaus, aber auch das ist mit ein wenig Phantasie meist lösbar. Augenfarbe könnte etwa über RGB-Werte angegeben werden – dann hätte ich statt eines nominalskalierten Merkmals gleich drei verhältnisskalierte. Diesen Vorgang – die Zuordnung von Merkmalen zu Objekten – nennt man Feature Engineering. Am Ende dieses Schrittes hat man zu jedem Objekt, das man gruppieren oder klassifizieren möchte, eine Reihe von Zahlen. Und mit diesen Zahlen kann ich dann meinen Algorithmus füttern. Bei der Gruppierung gebe ich die Objekte einfach alle hinein und bekomme am Ende Gruppen (immer hinsichtlich der ausgewählten Merkmale) homogener Objekte zurück. Das nennt man auch unüberwachtes Lernverfahren, weil ich die ursprünglichen Objekte nicht vorklassifizieren musste, um sie in Gruppen einzuteilen.

Ein weiteres bekanntes Verfahren ist das überwachter Art: Hierfür werden Trainingsobjekte benötigt, die bereit vor Anwendung des Algorithmus mit ihrer Klasse versehen sind (+/-schwanger, Text von Rumsfeld, Text vom Una-Bomber etc). Über diese Trainingsobjekte bildet sich der Algorithmus ein Modell, das er zu Rate zieht, wenn er weitere, nicht vorausgezeichnete Objekte zuweisen soll.

Was ich eigentlich damit sagen will

Hinter dem was landläufig als Algorithmen bezeichnet wird, die einen immer größeren Einfluss auf unser Leben haben, verbergen sich meist maschinelle Lernverfahren. In denen steckt zwar ein wenig was an Mathematik drin, vor allem bei der Gewichtung von Merkmalen, bei der Distanzberechnung von Merkmalskombinationen und eben bei der Gruppierung oder Klassifikation. Dies sind aber in den meisten Fällen frei zugängliche Formeln oder gar fertige Implementationen, die über graphische Oberflächen von eigentlich jedem zu bedienen sind. Manche dieser Verfahren liefern für bestimmte Anwendungsfälle bessere, für andere wieder schlechtere Ergebnisse. Zumindest in meinem Bereich, der Computerlinguistik, lässt sich meist schwer voraussagen, welche der Kombinationen gut funktioniert. Man probiert halt einfach alle aus und schaut dann, welche am besten performt (ja, manchmal sind wir halt einfach Ingenieure).

Mit das Wichtigste für die Funktion der Verfahren ist allerdings die Auswahl an Merkmalen, mit denen die Objekte beschrieben werden. Und anstatt darüber zu mosern, dass Algorithmen Entscheidungen für oder über uns treffen, sollte man vielleicht besser darauf drängen, offenzulegen, auf welcher Grundlage sie dies tun. Welche Merkmale erhebt die Schufa? Liest Amazon meine History aus oder beruhen die Empfehlungen nur auf den Daten, die ich ihnen gegeben habe? Vor allem: Kann ich das abschalten? Was der Algorithmus dann hinterher draus macht, kann ja auch mal hilfreich sein. Demnächst hoffentlich hier an einem konkreten Beispiel gezeigt.

Quelle: http://texperimentales.hypotheses.org/1111

Weiterlesen