Text+ und RIDE: Gemeinsamer „Call for Reviews“ 

Das Konsortium Text+ der Nationalen Forschungsdateninfrastruktur (NFDI) und das Institut für Dokumentologie und Editorik (IDE) laden Autor/innen ein, Rezensionen digitaler wissenschaftlicher Editionen für die Zeitschrift RIDE einzureichen. Die Rezensionen sollten sich einerseits am Kriterienkatalog zur Besprechung digitaler Editionen des IDEs orientieren und darüber hinaus insbesondere die Anwendung der FAIR-Prinzipien in den Blick nehmen.

Kooperation und Ziele

Das NFDI-Konsortium Text+ hat 2021 seine Arbeit aufgenommen. Text+ widmet sich der Entwicklung einer text- und sprachbasierten Forschungsdateninfrastruktur und konzentriert sich zunächst auf die drei Datendomänen lexikalische Ressourcen, Textsammlungen und wissenschaftliche Editionen. 

Eine zentrale Aufgabe der Datendomäne „Editionen“ ist die Sichtung von Methoden und Praktiken der digitalen Editionsarbeit sowie die Erarbeitung von Empfehlungen zur Erstellung, Bearbeitung und Publikation von Forschungsdaten. Gemäß der FAIR-Prinzipien sollen Daten aus Editionen „Findable, Accessible, Interoperable, and Re-usable“ sein. Die Anwendung dieser Prinzipien gewinnt bei digitalen Ressourcen zunehmend an Bedeutung, ist im Editionskontext bisher allerdings noch nicht tiefergehend diskutiert worden. Unstrittig ist jedoch, dass die Umsetzung der FAIR-Prinzipien für zentrale Aspekte der Verwendung und Referenzierung von digitalen Editionen entscheidend ist.

[...]

Quelle: https://dhd-blog.org/?p=17717

Weiterlesen

1. Text+ Frühjahrstagung: Die Zusammenarbeit zwischen Nutzenden und Infrastrukturprovidern

Die 1. Text+ Frühjahrstagung brachte am 2. März 2022 interessierte Forschende und Text+ Beteiligte virtuell zusammen. Anhand der vorgestellten Participation Roadmap wurden die Wege der Zusammenarbeit von Konsortium und Community diskutiert. Das Ziel der Tagung war es, zusammen die Entwicklung der Text+ Infrastruktur voranzutreiben. Mit in der Spitze über 140 Teilnehmenden aus allen in Text+ vertretenden Disziplinen wurde über die Wege zur Zusammenarbeit in Text+ diskutiert. Mehr als die Hälfte der Teilnehmenden kam dabei nicht aus dem Text+ Konsortium, sondern stammte aus der Community, was uns sehr freut, da es das große Interesse an Text+ zeigt.

In sechs Arbeitsgruppen wurden strategische und praktische Fragen der Zusammenarbeit diskutiert. So wurde zum Beispiel in der Gruppe zu User Stories darüber gesprochen, wie die Anwendungsideen, die im Rahmen der Beantragung von Text+ als NFDI-Konsortium vorgestellt wurden, umgesetzt werden können und wie der Prozess zusammen mit der Community weitergeführt werden kann.

[...]

Quelle: https://dhd-blog.org/?p=17576

Weiterlesen

NFDI4Culture und Text+ gemeinsam auf der DHd 2022

Praktiken des Erinnerns, des Speicherns und des Überlieferns sind immer disziplinübergreifend. Digitale Daten aus den Geistes- und Kulturwissenschaften sind hier – wie auch im täglichen Leben, in unserer allgegenwärtigen globalen Kommunikation oder in unserer kulturellen Erfahrung – nicht wegzudenken. Sie sind nicht nur für künftige Wissenschaftsgenerationen von großer Bedeutung, sondern bilden die Grundlage von beständigen Transferprozessen zwischen Forschenden, Kulturschaffenden, Kulturbetrieben und Zivilgesellschaft.

Zum großen Feld der Geistes- und Kulturwissenschaften gehörend, haben die beiden bewilligten NFDI-Konsortien NFDI4Culture und Text+ trotz unterschiedlicher disziplinärer Ausrichtung in weiten Bereichen gemeinsame Anliegen und Bedarfe. Daher arbeiten die beiden Konsortien an gemeinsamen (technischen) Lösungen, evaluieren diese und stellen dafür eigene Budgets bereit. Diese bringen sie ebenso wie abgestimmte Meinungen zu übergeordneten Fragen in die Nationale Forschungsdateninfrastruktur (NFDI) ein und arbeiten auch generell aktiv in der NFDI mit, z.B. in den querschnittsthematischen Vereinssektionen. Sie sehen sich als gleichberechtigt, kooperativ und nicht-kompetitiv und orientieren sich stark an ihren Forschungs- und GLAM-Communities.

[...]

Quelle: https://dhd-blog.org/?p=17521

Weiterlesen

Bitte mitmachen! Die Community-Einbindung von Text+ über die Coordination Committees

Forschungsinfrastrukturen adressieren häufig ausgewählte Datendomänen oder fachlich abgegrenzte Forschungsbereiche. Damit die Angebote einer Forschungsinfrastruktur zu den Bedarfen der Fachcommunity passen, ist ein regelmäßiger kritischer und ehrlicher Austausch zwischen beiden Seiten wichtig. Dieser Austausch findet bspw. im Rahmen wissenschaftlicher Tagungen oder Workshops statt, oder es gibt einen Helpdesk/Support, an den sich Forscher:innen wenden können. Ein weiteres gängiges Instrument sind Gremien oder Boards, die die Arbeit der Forschungsinfrastruktur kritisch begleiten, so wie die Coordination Committees in Text+.

Was sind die Coordination Committees? Diese vier Gremien sind die zentralen Mitbestimmungsorgane der Fachcommunities, die Text+ mit seinen Angeboten adressiert. Für jede der drei Datendomänen Kollektionen, lexikalische Ressourcen und Editionen sowie für die Task Area Infrastruktur/Betrieb wurde ein Coordination Committee geschaffen. Sie sind an der Evaluation des Angebots von Text+ beteiligt und vertreten die Bedarfe der Communities.

[...]

Quelle: https://dhd-blog.org/?p=17355

Weiterlesen

Editorik: Forschung und Infrastruktur im Dialog – Veranstaltungshinweis

Erhalten Sie Einblicke in die Vielfalt und Herausforderungen digitaler Editorik im Kontext von Infrastruktur und Nachhaltigkeit!

19.01.2022, 18:15 bis 21:00 Uhr (Publikum via Zoom)
Anmeldung über office@text-plus.org 

Editorik. Forschung und Infrastruktur im Dialog. Veranstaltungsbild

Text+ hat am 1. Oktober die Arbeit zum Aufbau einer sprach- und textbasierten Forschungsdateninfrastruktur als Konsortium der NFDI (nationale Forschungsdateninfrastruktur) aufgenommen.
Neben Sammlungen und lexikalischen Ressourcen bilden digitale Editionen eine der drei Datendomänen in Text+. Ihnen kommt in geisteswissenschaftlichen Disziplinen und darüber hinaus eine zentrale Stellung zu, da sie sowohl Gegenstand als auch Ausgangspunkt text- und sprachbasierter Forschung sind.



[...]

Quelle: https://dhd-blog.org/?p=17264

Weiterlesen

TextGrid-Nutzertreffen: Bilder in TextGrid

Am 20. und 21. Februar 2014 wird an der Technischen Universität Darmstadt das dritte TextGrid-Nutzertreffen mit dem Schwerpunkt “Bilder in TextGrid” stattfinden. In Vorträgen von Alexandra Karentzos (TU Darmstadt), Thomas Kollatz (Steinheim-Institut Essen), Marc Priewe (Uni Stuttgart) und Georg Schelbert (HU Berlin) werden dabei Bilder aus verschiedenen geistes- und kulturwissenschaftlichen Blickwinkeln betrachtet.

TextGrid-Logo-Deutsch

Die angebotenen Schulungen sollen den TeilnehmerInnen die Möglichkeit geben, sich selbst ein Bild von den Möglichkeiten zu machen, die TextGridLab und TextGridRep bei der Arbeit mit Bildern bieten. In den Workshops werden Themen wie Bild-Annotation, Metadaten für Bilder und die Transformation von Verknüpfungsdaten interaktiv behandelt. TextGrid-Interessierte, die keine oder wenig Erfahrung im Umgang mit der virtuellen Forschungsumgebung haben, können vor dem eigentlichen Beginn der Konferenz in einer Einsteiger-Schulung die Grundlagen für die Arbeit mit TextGrid erlernen. Das TextGrid-Café wird wieder die Möglichkeit bieten, eigene TextGrid-bezogene Projekte vorzustellen und sich mit anderen TextGrid-NutzerInnen und -Interessierten auszutauschen.

Wenn wir Ihr Interesse geweckt haben und Sie bezüglich des Nutzertreffens voll im Bilde sein möchten, finden Sie das vollständige Programm sowie ausführliche Informationen zu Anreise und Unterkunft unter

http://www.textgrid.de/community/nutzertreffen-bilder/

Mit dem Formular können Sie sich auch ab sofort für die Teilnahme am TextGrid-Nutzertreffen anmelden.

 

Quelle: http://dhd-blog.org/?p=2727

Weiterlesen

“Und was kann man jetzt mit Tesla machen?”

Eine der am häufigsten gestellten Fragen an uns ist ohne Zweifel die nach den Verwendungsmöglichkeiten für Tesla. Die Frage kam bereits in den Kommentaren dieses Blogs auf, sie wird uns auf den Konferenzen gestellt, auf denen wir Tesla vorstellen, sie war sowohl Teil meiner Disputation, als auch der meines Kollegen Stephan Schwiebert.

Die Antwort auf die Frage ist relativ einfach: Mit Tesla kann man eigentlich alles machen, was auf maschinellen Annotationen oder einer automatischen Analyse von Texten beruht. Wie das mit einfachen Antworten so ist, ergibt sich aus ihnen meist eine ganze Reihe weiterer Fragen. So auch hier:

  1. Was fällt denn alles unter den Begriff Texte?
  2. Was kann man sich konkret unter maschinellen Annotationen vorstellen?
  3. Und was unter automatischen Analysen?
  4. Was bedeutet man kann eigentlich alles machen?
  5. Gibt es denn Dinge, für die sich Tesla nicht eignet?
  6. Aber es gibt doch auch das System XYZ, kann das nicht genau das Gleiche?

Versuche ich mal, diese Fragen zu beantworten, ohne dass allzu viele Folgefragen aufgeworfen werden (weswegen ich auch versuche, möglichst ohne sprachwissenschaftliche und informatische Fachbegriffe auszukommen):

(1) Wir verwenden den Begriff Text relativ weit gefasst. Texte sind für uns einfach alle Daten, die sich in einer linearen, eindimensionalen Abfolge von Zeichen aus einem definierten Alphabet repräsentieren lassen. Das gilt zunächst einmal für alle Daten, die sich irgendwie in einem herkömmlichen Computer speichern und verarbeiten lassen, letztlich arbeitet dieser ja mit Sequenzen von Nullen und Einsen. Wir meinen hier aber vor allem diejenigen Daten, die sich durch ihre eindimensionale Struktur auszeichnen. Darunter fallen vor allem natürlichsprachliche Texte, aber auch Text-Repräsentationen von DNA, RNA, Proteinen und auch von Musikstücken. Die Entscheidung, möglichst viele unterschiedliche Daten in Tesla verarbeiten zu können, wurde bewusst getroffen.  Auf diese Weise können unterschiedliche Verfahren für spezifische Daten entwickelt werden, die dann gegebenenfalls auf andere Daten übertragen werden können. Tesla stellt außerdem keinerlei Anforderungen an das Format der Texte.

(2) Sprache ist zwar letztlich (spätestens beim Verlassen unseres Sprechorgans bzw. als Buchstabenfolge eines Textes) eindimensional organisiert: Mündliche Sprachmitteilungen bestehen etwa aus einer Folge von Lauten, schriftliche Texte aus einer Folge von Buchstaben. Über diesen mehr oder weniger grundlegenden Einheiten sprachlicher Kommunikation existieren jedoch weitere Organisationseinheiten wie Wörter oder Sätze, dabei gibt es unterschiedliche Wortklassen (z.B. Substantive, Verben) und Funktionen (z.B. Objekt, Prädikat). Alle diese Einheiten, Klassen und Funktionen sind implizit im Sprachsignal enthalten, um sie auswerten zu können, müssen die Sprachdaten explizit mit ihnen ausgezeichnet (annotiert) werden. Das kann man entweder manuell machen (was gewisse Vor-, aber auch Nachteile hat) oder bestimmte dafür programmierte Werkzeuge machen lassen. Dazu gehören z.B. Tokenizer, die Wortgrenzen bestimmen, Tagger, die Wörter Wortklassen zuordnen und Parser, welche die Funktion von Wörtern oder Wortgruppen erkennen. Tesla besitzt eine ganze Reihe solcher Werkzeuge, mit denen sich Daten maschinell annotieren lassen.

(3) Annotationen wie in (2) beschrieben,  sind meist eine Vorstufe zur Daten-Analyse, die man auch innerhalb von Tesla betreiben kann. Aus der unüberschaubaren Menge möglicher Analysen wähle ich hier ein Beispiel aus dem Bereich Informationsextraktion (IE). IE ist eine Art Oberbegriff für Verfahren, die aus unstrukturierten Daten (z.B. Texten) strukturierte Daten (z.B. Tabellen in einer Datenbank) ableiten. Ein Anwendungsfall für IE-Verfahren ist die sogenannte Sentiment Analysis (zu deutsch etwa “Stimmungserkennung”), wo Texte z.B. nach positiven und negativen Einstellungen hinsichtlich eines Untersuchungsgegenstandes (Mobiltelefon, Hotel, Fluggesellschaft oder was auch immer) klassifiziert werden. Soll eine solche Klassifikation automatisch erfolgen, so benötigt man einerseits annotierte Texte, um Wörter und Wortgruppen ausfindig zu machen, von denen die Wertung des Textes abhängt, so wie spezielle Adjektive, Gradpartikel, Negationen etc. Man spricht davon, dass bestimmte Merkmale in Texten ausfindig gemacht werden. Mit diesen Merkmalen wird dann ein Klassifikationsmechanismus gefüttert, welcher auf dieser Basis die Texte in Klassen einteilt (also z.B. in gute und schlechte Bewertungen). Die beschriebene Sentiment-Analyse ist nur ein mögliches Verfahren, das in Tesla realisiert werden kann. Inzwischen haben wir eine ganze Bandbreite verschiedener Verfahren in Tesla realisiert, ich etwa habe das Voynich Manuskript damit analysiert, meine Kollegen arbeiten zu den Themen Extraktion syntaktischer Strukturen und Bedeutungskonstitution in natürlichsprachlichen Daten. Innerhalb eines Projekts wurden außerdem Vorarbeiten zur beschriebenen Sentiment-Analyse und der Extraktion temporaler Ausdrücke sowie von Gen-Bezeichnungen durchgeführt.

(4) Tesla ist ein Framework, in dem Werkzeuge zur Annotation und Analyse von Texten sowohl programmiert wie auch genutzt werden können. Was genau zu einem bestimmten Zeitpunkt in Tesla umgesetzt werden kann, hängt von der Ausstattung des Systems zu diesem Zeitpunkt ab. Zur Zeit umfasst das Inventar etwas mehr als 60 verschiedene Komponenten, manche Funktionalität ist gleich durch mehrere Werkzeuge abgedeckt (so gibt es z.B. zwei Tokenizer – einen, der sehr einfach zu bedienen ist, einer der sehr umfassend konfiguriert werden kann). Eine Übersicht zu den vorhandenen Komponenten findet sich auf der Tesla-Entwicklerseite. Prinzipiell (also eigentlich) kann man mit Tesla also alles machen, was in den Bereich der automatischen Prozessierung von Texten fällt. De facto beschränkt aber die aktuelle Ausstattung die momentan mögliche Anwendung – wobei man jederzeit die fehlende Funktionalität selbst implementieren kann.

(5) Man kann in Tesla nicht alles mit Texten machen, man kann nur alles machen, was sich automatisieren lässt. Alles, was mit manueller Auszeichnung zu tun hat, muss damit außerhalb von Tesla erfolgen – das bedeutet z.B., dass man nicht einfach in einem Editor die automatisch erzeugten Ergebnisse korrigieren kann. Hinter dieser Einschränkung steht die Überlegung, dass wir ein System haben wollten, in dem Analysen durchgeführt werden können, die absolut nachvollziehbar sind. Solange man lediglich Software-Algorithmen (die deterministisch sind, also keinen nicht reproduzierbaren Zufalls-Effekt enthalten) arbeiten lässt, hat man die Möglichkeit – so denn die geeigneten Vorkehrungen getroffen wurden – die Analysen jederzeit zu wiederholen und weiterzugeben, auf dass sie woanders reproduziert werden können. Ließe man manuelle Eingriffe in diesem Prozess zu, verlöre man diese Möglichkeit. Ich habe schon mehrere Posts zu diesem Thema geschrieben, etwa diese Parabel, so dass ich es jetzt hier mal dabei belasse. Nebenbei – Tesla ist kein absolut fertiges System (wir haben es mehr oder weniger zu zweit gebaut), so ist etwa die Umsetzung von Maschinellen Lernverfahren, für die Trainingsphasen durchgeführt werden müssen, noch verbesserungsfähig.

(6) Ja, es gibt eine Reihe von Systemen, die ähnlich wie Tesla angelegt sind und auf manchen Gebieten tatsächlich mit unserem System konkurrieren. Dazu zählen Gate, Apache UIMA und TextGrid. Zu den Unterschieden komm ich aber mal ein andermal. Ungeduldigen sei diese Monographie empfohlen.

Ich hoffe, dass ich mit diesem Post ein wenig aufklären konnte, was Tesla tatsächlich ist. Was man damit so alles machen kann, konnte nur bruchstückhaft dargestellt werden (auf Visualisierungen, wie z.B. das Titelbild oben, bin ich noch gar nicht eingegangen). Dafür brauche ich wohl ein paar mehr Posts. Damit man sich aber schonmal ein  Bild machen kann, wie Tesla aussieht, habe ich unten noch einmal einen Screenshot der Tesla-Benutzeroberfläche angehangen.


Ansicht der Benutzeroberfläche von Tesla für Anwender. Groß im Bild der graphische Editor, in dem man seine Analysen zusammenstellt.

Quelle: http://texperimentales.hypotheses.org/125

Weiterlesen
1 5 6 7