[Praxislabor] Arbeiten mit (vielen) retrodigitialisierten Quellen: Texterkennung und Metadatenextraktion in PDF-Dateien mit freier Software

Moritz Mähr (wiss. Mitarbeiter an der Professur für Technikgeschichte, Zürich)

Lernen Sie in PDF-Dateien Texterkennung (OCR) und Textextraktion mit kostenlosen Befehlszeilenwerkzeugen wie Tesseract und Poppler durchzuführen und sich schnell einen Überblick über eine grosse Anzahl von PDF-Dokumenten zu verschaffen.

Zielpublikum

Wenn Sie eines oder mehrere der folgenden Kriterien erfüllen, wird diese Lektion für Sie lehrreich sein:

  • Sie arbeiten mit textbasierten Quellen und müssen den Inhalt der Quellen extrahieren.
  • Ihre Dateien liegen im PDF-Format vor oder können in dieses Dateiformat konvertiert werden.


  • [...]

Quelle: https://digigw.hypotheses.org/3683

Weiterlesen

Fristverlängerung bis 15.7.! Distant Reading Training School, Budapest

Die Frist für die Bewerbungen zu Stipendien für die Distant Reading Training School der COST Action „Distant Reading for European literary History“ wurde bis zum 15. Juli 2019 verlängert. Siehe den Call: https://dhd-blog.org/?p=11847

Quelle: https://dhd-blog.org/?p=11961

Weiterlesen

Call for Applications for the third Distant Reading Training School: Budapest, 23-25 September 2019

The COST Action Distant Reading for European Literary History is issuing a Call for Applications for its third Training School, hosted by the Centre for Digital Humanities – Eötvös Loránd University in Budapest from September 23 to 25, and co-located with the DH_Budapest 2019 conference.

Note that participation is free of charge! Applicants may apply for one of the grants for participation in one of the 3 parallel tracks:

  • TRACK 1: Corpus design and text contribution for ELTeC
  • TRACK 2: Natural Language Processing for Distant Reading
  • TRACK 3: Canonization in Distant Reading Research

To apply, please see the information and instructions in the full Call for Applications. Applications will be sent to Roxana Patras (roxanapatras82@gmail.com) and Christof Schöch (schoech@uni-trier.

[...]

Quelle: https://dhd-blog.org/?p=11847

Weiterlesen

CfP: DH Budapest 2019: „Distant Rading“

The Centre for Digital Humanities at Eötvös Loránd University (ELTE.DH) calls for abstracts for its second annual conference which will take place in Budapest, 25–27 September 2019 – in collaboration with the COST Action Distant Reading for European Literary History project and the DARIAH Central European Hub. While last year the conference seeked to survey the current state of research in digital humanities in general, this year DH_Budapest_2019 will keep a narrower focus on theories and practices of distant reading.

The term distant reading (i.e. using computational methods of analysis for large collections of texts) is meant here in a general sense: regardless of genres and disciplines on the side of the used or built corpus, and regardless of computational methods adopted or developed during the research. We encourage speakers to present their work where innovative, sophisticated, data-driven, computational methods play a key role in a scientifically relevant research.

We invite submission of abstracts on subjects from a variety of fields related to digital humanities and social sciences concerning but not limited to the topics below:



[...]

Quelle: https://dhd-blog.org/?p=11475

Weiterlesen

Summer School of Digital Humanities at Heidelberg University: Distant Reading – Potentials and Applications

Distant Reading ist wie kaum ein anderes Gebiet der Interdisziplinarität verpflichtet. So kann es Anwendung finden in den Philologien (Klassische Philologie, Germanistik, Anglistik, Romanistik), in der Literaturwissenschaft, Linguistik, in den Bibliotheks- und Archivwissenschaften, Geschichtswissenschaften, der Theologie, Paläographie, Philosophie, Statistik und Soziologie. Selbst in der Jurisprudenz gibt es Verwendungsmöglichkeiten. Gleichzeitig bietet es vielfältige Anknüpfungsmöglichkeiten im Bereich der IT, Computerlinguistik, Computerphilologie und Medieninformationstechnik.
Die Heidelberger Summer School of Digital Humanities richtet sich primär an DoktorandInnen. Die Anzahl der Teilnehmerplätze ist begrenzt. Eine Anmeldung ist noch bis zum 31. Juli 2017 möglich.

Quelle: http://dhd-blog.org/?p=8177

Weiterlesen

Zum Tag der Daten-Einheit

Als würde die Literaturgeschichte uns nicht schon vor genug ungelöste Rätsel stellen, dekuvrierte Frank Fischer im Gemeinschaftsblog weltliteratur.net letzte Woche ein weiteres: Bei Studien zu Datumsangaben in literarischen Werken fiel ihm auf, dass diese in unterschiedlichen Übersetzungen teilweise deutlich voneinander abweichen. Er trägt eine ganze Reihe solcher Beispiele zusammen und stellt schließlich die Frage, ob sie bloß das Resultat einer Serie von Versehen sind, oder ob es vielleicht Gründe dafür gibt, dass Übersetzer|innen die von den Autor|innen vorgegebenen Daten mutwillig veränderten. 

Die Übersetzer sind so frei?

Zahlen, so meint man, sprechen eine deutliche Sprache, die in allen Übersetzungen gleich lauten müsste. Dass dem nicht immer so ist, zeigt Frank am Beispiel von Shakespeares Othello:  Dort wurde offenbar der Einhaltung des Versmaßes höhere Priorität eingeräumt wurde als der Nennung der exakten Zahl von Galeeren (106 statt 107, witzigerweise innerhalb eines Gesprächs, wo niemand sich über den tatsächlichen Umfang der Flotte im Klaren ist). Eine solche Erklärung ist jenseits von Lyrik und Versdramen eher untauglich – weshalb aber verändern sich Zahlen und Datumsangaben auch im Übersetzungsprozess von Prosa?

20030614-204 Marseille Château d'If From Ferry
Castell D’If By wpopp  CC-BY-SA-3.

[...]

Quelle: http://texperimentales.hypotheses.org/1813

Weiterlesen

Weltliteratur 2.0 – ist die Quantität der Qualität ihr Tod?

Da ich mich in meiner Dissertation mit dem vermeintlich globalen Phänomen Chick lit beschäftige, spielt der „Weltliteratur“-Begriff eine nicht ganz unwichtige Rolle. Google wirft mir hauptsächlich Ergebnisse wie Die wichtigsten 100 Bücher der Weltliteratur, Bibliothek der 100 Bücher, Weltliteratur: Was muss ich gelesen haben?, Klassiker der Weltliteratur oder Große Romane der Weltliteratur aus. Zeitgenössische Unterhaltungsliteratur von/über/für Frauen findet sich darin nicht wieder. Dagegen wirkt der Wikipedia-Eintrag geradezu differenziert. Immerhin wird darin auf die zwei grundsätzlichen Bedeutungsnuancen des Terminus eingegangen: die qualitative Definition, bei der Weltliteratur als „Kanon“ der Literatur betrachtet wird und die quantitative Definition, die Weltliteratur als Menge aller oder zumindest jener Texte, die eine übernationale/-regionale Verbreitung erlangt haben, versteht. Auch wenn in der Komparatistik letztere Definiton als die zeitgemäßere gilt (und dies nicht erst seit gestern), scheint sich im buchhändlerischen und journalistischen Gebrauch, wie die Google-Suche gezeigt hat, erstere Definition zu halten: Weltliteratur wird nach wie vor als Label für sogenannte „Klassiker“ verwendet. Dabei waren die Ambitionen bereits früh andere…

Die Epoche der Weltliteratur

„Weltliteratur“ stellt eine Art Gründungsmythos der Komparatistik dar, der weit hinter deren Institutionalisierung als Disziplin zurückreicht. Die Entstehung des Diskurses kann im frühen 19.

[...]

Quelle: http://chicklit.hypotheses.org/222

Weiterlesen

Was sind Digital Humanities? Definitionsfragen und Praxisbeispiele aus der Geschichtswissenschaft

14578927449_aa0a93e58f_k„Why can a computer do so little?“, so lautete 1976 die auf den ersten Blick überraschende Frage von Roberto Busa, den man gemeinhin als den Vater der Digital Humanities bezeichnet[1]. Tatsächlich steckt in diesem Satz eine der grundsätzlichen und bis heute gültigen Fragestellungen bezüglich des Einsatzes von Computern und digitalen Methoden in den Geisteswissenschaften: Geht es darum, effizienter zu sein, menschliche Arbeit zu vereinfachen und Arbeitskraft zu sparen? Oder können Computer uns dabei helfen, neue wissenschaftliche Fragestellungen zu generieren und alte Fragestellungen systematischer, tiefer und besser zu beantworten? Ist auch letzteres der Fall – und davon soll hier ausgegangen werden – dann muss man, mit Willard McCarty, die Frage weitertreiben und nicht nur fragen, warum Computer so wenig können, sondern überlegen, warum Geisteswissenschaftlerinnen und Geisteswissenschaftler so wenig mit Computern machen[2]. Und: woher wissen wir eigentlich, dass es tatsächlich so wenig ist? Und weiter: Wenn es nicht so wenig ist oder mehr sein könnte, warum machen wir es dann so?[3]

Die Debatten um die Digital Humanities oder Humanities Computing wie sie bis ca. zum Jahr 2000 hießen, sind zahlreich und gehen mehrere Jahrzehnte zurück.

[...]

Quelle: http://dhdhi.hypotheses.org/2642

Weiterlesen

Was sind Digital Humanities? Definitionsfragen und Praxisbeispiele aus der Geschichtswissenschaft

14578927449_aa0a93e58f_k„Why can a computer do so little?“, so lautete 1976 die auf den ersten Blick überraschende Frage von Roberto Busa, den man gemeinhin als den Vater der Digital Humanities bezeichnet[1]. Tatsächlich steckt in diesem Satz eine der grundsätzlichen und bis heute gültigen Fragestellungen bezüglich des Einsatzes von Computern und digitalen Methoden in den Geisteswissenschaften: Geht es darum, effizienter zu sein, menschliche Arbeit zu vereinfachen und Arbeitskraft zu sparen? Oder können Computer uns dabei helfen, neue wissenschaftliche Fragestellungen zu generieren und alte Fragestellungen systematischer, tiefer und besser zu beantworten? Ist auch letzteres der Fall – und davon soll hier ausgegangen werden – dann muss man, mit Willard McCarty, die Frage weitertreiben und nicht nur fragen, warum Computer so wenig können, sondern überlegen, warum Geisteswissenschaftlerinnen und Geisteswissenschaftler so wenig mit Computern machen[2]. Und: woher wissen wir eigentlich, dass es tatsächlich so wenig ist? Und weiter: Wenn es nicht so wenig ist oder mehr sein könnte, warum machen wir es dann so?[3]

Die Debatten um die Digital Humanities oder Humanities Computing wie sie bis ca. zum Jahr 2000 hießen, sind zahlreich und gehen mehrere Jahrzehnte zurück.

[...]

Quelle: http://dhdhi.hypotheses.org/2642

Weiterlesen

«Lecture des sources historiennes à l’ère numérique». Ein Kommentar

Unser geschätzter Kollege Frédéric Clavert vom Centre Virtuel de la Connaissance sur l’Europe in Luxembourg hat kürzlich in seinem Blog einen interessanten Post über die Quellenlektüre im digitalen Zeitalter publiziert. Darin unterscheidet er einerseits close reading und distant reading, andererseits lecture humaine und lecture computationelle. Mit diesen beiden «Achsen» gelingt es Clavert, eine gewisse Struktur […]

Quelle: http://weblog.hist.net/archives/6563

Weiterlesen