Von der Matrikeledition zum auswertbaren Datensatz

Vom 19. Jahrhundert bis in die Gegenwart gab es Projekte, die für bestimmte Zeiträume oder komplett, gedruckte Editionen von Schul- oder Universitätsmatrikeln hervorbrachten. Für die Erfassung dieser Massendaten in digital auswertbare Datenbanken findet sich in diesen gedruckt vorliegenden Editionen großes Potential: einerseits in der einfacheren technischen Erschließbarkeit (im Vergleich zu den handschriftlichen Quellen), andererseits da für diese Projekte oft mehr Quellen herangezogen wurden als die eigentlichen Matrikel und durch das Record Linkage auf dem Papier wertvolle Zusatzinformationen gewonnen werden können. Als Beispiel seien hier die ersten beiden Bände der gedruckt vorliegenden Matrikel der Universität Halle genannt für die Fritz Juntke in den 1950er Jahren zahlreiche weitere Literatur sowie Quellen aus den Archiven der Universität sowie der Franckeschen Stiftungen heranzog, um die reinen Matrikeldaten noch weiter anzureichern. Ebenso nahm Charlotte Preuß für den zweiten (noch nicht digital erschlossenen) Band für die Zeit von 1731 bis 1740 bereits einen Abgleich mit gedruckt vorliegenden Matrikeln anderer Universitäten vor. Beide hier genannten Bearbeiter wiesen jedoch in den Editionen darauf hin, keine Vollständigkeit in diesem Bereich für sich reklamieren zu wollen oder zu können.

Für den ersten Band der Halleschen Matrikel, der den Zeitraum der Universitätsgründung bis 1730 umfasst, ist in den letzten zwei Jahren erstmals dieser Schritt vom Scan der gedruckten Matrikel über die Texterkennung und Strukturierung der Daten, deren Upload und Verbindung mit vorhandenen sowie neuen Daten in FactGrid, erfolgreich umgesetzt worden.

Die Matrikeledition von Juntke ist so aufgebaut, dass alle Namen nicht chronologisch, sondern alphabetisch in zwei spalten pro Seite hintereinander weg aufgeführt werden.

[...]

Quelle: https://blog.factgrid.de/archives/4026

Weiterlesen

Virtuelles DH-Kolloquium an der BBAW, 30.09.2024: „Automatische Texterkennung für die (digitalen) Geisteswissenschaften – OCR4all als Open-Source-Ansatz“

Im Rahmen des DH-Kolloquiums an der BBAW laden wir Sie herzlich zum nächsten Termin am Montag, den 30. September 2024, 16 Uhr c.t., ein (virtueller Raum: https://meet.gwdg.de/b/lou-eyn-nm6-t6b):

Christian Reul (Universität Würzburg)
über
Automatische Texterkennung für die (digitalen) Geisteswissenschaften – OCR4all als Open-Source-Ansatz

***

Ein zentraler Aspekt der Arbeit von geistes- und kulturwissenschaftlich Forschenden ist die Auseinandersetzung mit historischen Quellen in Form von gedruckten und handschriftlichen Textzeugen. Diese liegen häufig lediglich als Scans vor, aus denen zunächst maschinenverarbeitbarer Volltext extrahiert werden muss, wozu Methoden der automatischen Texterkennung zum Einsatz kommen.

[...]

Quelle: https://dhd-blog.org/?p=21575

Weiterlesen

Virtuelles DH-Kolloquium an der BBAW, 30.09.2024: „Automatische Texterkennung für die (digitalen) Geisteswissenschaften – OCR4all als Open-Source-Ansatz“

Im Rahmen des DH-Kolloquiums an der BBAW laden wir Sie herzlich zum nächsten Termin am Montag, den 30. September 2024, 16 Uhr c.t., ein (virtueller Raum: https://meet.gwdg.de/b/lou-eyn-nm6-t6b):

Christian Reul (Universität Würzburg)
über
Automatische Texterkennung für die (digitalen) Geisteswissenschaften – OCR4all als Open-Source-Ansatz

***

Ein zentraler Aspekt der Arbeit von geistes- und kulturwissenschaftlich Forschenden ist die Auseinandersetzung mit historischen Quellen in Form von gedruckten und handschriftlichen Textzeugen. Diese liegen häufig lediglich als Scans vor, aus denen zunächst maschinenverarbeitbarer Volltext extrahiert werden muss, wozu Methoden der automatischen Texterkennung zum Einsatz kommen.

[...]

Quelle: https://dhd-blog.org/?p=21575

Weiterlesen

Nächste Offene OCR-Sprechstunde am 14. März von 15 bis 16 Uhr

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 14. März 2024 statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.

[...]

Quelle: https://dhd-blog.org/?p=20654

Weiterlesen

Erste OCR-Sprechstunde im neuen Jahr: 11. Januar zwischen 15 und 16 Uhr

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 11. Januar 2024 statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.

[...]

Quelle: https://dhd-blog.org/?p=20440

Weiterlesen

Nächste offene OCR-Sprechstunde am 12. Oktober 2023 von 15 bis 16 Uhr

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 12. Oktober 2023 statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.

[...]

Quelle: https://dhd-blog.org/?p=20016

Weiterlesen

Nächste offene Sprechstunde des Kompetenzzentrums OCR am 13. Juli 2023

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 13. Juli 2023 statt.



[...]

Quelle: https://dhd-blog.org/?p=19576

Weiterlesen

Offene Sprechstunde des Kompetenzzentrums OCR am 15. Juni 2023

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Achtung: Aufgrund des Feiertags in Baden-Württemberg findet die Sprechstunde im Juni ausnahmsweise am dritten Donnerstag, dem 15. Juni statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.

[...]

Quelle: https://dhd-blog.org/?p=19465

Weiterlesen