Bullingers Briefwechsel zugänglich machen: Stand der Handschriftenerkennung
Autor: | Ströbel, Phillip, Hodel, Tobias, Fischer, Andreas, Scius-Bertrand, Anna, Wolf, Beat, Janka, Anna, Widmer, Jonas, Scheurer, Patricia, Volk, Martin |
---|---|
Přispěvatelé: | Trilcke, Peer, Busch, Anna, Helling, Patrick, Plum, Alistair, Wolter, Vivien, Weis, Joëlle, Chudoba, Hendrik, University of Zurich |
Rok vydání: | 2023 |
Předmět: |
style adaptation
100 Philosophy Data augmentation Annotieren Manuskript 410 Linguistics 800 Literature rhetoric & criticism maschinelles Lernen 000 Computer science knowledge & systems correspondence Daten handwritten text recognition OCR 10105 Institute of Computational Linguistics Bewertung Handschriftenerkennung DHd2023 history digital humanities 900 History Transkription |
Zdroj: | Ströbel, Phillip; Hodel, Tobias; Fischer, Andreas; Scius, Anna; Wolf, Beat; Janka, Anna; Widmer, Jonas; Scheurer, Patricia; Volk, Martin (2023). Bullingers Briefwechsel zugänglich machen: Stand der Handschriftenerkennung. In: Trilcke, Peer; Busch, Anna; Helling, Patrick (eds.) DHd 2023 Open Humanities Open Culture. 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" (DHd 2023). Zenodo 10.5281/zenodo.7715357 |
DOI: | 10.5281/zenodo.7715356 |
Popis: | "Anhand des Briefwechsels Heinrich Bullingers (1504-1575), das rund 10'000 Briefe umfasst, demonstrieren wir den Stand der Forschung in automatisierter Handschriftenerkennung. Es finden sich mehr als hundert unterschiedliche Schreiberhände in den Briefen mit sehr unterschiedlicher Verteilung. Das Korpus ist zweisprachig (Latein/Deutsch) und teilweise findet der Sprachwechsel innerhalb von Abschnitten oder gar Sätzen statt. Auf Grund dieser Vielfalt eignet sich der Briefwechsel optimal als Testumgebung für entsprechende Algorithmen und ist aufschlussreiche für Forschungsprojekte und Erinnerungsinstitutionen mit ähnlichen Problemstellungen. Im Paper werden drei Verfahren gegeneinander gestellt und abgewogen. Im folgenden werde drei Ansätze an dem Korpus getestet, die Aufschlüsse zum Stand und möglichen Entwicklungen im Bereich der Handschriftenerkennung versprechen. Erstens wird mit Transkribus eine etablierte Plattform genutzt, die zwei Engines (HTR+ und PyLaia) anbietet. Zweitens wird mit Hilfe von Data Augmentation versucht die Erkennung mit der state-of-the-art Engine HTRFlor zu verbessern und drittens werden neue Transformer-basierte Modelle (TrOCR) eingesetzt." Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture. |
Databáze: | OpenAIRE |
Externí odkaz: |