Correzione dell'OCR per Corpus-assisted Discourse Studies: un caso di studio su vecchi quotidiani
Autor: | Del Fante, Dario, Di Nunzio, Giorgio Maria |
---|---|
Jazyk: | italština |
Rok vydání: | 2022 |
DOI: | 10.6092/issn.2532-8816/13689 |
Popis: | L'uso di software di riconoscimento OCR per convertire i caratteri stampati in testo digitale �� uno strumento fondamentale per quanto riguarda l'ambito di studio degli approcci diacronici all���analisi del discorso politico attraverso i corpora (CADS studies). Tuttavia, i software OCR non sono totalmente affidabili, e il loro tasso di fallibilit�� pu�� compromettere l'analisi. Questo articolo propone un approccio qualitativo-quantitativo al rilevamento e alla correzione degli errori post scansione OCR al fine di sviluppare una metodologia per migliorare la qualit�� dei corpora all���interno degli studi storici. Abbiamo applicato la metodologia sviluppata a due casi di studio su giornali dell'inizio del XX secolo per l'analisi linguistica delle rappresentazioni metaforico delle migrazioni e delle pandemie. Il risultato di questo progetto consiste in un insieme di regole che sono valide per diversi contesti e applicabili a diversi corpora e che possono essere riutilizzate. La procedura proposta, in termini di leggibilit�� computazionale, ha lo scopo di rendere pi�� leggibile e ricercabile la vasta gamma di corpora di testi storici che sono, al momento, solo parzialmente utilizzabili dato l'alto tasso di errore derivante da un software di riconoscimento OCR. Umanistica Digitale, No. 11 (2021): DHs for society: e-quality, participation, rights and values in the Digital Age |
Databáze: | OpenAIRE |
Externí odkaz: |