Impact of automatic OCR/HTR correction on named entity recognition in noisy corpora

Autor: Petkovic, Ljudmila, Alrahabi, Motasem, Roe, Glenn
Přispěvatelé: Sorbonne Université (SU), Observatoire des textes, des idées et des corpus (ObTIC), Bibliothèque nationale de France (BnF)-Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)- Sorbonne Center for Artificial Intelligence (SCAI), Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD)-Muséum national d'Histoire naturelle (MNHN)-Institut de Recherche pour le Développement (IRD)-Université de Technologie de Compiègne (UTC)-Institut National de Recherche en Informatique et en Automatique (Inria)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut Européen d'administration des Affaires (INSEAD), Centre d’étude de la langue et des littératures françaises (CELLF), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)
Jazyk: francouzština
Rok vydání: 2022
Předmět:
Zdroj: JIS-Journal of Information Sciences
JIS-Journal of Information Sciences, 2022, 21 (2), pp.42-57. ⟨10.34874/IMIST.PRSM/jis-v21i2.36599⟩
ISSN: 1113-4844
DOI: 10.34874/IMIST.PRSM/jis-v21i2.36599⟩
Popis: International audience; We present an experiment conducted on the automatic spelling correction of texts resulting from optical character recognition (OCR), with the objective of measuring the impact of corrections on an information extraction task. Using a sample of OCRed digitized archival documents, we applied a named entity recognition system before and after orthographic correction. The results obtained showed that the spelling checker improves certain automatic natural language processing tasks. An extension of the proposed approach by re-training on a larger corpus is also presented to further optimize the results obtained.; Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d'un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. Les résultats obtenus ont montré que le correcteur orthographique permet d’améliorer certaines tâches du traitement automatique du langage naturel. Une extension de l’approche proposée par un ré-entraînement sur un plus grand corpus est également présentée pour optimiser davantage les résultats obtenus.
Databáze: OpenAIRE