Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité

Autor: Ljudmila PETKOVIC, Motasem ALRAHABI, Glenn ROE
Jazyk: English<br />French
Rok vydání: 2022
Předmět:
Zdroj: Journal of Information Sciences, Vol 21, Iss 2 (2022)
Druh dokumentu: article
ISSN: 1113-4844
2820-6894
DOI: 10.34874/IMIST.PRSM/jis-v21i2.36599
Popis: Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. D’un côté, les résultats de comparaison nous montrent que cette technique du traitement automatique des langues est relativement robuste ; de l’autre côté, nous montrons que ce correcteur orthographique n’est pas entièrement adapté à notre corpus historique et nécessite un ré-entraînement sur un plus grand corpus, mieux adapté.
Databáze: Directory of Open Access Journals