Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité
Autor: | Ljudmila PETKOVIC, Motasem ALRAHABI, Glenn ROE |
---|---|
Jazyk: | English<br />French |
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | Journal of Information Sciences, Vol 21, Iss 2 (2022) |
Druh dokumentu: | article |
ISSN: | 1113-4844 2820-6894 |
DOI: | 10.34874/IMIST.PRSM/jis-v21i2.36599 |
Popis: | Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. D’un côté, les résultats de comparaison nous montrent que cette technique du traitement automatique des langues est relativement robuste ; de l’autre côté, nous montrons que ce correcteur orthographique n’est pas entièrement adapté à notre corpus historique et nécessite un ré-entraînement sur un plus grand corpus, mieux adapté. |
Databáze: | Directory of Open Access Journals |
Externí odkaz: |