Ajout de nouveaux noms propres au vocabulaire d’un système de transcription en utilisant un corpus diachronique
Autor: | Illina, Irina, Fohr, Dominique, Linarès, Georges |
---|---|
Přispěvatelé: | Analysis, perception and recognition of speech (PAROLE), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, ANR-12-BS02-0009,ContNomina,Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio(2012), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Fohr, Dominique, BLANC - Exploitation du contexte pour la reconnaissance de noms propres dans les documents diachroniques audio - - ContNomina2012 - ANR-12-BS02-0009 - BLANC - VALID |
Jazyk: | francouzština |
Rok vydání: | 2014 |
Předmět: | |
Zdroj: | Revue TAL Revue TAL, ATALA (Association pour le Traitement Automatique des Langues), 2014, 55 (2), pp.47-72 Revue TAL, 2014, 55 (2), pp.47-72 |
ISSN: | 1248-9433 1965-0906 |
Popis: | Les noms propres sont souvent indispensables pour comprendre l’information contenue dans un document. Notre travail se concentre sur l’augmentation automatique du vocabulaire d’un système de transcription automatique de la parole (RAP) à partir d’un corpus diachronique. Nous faisons l’hypothèse que certains noms propres apparaissent dans des documents relatifs à la même période temporelle et dans des contextes lexicaux similaires. Trois méthodes de sélection de noms propres sont proposées pour augmenter de façon dynamique le vocabulaire en utilisant des informations lexicales et temporelles. Les méthodes sont fondées sur des statistiques de cooccurrences dans des fenêtres de taille fixe, sur l’information mutuelle et sur le modèle vectoriel. Différents paramètres de sélection de noms propres sont également étudiés afin de limiter l’augmentation du vocabulaire. Les résultats de reconnaissance montrent une réduction significative du taux d’erreur de noms propres en utilisant un vocabulaire augmenté. |
Databáze: | OpenAIRE |
Externí odkaz: |