Remplacement de mentions pour l'adaptation d'un corpus de reconnaissance d'entités nommées à un domaine cible
Autor: | Arthur Amalvy, Vincent Labatut, Richard Dufour |
---|---|
Přispěvatelé: | Amalvy, Arthur, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Traitement Automatique du Langage Naturel (LS2N - équipe TALN ), Laboratoire des Sciences du Numérique de Nantes (LS2N), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-École Centrale de Nantes (Nantes Univ - ECN), Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes université - UFR des Sciences et des Techniques (Nantes univ - UFR ST), Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Nantes Université (Nantes Univ)-Nantes Université - pôle Sciences et technologie, Nantes Université (Nantes Univ)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Nantes Université (Nantes Univ) |
Jazyk: | francouzština |
Rok vydání: | 2022 |
Předmět: |
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] apprentissage profond [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] named entity recognition deep learning augmentation de données [INFO.INFO-TT] Computer Science [cs]/Document and Text Processing reconnaissance d'entités nommées [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] data augmentation |
Zdroj: | HAL 29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN) 29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. pp.198-205 |
Popis: | Named Entity Recognition is a well-studied natural language processing task, that is useful in a number of applications. Since recently, deep-learning models are able to solve this task with good performance. However, datasets used to train and evaluate those models cover a sparse number of domains (newswire, web). As performance for a model trained on a specific domain are generally lower on another one, this implies lower performance for less covered domains. In order to fix this issue, this article proposes to use a data augmentation technique that can be used to adapt a named entity recognition corpus from a source domain to a target domain where the encountered names can be different. We apply this technique to fantasy novels, and we show that it can yield performance gains in that context. La reconnaissance d'entités nommées est une tâche de traitement automatique du langage naturel bien étudiée et utile dans de nombreuses applications. Dernièrement, les modèles neuronaux permettent de la résoudre avec de très bonnes performances. Cependant, les jeux de données permettant l'entraînement et l'évaluation de ces modèles se concentrent sur un nombre restreint de domaines et types de documents (articles journalistiques, internet). Or, les performances d'un modèle entraîné sur un domaine ciblé sont en général moindres dans un autre : ceux moins couverts sont donc pénalisés. Pour tenter de remédier à ce problème, cet article propose d'utiliser une technique d'augmentation de données permettant d'adapter un corpus annoté en entités nommées d'un domaine source à un domaine cible où les types de noms rencontrés peuvent être différents. Nous l'appliquons dans le cadre de la littérature de fantasy, où nous montrons qu'elle peut apporter des gains de performance. |
Databáze: | OpenAIRE |
Externí odkaz: |