Amélioration de la traduction automatique d'un corpus annoté

Autor: Hadj Salah, Marwa, Blanchon, Hervé, Zrigui, Mounir, Schwab, Didier
Přispěvatelé: Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])
Jazyk: francouzština
Rok vydání: 2016
Předmět:
Zdroj: Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 2 : TALN
JEP-TALN-RECITAL 2016
JEP-TALN-RECITAL 2016, Jul 2016, Paris, France
Popis: International audience; Improvement of the automatic translation of an annotated corpus In this article, we present a method to improve the automatic translation of an annotated corpus and transfer its annotations from English to any target language. The idea is to improve method of (Nasirud-din et al., 2015) which leads to many untranslated segments, duplications and disorders. We propose a pre-treatment process for the English SemCor, to adapt it to the statistical machine translation system, as well as a post-treatment process for the output of SMT. We show an increase of 2,9 points in terms of F1 score on a Word Sense Disambiguation task which proves the effectiveness of our method.; Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d'un corpus annoté et porter ses annotations de l'anglais vers une langue cible. Il s'agit d'améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu'il soit adapté au système de traduction automatique statistique utilisé, ainsi qu'un processus de post-traitement pour la sortie. Nous montrons une augmentation de 2,9 points en terme de score F1 sur une tâche de désambiguïsation lexicale ce qui prouve l'efficacité de notre méthode.
Databáze: OpenAIRE