La désambiguïsation lexicale d'une langue moins bien dotée, l'exemple de l'arabe

Autor: Hadj Salah, Marwa, Vial, Loïc, Blanchon, Hervé, Zrigui, Mounir, Lecouteux, Benjamin, Schwab, Didier
Přispěvatelé: Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Laboratoire de Recherche en Technologies de l’Information et de la Communication & Génie Electrique [Tunis] (LaTICE), Université de Tunis-Ecole Supérieure des Sciences et Techniques [Tunis] (ESSTT)
Jazyk: francouzština
Rok vydání: 2018
Předmět:
Zdroj: 25e conférence sur le Traitement Automatique des Langues Naturelles
25e conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France
Popis: International audience; Sense-annotated corpus are decisive resources for Word Sense Disambiguation (WSD). Most of the languages have none or too little to build robust systems. In this article, we present 12 sense-annotated corpra for the Arabic language automatically build from 12 corpus in English. We evaluate the quality of our WSD systems using a newly available Arabic evaluation corpus.; Les corpus annotés en sens sont des ressources cruciales pour la tâche de désambiguïsation lexicale (Word Sense Disambiguation). La plupart des langues n'en possèdent pas ou trop peu pour pouvoir construire des systèmes robustes. Nous nous intéressons ici à la langue arabe et présentons 12 corpus annotés en sens, fabriqués automatiquement à partir de 12 corpus en langue anglaise. Nous évaluons la qualité de nos systèmes de désambiguïsation grâce à un corpus d'évaluation en arabe nouvellement disponible.
Databáze: OpenAIRE