Evaluation d'une approche possibiliste pour la désambiguïsation des textes arabes (TALN'2014 – Traitement Automatique des Langues Naturelles, Marseille France, 01/07/14-04/07/14)

Autor: Ayed, Raja, Bounhas, Ibrahim, Elayeb, Bilel, BELLAMINE Ben Saoud, Narjes, Evrard, Fabrice
Přispěvatelé: Grélaud, Françoise, École Nationale des Sciences de l'Informatique [Manouba] (ENSI), Université de la Manouba [Tunisie] (UMA), Institut Supérieur de Documentation [Manouba] (ISD), Laboratoire de recherche en Génie Logiciel, Applications distribuées, Systèmes décisionnels et Imagerie intelligente [Manouba] (RIADI), Université de la Manouba [Tunisie] (UMA)-Université de la Manouba [Tunisie] (UMA), Logique, Interaction, Langue et Calcul (IRIT-LILaC), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées
Jazyk: francouzština
Rok vydání: 2014
Předmět:
Zdroj: Actes de la 21e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014), Marseille (France)
21ème conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014)
21ème conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014), Jul 2014, Marseille, France. pp.340-351
Popis: Morphological disambiguation of Arabic words consists in identifying their appropriate morphological analysis. In this paper, we present three models of morphological disambiguation of non-vocalized Arabic texts based on possibilistic classification. This approach deals with imprecise training and testing datasets, as we learn from untagged texts. We experiment our approach on two corpora i.e. the Hadith corpus and the Arabic Treebank. These corpora contain data of different types: traditional and modern. We compare our models to probabilistic and statistical classifiers. To do this, we transform the structure of the training and the test sets to deal with imprecise data.
La désambiguïsation morphologique d'un mot arabe consiste à identifier l'analyse morphologique appropriée correspondante à ce mot. Dans cet article, nous présentons trois modèles de désambiguïsation morphologique de textes arabes non voyellés basés sur la classification possibiliste. Cette approche traite les données imprécises dans les phases d'apprentissage et de test, étant donné que notre modèle apprend à partir de données non étiquetés. Nous testons notre approche sur deux corpus, à savoir le corpus du Hadith et le Treebank Arabe. Ces corpus contiennent des données de types différents classiques et modernes. Nous comparons nos modèles avec des classifieurs probabilistes et statistiques. Pour ce faire, nous transformons la structure des ensembles d'apprentissage et de test pour remédier au problème d'imperfection des données.
Databáze: OpenAIRE