Arabic Language Text Classification Using Dependency Syntax-Based Feature Selection

Autor:	HARALAMBOUS , Yannis, ELIDRISSI , Yassir, Lenca , Philippe
Přispěvatelé:	Lab-STICC_TB_CID_DECIDE, Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance (Lab-STICC), École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS), Département informatique (INFO), Université européenne de Bretagne - European University of Brittany (UEB)-Télécom Bretagne-Institut Mines-Télécom [Paris] (IMT), Département Logique des Usages, Sciences sociales et Sciences de l'Information (LUSSI), Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance ( Lab-STICC ), École Nationale d'Ingénieurs de Brest ( ENIB ) -Université de Bretagne Sud ( UBS ) -Université de Brest ( UBO ) -Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques ( IBNM ), Université de Brest ( UBO ) -Université européenne de Bretagne ( UEB ) -ENSTA Bretagne-Institut Mines-Télécom [Paris]-Centre National de la Recherche Scientifique ( CNRS ) -École Nationale d'Ingénieurs de Brest ( ENIB ) -Université de Bretagne Sud ( UBS ) -Université de Brest ( UBO ) -Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques ( IBNM ), Université de Brest ( UBO ) -Université européenne de Bretagne ( UEB ) -ENSTA Bretagne-Institut Mines-Télécom [Paris]-Centre National de la Recherche Scientifique ( CNRS ), Département informatique ( INFO ), Université européenne de Bretagne ( UEB ) -Télécom Bretagne-Institut Mines-Télécom [Paris], Département Logique des Usages, Sciences sociales et Sciences de l'Information ( LUSSI )
Jazyk:	angličtina
Rok vydání:	2014
Předmět:	FOS: Computer and information sciences [ INFO.INFO-TT ] Computer Science [cs]/Document and Text Processing Support Vector Machine Computer Science - Computation and Language Règles d'association Traitement automatique de langue 02 engineering and technology Syntaxe de dépendances Langue arabe [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing 030507 speech-language pathology & audiology 03 medical and health sciences [STAT.ML]Statistics [stat]/Machine Learning [stat.ML] 0202 electrical engineering electronic engineering information engineering 020201 artificial intelligence & image processing [ INFO.INFO-CL ] Computer Science [cs]/Computation and Language [cs.CL] Classification de texte 0305 other medical science Computation and Language (cs.CL) [ STAT.ML ] Statistics [stat]/Machine Learning [stat.ML]
Zdroj:	Proceedings CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe, Nov 2014, Oujda, Morocco. pp.31-40 CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe, Nov 2014, Oujda, Morocco. pp.31-40, 2014
Popis:	We study the performance of Arabic text classification combining various techniques: (a) tfidf vs. dependency syntax, for feature selection and weighting; (b) class association rules vs. support vector machines, for classification. The Arabic text is used in two forms: rootified and lightly stemmed. The results we obtain show that lightly stemmed text leads to better performance than rootified text; that class association rules are better suited for small feature sets obtained by dependency syntax constraints; and, finally, that support vector machines are better suited for large feature sets based on morphological feature selection criteria. 10 pages, 4 figure, accepted at CITALA 2014 (http://www.citala.org/)
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=doi_dedup___::17a0c913c2e48b016f734e60caf65add http://arxiv.org/abs/1410.4863 Zobrazit plný text záznamu