Arabic Language Text Classification Using Dependency Syntax-Based Feature Selection
Autor: | HARALAMBOUS , Yannis, ELIDRISSI , Yassir, Lenca , Philippe |
---|---|
Přispěvatelé: | Lab-STICC_TB_CID_DECIDE, Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance (Lab-STICC), École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS), Département informatique (INFO), Université européenne de Bretagne - European University of Brittany (UEB)-Télécom Bretagne-Institut Mines-Télécom [Paris] (IMT), Département Logique des Usages, Sciences sociales et Sciences de l'Information (LUSSI), Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance ( Lab-STICC ), École Nationale d'Ingénieurs de Brest ( ENIB ) -Université de Bretagne Sud ( UBS ) -Université de Brest ( UBO ) -Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques ( IBNM ), Université de Brest ( UBO ) -Université européenne de Bretagne ( UEB ) -ENSTA Bretagne-Institut Mines-Télécom [Paris]-Centre National de la Recherche Scientifique ( CNRS ) -École Nationale d'Ingénieurs de Brest ( ENIB ) -Université de Bretagne Sud ( UBS ) -Université de Brest ( UBO ) -Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques ( IBNM ), Université de Brest ( UBO ) -Université européenne de Bretagne ( UEB ) -ENSTA Bretagne-Institut Mines-Télécom [Paris]-Centre National de la Recherche Scientifique ( CNRS ), Département informatique ( INFO ), Université européenne de Bretagne ( UEB ) -Télécom Bretagne-Institut Mines-Télécom [Paris], Département Logique des Usages, Sciences sociales et Sciences de l'Information ( LUSSI ) |
Jazyk: | angličtina |
Rok vydání: | 2014 |
Předmět: |
FOS: Computer and information sciences
[ INFO.INFO-TT ] Computer Science [cs]/Document and Text Processing Support Vector Machine Computer Science - Computation and Language Règles d'association Traitement automatique de langue 02 engineering and technology Syntaxe de dépendances Langue arabe [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing 030507 speech-language pathology & audiology 03 medical and health sciences [STAT.ML]Statistics [stat]/Machine Learning [stat.ML] 0202 electrical engineering electronic engineering information engineering 020201 artificial intelligence & image processing [ INFO.INFO-CL ] Computer Science [cs]/Computation and Language [cs.CL] Classification de texte 0305 other medical science Computation and Language (cs.CL) [ STAT.ML ] Statistics [stat]/Machine Learning [stat.ML] |
Zdroj: | Proceedings CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe, Nov 2014, Oujda, Morocco. pp.31-40 CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe, Nov 2014, Oujda, Morocco. pp.31-40, 2014 |
Popis: | We study the performance of Arabic text classification combining various techniques: (a) tfidf vs. dependency syntax, for feature selection and weighting; (b) class association rules vs. support vector machines, for classification. The Arabic text is used in two forms: rootified and lightly stemmed. The results we obtain show that lightly stemmed text leads to better performance than rootified text; that class association rules are better suited for small feature sets obtained by dependency syntax constraints; and, finally, that support vector machines are better suited for large feature sets based on morphological feature selection criteria. 10 pages, 4 figure, accepted at CITALA 2014 (http://www.citala.org/) |
Databáze: | OpenAIRE |
Externí odkaz: |