Arabic Language Text Classification Using Dependency Syntax-Based Feature Selection

Autor: HARALAMBOUS , Yannis, ELIDRISSI , Yassir, Lenca , Philippe
Přispěvatelé: Lab-STICC_TB_CID_DECIDE, Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance (Lab-STICC), École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS), Département informatique (INFO), Université européenne de Bretagne - European University of Brittany (UEB)-Télécom Bretagne-Institut Mines-Télécom [Paris] (IMT), Département Logique des Usages, Sciences sociales et Sciences de l'Information (LUSSI), Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance ( Lab-STICC ), École Nationale d'Ingénieurs de Brest ( ENIB ) -Université de Bretagne Sud ( UBS ) -Université de Brest ( UBO ) -Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques ( IBNM ), Université de Brest ( UBO ) -Université européenne de Bretagne ( UEB ) -ENSTA Bretagne-Institut Mines-Télécom [Paris]-Centre National de la Recherche Scientifique ( CNRS ) -École Nationale d'Ingénieurs de Brest ( ENIB ) -Université de Bretagne Sud ( UBS ) -Université de Brest ( UBO ) -Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques ( IBNM ), Université de Brest ( UBO ) -Université européenne de Bretagne ( UEB ) -ENSTA Bretagne-Institut Mines-Télécom [Paris]-Centre National de la Recherche Scientifique ( CNRS ), Département informatique ( INFO ), Université européenne de Bretagne ( UEB ) -Télécom Bretagne-Institut Mines-Télécom [Paris], Département Logique des Usages, Sciences sociales et Sciences de l'Information ( LUSSI )
Jazyk: angličtina
Rok vydání: 2014
Předmět:
FOS: Computer and information sciences
[ INFO.INFO-TT ] Computer Science [cs]/Document and Text Processing
Support Vector Machine
Computer Science - Computation and Language
Règles d'association
Traitement automatique de langue
02 engineering and technology
Syntaxe de dépendances
Langue arabe
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing
030507 speech-language pathology & audiology
03 medical and health sciences
[STAT.ML]Statistics [stat]/Machine Learning [stat.ML]
0202 electrical engineering
electronic engineering
information engineering

020201 artificial intelligence & image processing
[ INFO.INFO-CL ] Computer Science [cs]/Computation and Language [cs.CL]
Classification de texte
0305 other medical science
Computation and Language (cs.CL)
[ STAT.ML ] Statistics [stat]/Machine Learning [stat.ML]
Zdroj: Proceedings CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe
CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe
CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe, Nov 2014, Oujda, Morocco. pp.31-40
CITALA 2014 : 5ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe, Nov 2014, Oujda, Morocco. pp.31-40, 2014
Popis: We study the performance of Arabic text classification combining various techniques: (a) tfidf vs. dependency syntax, for feature selection and weighting; (b) class association rules vs. support vector machines, for classification. The Arabic text is used in two forms: rootified and lightly stemmed. The results we obtain show that lightly stemmed text leads to better performance than rootified text; that class association rules are better suited for small feature sets obtained by dependency syntax constraints; and, finally, that support vector machines are better suited for large feature sets based on morphological feature selection criteria.
10 pages, 4 figure, accepted at CITALA 2014 (http://www.citala.org/)
Databáze: OpenAIRE