Extraction probabiliste de chaînes de mots relatives à une opinion

Autor: Lavalley, Rémi, Clavel, Chloé, Bellot, Patrice
Přispěvatelé: Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, EDF (EDF), Déposants HAL-Avignon, bibliothèque Universitaire
Jazyk: francouzština
Rok vydání: 2010
Předmět:
Zdroj: TALN 2010
TALN 2010, Jul 2010, Montréal, Canada
Popis: International audience; RÉSUMÉ. Nous proposons une méthode permettant d'extraire automatiquement des chaînes de mots relatives à des opinions à partir de corpus étiquetés. Il s'agit dans un premier temps d'améliorer les performances de systèmes de catégorisation automatique utilisés pour retrou-ver l'opinion (positive, négative ou neutre) rattachée à un texte. Dans un deuxième temps, la visualisation de ces chaînes permet d'avoir un aperçu des critiques fréquemment rencontrées. Cette méthode est testée sur des corpus en français ou en anglais de critiques de jeux vidéo et de films et sur un corpus d'enquêtes téléphoniques de satisfaction clients. Nous présentons des exemples de chaînes de mots extraites et les améliorations observées pour la catégorisation. ABSTRACT. We present a probabilistic method aimed at extracting opinion-related strings from corpora labeled according to customer mind. These strings first allow us to improve text cate-gorization systems according to opinions (positive, negative or neutral). Second, we use them to display easily what are the frequent comments made by customers about products or services. We test the method on two critical corpora written by internet users about video games and movies (respectively in French language and in English language) and on a customer satisfaction phone survey. For each of them, we present some examples of extracted word chains and the observed improvement obtained for opinion-oriented text categorization task. MOTS-CLÉS : apprentissage automatique, classification d'opinion, Deft, extraction de colloca-tions, Movies polarity dataset, questionnaires téléphoniques, SVM.
Databáze: OpenAIRE