Apprentissage d'un Espace de Concepts de Mots pour une Nouvelle Représentation des Données Textuelles

Autor:	Young-Min Kim, Massih-Reza Amini, Patrick Gallinari, Jean-François Pessiot
Přispěvatelé:	Machine Learning and Information Retrieval (MALIRE), Laboratoire d'Informatique de Paris 6 (LIP6), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS)
Jazyk:	francouzština
Rok vydání:	2010
Předmět:	05 social sciences partition de mots Library and Information Sciences unsupervised learning 01 natural sciences document clustering partitionnement de documents term clustering apprentissage non-supervisé 010104 statistics & probability [INFO]Computer Science [cs] 0509 other social sciences 0101 mathematics 050904 information & library sciences
Zdroj:	Document numérique-Revue des sciences et technologies de l'information. Série Document numérique Document numérique-Revue des sciences et technologies de l'information. Série Document numérique, 2010, 13 (1), pp.63-82. ⟨10.3166/dn.13.1.63-82⟩ Document Numérique Document Numérique, Lavoisier, 2010, 13 (1), pp.63-82. ⟨10.3166/dn.13.1.63-82⟩ COnférence en Recherche d'Information et Applications (CORIA 2008) COnférence en Recherche d'Information et Applications (CORIA 2008), Mar 2008, Trégastel, France. pp.119-134
ISSN:	1279-5127 1963-1014
DOI:	10.3166/dn.13.1.63-82⟩
Popis:	National audience; Dans cet article nous proposons une technique à base d'apprentissage non supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l'hypothèse que les termes co-occurrant dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d'abord regroupés avec une version classifiante de l'algorithme EM (CEM). Les documents sont ensuite représentés dans l'espace de ces groupes de termes. Nous généralisons cette approche en étendant l'algorithme PLSA pour un partitionnement simultané des termes et des documents. Nous montrons dans une dernière étape la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l'espace sac de mots initial et l'espace des groupes de mots induit par l'algorithme PLSA sur les trois collections de documents Reuters, 20newsgroups et WebKB.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=doi_dedup___::05382c24746271a16c545d8ec1f67442 https://hal.science/hal-01172640 Zobrazit plný text záznamu