Quantification et identification des concepts implicites d'une requête

Autor: Deveaud, Romain, Bonnefoy, Ludovic, Bellot, Patrice
Přispěvatelé: Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Laboratoire des Sciences de l'Information et des Systèmes (LSIS), Centre National de la Recherche Scientifique (CNRS)-Arts et Métiers Paristech ENSAM Aix-en-Provence-Université de Toulon (UTLN)-Aix Marseille Université (AMU), Centre d'Enseignement et de Recherche en Informatique - CERI-Avignon Université (AU), Déposants HAL-Avignon, bibliothèque Universitaire, Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Arts et Métiers Paristech ENSAM Aix-en-Provence-Centre National de la Recherche Scientifique (CNRS)
Jazyk: francouzština
Rok vydání: 2013
Předmět:
Zdroj: Coria 2013
Coria 2013, Apr 2013, Neuchâtel, Suisse
Popis: National audience; 2 LSIS-Aix-Marseille Université patrice.bellot@lsis.org RÉSUMÉ. Nous proposons dans cet article une méthode non supervisée pour l'identification et la modélisation de concepts associés à une recherche d'information. Nous utilisons l'alloca-tion de Dirichlet latente (LDA), un modèle génératif probabiliste, pour détecter les concepts implicites de la requête en utilisant les documents obtenus par un processus de retour de perti-nence simulé (ou documents de feedback). Notre approche estime automatiquement le nombre de concepts ainsi que le nombre de documents de feedback sans aucun apprentissage préalable ni paramétrage. Les concepts implicites sont pondérés afin de refléter leur importance relative par rapport à la requête et sont utilisés pour modifier l'ordre des documents renvoyés à l'utili-sateur. Nous utilisons quatre sources d'information générales de natures différentes (web, jour-nalistique, encyclopédique) à partir desquelles les documents de feedback sont extraits. Nous comparons différentes approches état-de-l'art sur deux collections ad-hoc de TREC, et les ré-sultats montrent que l'utilisation de concepts implicites identifiés par notre méthode améliore significativement les performances de recherche documentaire. ABSTRACT. In this paper we introduce an unsupervised method for mining and modeling latent search concepts. We use Latent Dirichlet Allocation (LDA), a generative probabilistic topic model, to exhibit highly-specific query-related topics from pseudo-relevant feedback documents. Our approach automatically estimates the number of latent concepts as well as the needed amount of feedback documents, without any prior training step. Latent concepts are then weighted to reflect their relative adequacy and are further used to automatically reformu-late the initial user query. We also explore the use of different types of sources of information for modeling the latent concepts. For this purpose, we use four general sources of information of various nature (web, news, encyclopedic) from which the feedback documents are extracted. We evaluate our approach over two large ad-hoc TREC collections, and results show that it significantly improves document retrieval effectiveness while best results are achieved by combining latent concepts modeled from all available sources. MOTS-CLÉS : Recherche contextuelle, modélisation thématique, retour de pertinence
Databáze: OpenAIRE