Un corpus pour optimiser l'identification automatique des chaînes de référence

Autor:	Longo, Laurence
Přispěvatelé:	Linguistique, Langues et Parole (LILPA), Université de Strasbourg (UNISTRA), Longo, Laurence
Jazyk:	francouzština
Rok vydání:	2013
Předmět:	détection automatique de thèmes chaînes de référence traitement automatique des langues classification de documents corpus multi-genres [SCCO.LING] Cognitive science/Linguistics [SCCO.LING]Cognitive science/Linguistics
Zdroj:	Les cahiers de praxématique Les cahiers de praxématique, Montpellier : Presses universitaires de la Méditerranée, 2006-, 2013, Corpus, données, modèles (54-55), pp.249-262
ISSN:	0765-4944 2111-5044
Popis:	ISSN : 0765-4944; National audience; Nous présentons l'étude d'un corpus multi-genres constitué pour identifier de manière automatique les chaînes de référence (CR). Les CR sont des marqueurs linguistiques permettant d'identifier des ruptures ou des continuations thématiques dans le discours. Cette étude s'inscrit dans un projet visant le développement d'un outil de détection automatique de thèmes pour optimiser l'indexation des documents dans un moteur de recherche. Le moteur de recherche utilise l'indexation thématique et prend en compte le genre du document pour fournir à l'utilisateur les documents pertinents liés à sa requête. Dans notre perspective de traitement automatique des langues, nous utilisons un corpus composé de cinq genres textuels (articles journalistiques, éditoriaux, romans, lois européennes, rapports publics) pour étudier les CR. L'étude a révélé des différences quant au matériau linguistique présent dans les CR suivant le genre textuel. Nous utilisons ces propriétés dans notre calcul des CR, pour paramétrer notre outil suivant le genre. Nous discutons les résultats obtenus.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::90aa3355d071780615d22e6aadf27921 https://hal.archives-ouvertes.fr/hal-00866093 Zobrazit plný text záznamu