Un corpus pour optimiser l'identification automatique des chaînes de référence

Autor: Longo, Laurence
Přispěvatelé: Linguistique, Langues et Parole (LILPA), Université de Strasbourg (UNISTRA), Longo, Laurence
Jazyk: francouzština
Rok vydání: 2013
Předmět:
Zdroj: Les cahiers de praxématique
Les cahiers de praxématique, Montpellier : Presses universitaires de la Méditerranée, 2006-, 2013, Corpus, données, modèles (54-55), pp.249-262
ISSN: 0765-4944
2111-5044
Popis: ISSN : 0765-4944; National audience; Nous présentons l'étude d'un corpus multi-genres constitué pour identifier de manière automatique les chaînes de référence (CR). Les CR sont des marqueurs linguistiques permettant d'identifier des ruptures ou des continuations thématiques dans le discours. Cette étude s'inscrit dans un projet visant le développement d'un outil de détection automatique de thèmes pour optimiser l'indexation des documents dans un moteur de recherche. Le moteur de recherche utilise l'indexation thématique et prend en compte le genre du document pour fournir à l'utilisateur les documents pertinents liés à sa requête. Dans notre perspective de traitement automatique des langues, nous utilisons un corpus composé de cinq genres textuels (articles journalistiques, éditoriaux, romans, lois européennes, rapports publics) pour étudier les CR. L'étude a révélé des différences quant au matériau linguistique présent dans les CR suivant le genre textuel. Nous utilisons ces propriétés dans notre calcul des CR, pour paramétrer notre outil suivant le genre. Nous discutons les résultats obtenus.
Databáze: OpenAIRE