Annotation of discourse particles in French over a large variety of speech corpora

Autor: Bartkova, Katarina, Dargnat, Mathilde, Jouvet, Denis, Lee, Lou
Přispěvatelé: Analyse et Traitement Informatique de la Langue Française (ATILF), Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Speech Modeling for Facilitating Oral-Based Communication (MULTISPEECH), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), CPER LCHNGrid5000, Grid'5000
Jazyk: francouzština
Rok vydání: 2017
Předmět:
Zdroj: ACor4French-Les corpus annotés du français, TALN'2017-Traitement Automatique des Langues Naturelles
ACor4French-Les corpus annotés du français, TALN'2017-Traitement Automatique des Langues Naturelles, Jun 2017, Orléans, France
Popis: National audience; In French, some words and expressions are frequently used as discourse particles in spoken language, especially in spontaneous speech. As the semantic meaning of such words differ whether they are used as discourse particles or not, the correct identification of their discourse function is of great importance. To study such discourse particles, as well as their prosodic correlates, a large variety of speech corpora exhibiting various degrees of spontaneity are considered. They range from prepared speech (e.g., storytelling and broadcast news) to spontaneous speech (e.g., interviews and interactions between people). This paper presents the speech corpora considered, the selection of word occurrences, the annotation of their discourse particle function, the computed prosodic features, as well as the frequency of usage of a few selected words as discourse particle on the various corpora.; En français, certains mots et expressions sont fréquemment utilisés en tant que particules de discours dans le langage parlé, en particulier en parole spontanée. Comme la signification sémantique de tels mots varie selon qu'ils sont utilisés en tant que particule de discours ou non, l'identification correcte de leur fonction discursive est importante. Pour étudier les particules de discours, ainsi que leurs corrélats prosodiques, une large variété de corpus de parole correspondant à différents degrés de spontanéité sont considérés. Cela va de la parole préparée (e.g., contes et journaux d'information radiodiffusés) à la parole spontanée (e.g., interviews et interactions entre personnes). Ce papier présente les corpus considérés, la sélection d'occurrences des mots, l'annotation de leur fonction discursive, les paramètres prosodiques calculés, ainsi que la fréquence d'utilisation de quelques mots en tant que particule de discours sur les divers corpus.
Databáze: OpenAIRE