Annoter la parole spontanée en arbres de constituants pour les besoins de l’analyse temporelle : résultats et comparaison français parlé / français écrit

Autor: Jakub Waszczuk, Jean-Yves Antoine, Lotfi Abouda, Aurore Pelletier, Anaïs Halftermeyer, Ilaine Wang
Přispěvatelé: Antoine, Jean-Yves, Bases de données et traitement des langues naturelles (BDTLN), Laboratoire d'Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique Fondamentale d'Orléans (LIFO), Université d'Orléans (UO)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Instituts für Sprache und Information [Düsseldorf], Heinrich Heine Universität Düsseldorf = Heinrich Heine University [Düsseldorf], Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université d'Orléans (UO), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS)
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Zdroj: SHS Web of Conferences, Vol 78, p 11004 (2020)
Congrès Mondial de Linguistique Française
Congrès Mondial de Linguistique Française, Jul 2020, Montpellier, France
ISSN: 2261-2424
Popis: This paper presents the main results drawn from the syntactic part of Temporal@ODIL, a project whose objective is the construction of a temporally annotated corpus of spontaneous speech for French. We describe ODIL_Syntax, a freely distributed constituency treebank on which our temporal annotation is grounded. The syntactic annotation was performed on Contemplata, a Web-based annotation platform developed specifically for our project, which is also freely distributed and which integrates a syntactic parser, allowing a semiautomatic annotation. This paper gives a description of the annotation guidelines and the annotation procedure using Contemplata, as well as a statistical description of our corpus, compared with the French Treebank, the largest constituency-based resource for written French
Cet article présente les principaux résultats de la partie syntaxique du projet Temporal@ODIL, une initiative visant la construction d'un corpus de français parlé spontané annoté en temporalité. Nous présentons ici ODIL_Syntax, corpus arboré en constituants sur lequel s'appuie l'annotation temporelle et qui est diffusé librement sous licence Creative Commons. ODIL_Syntax a été créé à l'aide de Contemplata, une plateforme Web d'annotation développée spécifiquement dans le cadre du projet, diffusée elle aussi librement et qui présente l'intérêt de permettre une annotation semi-automatique utilisant un analyseur syntaxique. L'article décrit la procédure d'annotation avec cet outil, nos choix d'annotation ainsi que le corpus produit, en s'intéressant en particulier à une comparaison avec le corpus équivalent FTB (French Treebank) développé pour l'écrit. Abstract. Constituency annotation of spontaneous speech for temporal analysis needs: results and comparison between spoken and written French. This paper presents the main results drawn from the syntactic part of Temporal@ODIL, a project whose objective is the construction of a temporally annotated corpus of spontaneous speech for French. We describe ODIL_Syntax, a freely distributed constituency treebank on which our temporal annotation is grounded. The syntactic annotation was performed on Contemplata, a Web-based annotation platform developed specifically for our project, which is also freely distributed and which integrates a syntactic parser, allowing a semi-automatic annotation. This paper gives a description of the annotation guidelines and the annotation procedure using Contemplata, as well as a statistical description of our corpus, compared with the French Treebank, the largest constituency-based resource for written French.
Databáze: OpenAIRE