Méthodologie pour la constitution d’un corpus comparatif de narration orale en Occitan : objectifs, défis, solutions

Autor: Janice Carruthers, Marianne Vergez-Couret
Přispěvatelé: Vergez-Couret, Marianne, Queen's University [Belfast] (QUB)
Jazyk: francouzština
Rok vydání: 2018
Předmět:
Zdroj: Corpus
Corpus, Bases, Corpus, Langage-UMR 7320, 2018
ISSN: 1638-9808
1765-3126
Popis: Dans cet article, nous présentons et discutons de notre méthodologie pour la constitution d’un « petit corpus » comparatif de narration orale en occitan. Il s’agit d’un « petit corpus » nouveau et unique, dans une langue minorisée, ce qui soulève un certain nombre de défis particuliers : la complexité des rapports entre l’écrit et l’oral dans la pratique du conte d’une part, et d’autre part, de nombreuses difficultés méthodologiques (variations diatopique, diachronique et sociolinguistique ; absence de données numérisées ; outils de traitement automatique des langues en cours de développement). Cet article propose non seulement une méthodologie pour la constitution d’un corpus permettant d’explorer divers degrés d’oralité, mais contribue aussi plus globalement au débat sur la problématique des « petits corpus » pour les langues minorisées. In this article, we present and discuss our methodology for building a comparative “small corpus” of oral narrative in Occitan. This involves constructing a new and unique “small corpus” in a minoritised language, a task that will present a certain number of specific challenges. These include the complexity of the relationship between oral and written discourse in the case of storytelling, as well as numerous methodological difficulties (diatopic, diachronic and sociolinguistic variation; a lack of digitized data; natural language processing tools which are still in development). This article proposes not only a methodology for building a corpus that will allow us to explore different degrees of orality, but also makes a broader contribution to theory and practice in relation to “small corpora” in minoritised languages.
Databáze: OpenAIRE