TArC Un corpus d'arabish tunisien

Autor: Gugliotta, Elisa, Dinarelli, Marco
Přispěvatelé: Laboratoire d'Informatique de Grenoble (LIG), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA)
Jazyk: francouzština
Rok vydání: 2020
Předmět:
Zdroj: Traitement Automatique des Langues Naturelles (TALN)
Traitement Automatique des Langues Naturelles (TALN), Jun 2020, Nancy, France
Popis: International audience; Cet article décrit la procédure de constitution du premier corpus d'arabish tunisien (TArC) annoté avec des informations morpho-syntaxiques. L'arabish est la transcription spontanée des dialectes arabes en caractères latins et arythmographies, c'est à dire avec des chiffres utilisées comme lettres. Ce système d'encodage a été développé par les utilisateurs arabes des réseaux sociaux afin de faciliter l'écriture dans les communications informelles. L'arabish diffère pour chaque dialecte arabe et il est sous-doté en termes de ressources, de la même façon que la plupart des dialectes arabes. Dans les dernières années, l'attention des travaux de recherche en TAL sur les dialectes arabes est augmentée de façon remarquable. En prenant ceci en compte, TArC serait un support utile pour plusieurs types d'analyses, computationnelles ainsi que linguistiques, et pour l'apprentissage d'outils informatiques. Nous décrivons le travail fait pour mettre en place une procédure d'acquisition semi-automatique du corpus TArC, ainsi que certaines analyses faites sur les données collectées. Afin de montrer les difficultés rencontrées pendant la procédure de constitution du corpus, nous présentons également les caractéristiques principales du dialecte tunisien, ainsi que sa transcription en arabish.
Databáze: OpenAIRE