TArC Un corpus d'arabish tunisien
Autor: | Gugliotta, Elisa, Dinarelli, Marco |
---|---|
Přispěvatelé: | Laboratoire d'Informatique de Grenoble (LIG), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA) |
Jazyk: | francouzština |
Rok vydání: | 2020 |
Předmět: |
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing
Arabizi hal : hal-02784772. Cette oeuvre est mise à disposition sous licence Attribution 4.0 International [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] Arabic Dialect Tunisian arabish Corpus [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE] |
Zdroj: | Traitement Automatique des Langues Naturelles (TALN) Traitement Automatique des Langues Naturelles (TALN), Jun 2020, Nancy, France |
Popis: | International audience; Cet article décrit la procédure de constitution du premier corpus d'arabish tunisien (TArC) annoté avec des informations morpho-syntaxiques. L'arabish est la transcription spontanée des dialectes arabes en caractères latins et arythmographies, c'est à dire avec des chiffres utilisées comme lettres. Ce système d'encodage a été développé par les utilisateurs arabes des réseaux sociaux afin de faciliter l'écriture dans les communications informelles. L'arabish diffère pour chaque dialecte arabe et il est sous-doté en termes de ressources, de la même façon que la plupart des dialectes arabes. Dans les dernières années, l'attention des travaux de recherche en TAL sur les dialectes arabes est augmentée de façon remarquable. En prenant ceci en compte, TArC serait un support utile pour plusieurs types d'analyses, computationnelles ainsi que linguistiques, et pour l'apprentissage d'outils informatiques. Nous décrivons le travail fait pour mettre en place une procédure d'acquisition semi-automatique du corpus TArC, ainsi que certaines analyses faites sur les données collectées. Afin de montrer les difficultés rencontrées pendant la procédure de constitution du corpus, nous présentons également les caractéristiques principales du dialecte tunisien, ainsi que sa transcription en arabish. |
Databáze: | OpenAIRE |
Externí odkaz: |