RFreeStem un raciniseur pour le malgache
Autor: | Andonirina Andriamihasinoro, Josiane Mothe, Oihana Coustie, Olivier Teste |
---|---|
Přispěvatelé: | Université d'Antananarivo, Systèmes d’Informations Généralisées (IRIT-SIG), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Meunier, Romain |
Jazyk: | francouzština |
Rok vydání: | 2021 |
Předmět: |
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI]
Malagasy Racinisation Malgache Information systems Recherche d'information Raciniseur [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] Traitement automatique des langues naturelles [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] stemming Langues peu outillées [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] Systèmes d'information Information retrieval under-studied languages natural language processing stemmer |
Zdroj: | Actes CORIA 2021 17ème conférence francophone en Recherche d’Information et Application (CORIA 2021) 17ème conférence francophone en Recherche d’Information et Application (CORIA 2021), Apr 2021, Grenoble, France. pp.1-10 HAL |
Popis: | Stemming is a step in text pre-processing that groups together words that are morphologically different but semantically similar, and which therefore, when used in a query in a search engine, should match similar or even identical documents. For many languages, stemmers are rule-based. For languages without tools, the stemming problem remains unsolved. This is the case of Malagasy. This paper analyzes the efficiency of a stemmer, RFreeStem, based on the statistical analysis of texts and without rules. We study the hyperparameters of this stemmer and their influence on the efficiency of the stemming for Malagasy by comparing it to an existing test collection containing manually obtained word roots. La racinisation est une étape dans le pré-traitement des textes qui regroupe des mots qui sont morphologiquement différents mais sémantiquement similaires, et qui donc, utilisés dans une requête, devraient correspondre à des résultats d'un moteur de recherche similaires voire identiques. Pour de nombreuses langues, les raciniseurs sont à base de règles. Pour des langues non outillées, le problème de racinisation demeure non résolu. C'est le cas du malgache. Cet article analyse l'efficacité d'un raciniseur, RFreeStem, basé sur l'analyse statistique des textes et sans règle. Nous étudions les hyperparamètres de ce raciniseur et leur influence sur l'efficacité du raciniseur pour le malgache en se comparant à une collection de test existante et contenant des racines obtenues manuellement. |
Databáze: | OpenAIRE |
Externí odkaz: |