Modélisation acoustico-phonétique de langues peu dotées : Études phonétiques et travaux de reconnaissance automatique en luxembourgois

Autor:	Adda-Decker, Martine, Lamel, Lori, Adda, Gilles
Přispěvatelé:	Lo Bue, Gwénaëlle, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11)
Jazyk:	francouzština
Rok vydání:	2014
Předmět:	multilingual models Forced alignment acoustic modeling large vocabulary speech recognition Luxembourgish under-resourced languages système de transcription de la parole [SHS.LANGUE] Humanities and Social Sciences/Linguistics [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] [INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] modèles multilingues luxembourgeois alignements forcés [SHS.LANGUE]Humanities and Social Sciences/Linguistics Langues peu dotées modélisation acoustique
Zdroj:	Actes des XXXe Journées d'Études sur la Parole (JEP'14) XXXe Journées d'Études sur la Parole (JEP'14) XXXe Journées d'Études sur la Parole (JEP'14), Jun 2014, Le Mans, France. pp.284-292
Popis:	Luxembourgish, a Germanic-Franconian language, is embedded in a multilingual context on the divide between Romance and Germanic cultures and remains one of Europe’s under-described languages. This paper investigates the similarity between Luxembourgish phone segments with German, French and English via forced speech alignment techniques. Making use of monolingual acoustic seed models from these three languages, as well as “multilingual” models trained on pooled speech data we investigated whether Luxembourgish was globally better represented by one of the individual languages or by the multilingual model. While globally, the German models provide the best match, a phone-based analysis, shows language-specific preferences. First ASR results illustrate the accuracy of the various sets of monolingual and multilingual acoustic models and Luxemburgish acoustic models built from 1200 hours of untranscribed Luxemburgish audio data using unsupervised methods? Le luxembourgeois est une langue germano-franconique et l’une des langues européennes sous-décrites. Cet article étudie la similitude entre les segments phonétiques en luxembourgeois avec leurs équivalents en allemand, français et anglais via des techniques d’alignement forcés. En utilisant les modèles acoustiques monolingues d’amorçage de ces trois langues, ainsi que des modèles "multilingues" entraînés sur un corpus de parole obtenu par concaténation, nous avons examiné si le luxembourgeois était mieux représenté par l’une des langues prises individuellement ou par le modèle multilingue. Au niveau global, les modèles allemands fournissent la meilleure correspondance, mais une analyse par segments montre des préférences spécifiques. Les premiers résultats en transcriptions illustrent les performances des différents jeux de modèles acoustiques monolingues et multilingues, ainsi que les modèles luxembourgeois construits à partir de 1200 heures de parole non transcrites en luxembourgeois, et des méthodes non supervisées.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::216ccc62f83ceca19bf07681010a04ee https://hal.science/hal-01134888 Zobrazit plný text záznamu