Normalisation articulatoire du locuteur par méthodes de décomposition tri-linéaire basées sur des données IRM

Autor: Valdés Vargas, Julián Andrés, Badin, Pierre, Lamalle, Laurent, Ananthakrishnan, Gopal
Přispěvatelé: GIPSA - Machines parlantes, Gestes oro-faciaux, Interaction Face-à-face, Communication augmentée (GIPSA-MAGIC), Département Parole et Cognition (GIPSA-DPC), Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), RMN biomédicale : de la cellule à l'homme (RBCH), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-CHU Grenoble-DIR CENTRALE DU SSA-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS), Department of Speech, Music and Hearing [KTH Stockholm] (KTH TMH), Royal Institute of Technology [Stockholm] (KTH ), ATALA-AFCP
Jazyk: angličtina
Rok vydání: 2012
Předmět:
Zdroj: Actes de la conférence conjointe JEP-TALN-RECITAL 2012, volume 1 : JEP
JEP-TALN-RECITAL 2012-conférence conjointe 29e Journées d'Études sur la Parole, 19e Traitement Automatique des Langues Naturelles, 14e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues
JEP-TALN-RECITAL 2012-conférence conjointe 29e Journées d'Études sur la Parole, 19e Traitement Automatique des Langues Naturelles, 14e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, Jun 2012, Grenoble, France. pp.529-536
Popis: International audience; Articulatory speaker normalisation based on MRI-data using three-way linear decomposition methods The aim of this study was to characterise, to model and to compare the different lingual articulatory strategies of a group of speakers. Individual principal component analysis (PCA) models and multi-linear decomposition methods have been applied to the tongue contours extracted from a magnetic resonance imaging (MRI) corpus of seven speakers articulating 63 French vowels and consonants. On the average over the seven speakers, using 4 components, the Root Mean Square prediction Error (RMSE) was 0.13 cm for the individual PCA models while the RMSE for the parallel factor model (PARAFAC) was 0.29 cm, accounting for a percentage of variance explanation of 91% and 62%, respectively. A multi-linear regression (MRL) model could predict, with 10 components, the tongue contour of a target subject from a given source subject, with about 65% of the variance explained and an RMSE of 0.38 cm. All the models have been assessed by a leave-one-out cross-validation procedure.; Le but de cette étude était de caractériser, modéliser et comparer les différentes stratégies articulatoires linguales pour un groupe de locuteurs. Des modèles individuels par analyse en composantes principales (ACP) et des méthodes de décomposition multilinéaires ont été appliqués aux contours de langue extraits d'un corpus d'imagerie par résonance magnétique (IRM) de sept locuteurs prononçant 63 voyelles et consonnes du français. En moyenne sur les sept locuteurs, en utilisant quatre composantes, l'erreur quadratique moyenne de prédiction (RMSE) était de 0,13 cm pour les modèles individuels ACP et de 0.29 cm pour le modèle 'parallel factor' (PARAFAC), avec des pourcentages de variance expliquée de 91% et 62%, respectivement. Un modèle de régression multilinéaire permet également de prédire avec 10 composantes les contours de langue d'un sujet cible à partir de ceux d'un sujet source avec approximativement 65% de la variance expliquée et une RMSE de 0.38 cm. Tous les modèles ont été évalués par une procédure de validation croisée.
Databáze: OpenAIRE