Réseau de neurones convolutif pour l'évaluation automatique de la prononciation

Autor: Pellegrini, Thomas, Fontan, Lionel, Sahraoui, Halima
Přispěvatelé: Centre National de la Recherche Scientifique - CNRS (FRANCE), Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE), Université Toulouse III - Paul Sabatier - UT3 (FRANCE), Université Toulouse - Jean Jaurès - UT2J (FRANCE), Université Toulouse 1 Capitole - UT1 (FRANCE), Archean Technologies (FRANCE), Unité de Recherche Interdisciplinaire Octogone-Lordat - URI Octogone-Lordat (Toulouse, France), Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Unité de Recherche Interdisciplinaire Octogone-Lordat (Octogone-Lordat), Université Toulouse - Jean Jaurès (UT2J), Université Toulouse 1 Capitole (UT1)-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Institut National Polytechnique de Toulouse - INPT (FRANCE)
Jazyk: angličtina
Rok vydání: 2016
Předmět:
Zdroj: Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 1 : JEP
Journées d'Etudes sur la Parole (JEP 2016)
Journées d'Etudes sur la Parole (JEP 2016), Jul 2016, Paris, France. pp.624-632
Journées d'Etudes sur la Parole (JEP 2016), Jul 2016, Paris, France. pp. 624-632
Popis: International audience; Dans cet article, nous comparons deux approches d’évaluation automatique de la prononciation de locuteurs japonophones apprenant le français. La première, l’algorithme standard appelé Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d’un alignement forcé et lors d’une reconnaissance de phones sans contrainte. La deuxième, nécessitant également un alignement préalable, fait appel à un réseau de neurones convolutif (CNN) comme classifieur binaire, avec comme entrée des trames de coefficients spectraux. Les deux approches sont évaluées sur deux phonèmes cibles /R/ et /v/ du français, particulièrement difficiles à prononcer pour des Japonophones. Les paramètres du GOP (seuils) et du CNN sont estimés sur un corpus de parole lue par des locuteurs natifs du français, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13,4% a été obtenu avec le CNN, avec une précision globale de 72,6%, sur un corpus d’évaluation enregistré par 23 locuteurs japonophones.
Databáze: OpenAIRE