Time-Frequency Energy Features for Articulator Position Inference on Stop Consonants

Autor: Alexander Sepulveda-Sepulveda, German Castellanos-Domínguez
Jazyk: angličtina
Rok vydání: 2012
Předmět:
Zdroj: Ingeniería y Ciencia, Volume: 8, Issue: 16, Pages: 37-56, Published: JUL 2012
Ingeniería y Ciencia, Vol 8, Iss 16 (2012)
Popis: Acoustic-to-Articulatory inversion offers new perspectives and interesting applications in the speech processing field; however, it remains an open issue. This paper presents a method to estimate the distribution of the articulatory information contained in the stop consonants' acoustics, whose parametrization is achieved by using the wavelet packet transform. The main focus is on measuring the relevant acoustic information, in terms of statistical association, for the inference of the position of critical articulators involved in stop consonants production. The rank correlation Kendall coefficient is used as the relevance measure. The maps of relevant time-frequency features are calculated for the MOCHA-TIMIT database; from which, stop consonants are extracted and analysed. The proposed method obtains a set of time-frequency components closely related to articulatory phenemenon, which offers a deeper understanding into the relationship between the articulatory and acoustical phenomena. The relevant maps are tested into an acoustic-to-articulatory mapping system based on Gaussian mixture models, where it is shown they are suitable for improving the performance of such a systems over stop consonants. The method could be extended to other manner of articulation categories, e.g. fricatives, in order to adapt present method to acoustic-to-articulatory mapping systems over whole speech. La inversión articulatoria ofrece nuevas perspectivas y aplicaciones interesantes en el campo de la voz; sin embargo, es aún un problema por resolver. El presente trabajo ofrece un método para la estimación de la distribución de la información articulatoria contenida en la acústica de consonantes explosivas, cuya parametrización se realiza mediante la transformada wavelet packet. El trabajo se centra principalmente en estimar la información acústica relevante, en términos de asociación estadística, para la inferencia de la posición de los órganos articuladores críticos involucrados en la producción de consonantes explosivas. Se usa el coeficiente de Kendall a modo de medida de relevancia. Los mapas de relevancia de tiempo-frecuencia se calculan para la base de datos MOCHA-TIMIT; de la cual, las zonas correspondientes a las consonantes explosivas son analizados. El método propuesto entrega un conjunto de componentes de tiempo-frecuencia intimamente relacionados al fenómeno articulatorio, lo cual ofrece un entendimiento más profundo de la relación existente entre los fenómenos articulatorio y acústico. Los mapas de relevancia se prueban en un sistema de inversión articulatoria basado en modelos de mezclas gausianas, donde se muestra que mejoran el desempeño de los mencionados sistemas aplicados sobre consonantes explosivas. El método se puede extender a otras categorías articulatorias, p.e. fricativas, con el fin de adaptar el presente método a sistemas de inversión articulatoria sobre voz continua
Databáze: OpenAIRE