Un modelo híbrido orientado a la síntesis multimodal del habla

Autor: Iriondo Sanz, Ignasi, Alías Pujol, Francesc, Melenchón Maldonado, Javier
Přispěvatelé: Universitat Ramon Llull. La Salle
Rok vydání: 2002
Předmět:
Zdroj: RUA. Repositorio Institucional de la Universidad de Alicante
Universidad de Alicante (UA)
RECERCAT (Dipòsit de la Recerca de Catalunya)
Recercat. Dipósit de la Recerca de Catalunya
instname
Popis: En este artículo se presenta un sistema de conversión texto-habla de alta calidad utilizando voz segmentada en difonemas y trifonemas. El sistema de síntesis implementado se basa en un modelo híbrido que combina aspectos de un modelo "armónico + ruido", con el que se descompone la señal de voz original en dos componentes, y aspectos del TD-PSOLA. Los procesos de análisis y síntesis se realizan síncronamente con el pitch, de forma que se pueden conseguir modificaciones prosódicas con un alto grado de naturalidad en el habla generada gracias a la representación paramétrica de la señal de voz. Este sistema resulta una buena solución para la síntesis del habla emocionada, que requiere grandes variaciones de la prosodia. El objetivo final de este proyecto consiste en implementar este modelo híbrido de síntesis en un sistema de síntesis audiovisual del habla, capaz de generar síncronamente voz y animación facial para simular expresiones emocionales. In this paper we present a high-quality text-to-speech system using diphones and triphones. The implemented synthesis system is based on a hybrid model that combines a harmonic plus noise decomposition technique with some features of TD-PSOLA. The analysis and the synthesis processes are pitch-synchronous, so prosodic modifications can be generated achieving a more natural-sounding of synthetic speech. This parametric representation of speech outperforms other techniques for concatenative synthesis (e.g., TD-PSOLA) in intelligibility and naturalness, so it is a good solution for emotional speech synthesis, which requires high-quality prosody modifications. The final goal of this project is to integrate this hybrid speech synthesis method in a text-to-audiovisual speech system that can generate synchronously speech and facial animation to emulate emotional expressions. Este trabajo se ha realizado en parte con el apoyo del Departament d'Universitats, Recerca i Societat de la Informació de la Generalitat de Catalunya mediante la beca 2000FI-00679 del DOGC 07/02/01.
Databáze: OpenAIRE