Fidelity Enhancement for Deep Learning-based TTS using a Generative Adversarial Network and Data Augmentation
Autor: | Jin Choi, In-Jung Kim, Jinhyeok Yang |
---|---|
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | KIISE Transactions on Computing Practices. 26:256-260 |
ISSN: | 2383-6318 |
DOI: | 10.5626/ktcp.2020.26.5.256 |
Popis: | 본 논문에서는 생성적 적대 신경망을 이용해 딥러닝 기반 TTS 모델이 합성한 멜 스펙트로그램을 실제 음성의 멜 스펙트로그램과 유사해지도록 개선하는 딥러닝 모델 TE-GAN(TTS Enhancement GAN)을 소개한다. TE-GAN은 음성 신호의 특성을 고려해 설계되었으며, 그리핀-림 알고리즘과 같은 간단한 보코더와 결합되어도 음질 개선 효과가 우수하다. 추가적으로 TE-GAN의 효과적인 학습을 위해 시간적 다중 에이전트(temporal multi-agent, TMA)에 의한 데이터 확장 방법을 제안한다. 실험을 통해 제안하는 방법들이 TTS 시스템이 합성한 음성의 음질을 크게 개선할 수 있음을 보였다. 실험에서 TE-GAN은 Tacotron 이 합성한 멜 스펙트럼을 실제 음성의 멜 스펙트럼과 유사하도록 개선하였으며, 합성된 음성의 MOS도 2.07에서 MOS가 3.24로 크게 개선되었다. |
Databáze: | OpenAIRE |
Externí odkaz: |