The Zero Resource Speech Challenge 2019: TTS without T

Autor: Julien Karadayi, Laurent Besacier, Lucas Ondel, Ewan Dunbar, Mathieu Bernard, Charlotte Dugrain, Juan Benjumea, Robin Algayres, Xuan-Nga Cao, Alan W. Black, Lucie Miskic, Emmanuel Dupoux, Sakriani Sakti
Přispěvatelé: Université Paris Diderot - Paris 7 (UPD7), Laboratoire de sciences cognitives et psycholinguistique (LSCP), Département d'Etudes Cognitives - ENS Paris (DEC), École normale supérieure - Paris (ENS Paris)-École normale supérieure - Paris (ENS Paris)-Centre National de la Recherche Scientifique (CNRS)-École des hautes études en sciences sociales (EHESS), Apprentissage machine et développement cognitif (CoML), École normale supérieure - Paris (ENS Paris)-École normale supérieure - Paris (ENS Paris)-Centre National de la Recherche Scientifique (CNRS)-École des hautes études en sciences sociales (EHESS)-Département d'Etudes Cognitives - ENS Paris (DEC), École normale supérieure - Paris (ENS Paris)-École normale supérieure - Paris (ENS Paris)-Centre National de la Recherche Scientifique (CNRS)-École des hautes études en sciences sociales (EHESS)-Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Laboratoire de Linguistique Formelle (LLF UMR7110), Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS), Brno University of Technology, Language Technologies Institute [Pittsburgh] (LTI), Carnegie Mellon University [Pittsburgh] (CMU), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Laboratoire d'Informatique de Grenoble (LIG), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP)-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA), Nara Institute of Science and Technology, RIKEN Center for Advanced Intelligence Project (AIP), ANR-11-LABX-0025-01,PERSYVAL-lab,Systèmes et Algorithmes Pervasifs au confluent des mondes physique et numérique(2011), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École des hautes études en sciences sociales (EHESS)-Centre National de la Recherche Scientifique (CNRS), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de sciences cognitives et psycholinguistique (LSCP), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École des hautes études en sciences sociales (EHESS)-Centre National de la Recherche Scientifique (CNRS)-Département d'Etudes Cognitives - ENS Paris (DEC), Brno University of Technology [Brno] (BUT), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP ), Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), RIKEN Center for Advanced Intelligence Project [Tokyo] (RIKEN AIP), RIKEN - Institute of Physical and Chemical Research [Japon] (RIKEN), ANR-11-LABX-0025,PERSYVAL-lab,Systemes et Algorithmes Pervasifs au confluent des mondes physique et numérique(2011), ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019), Centre National de la Recherche Scientifique (CNRS)-Université Paris Diderot - Paris 7 (UPD7), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École des hautes études en sciences sociales (EHESS)-Centre National de la Recherche Scientifique (CNRS)-Inria de Paris
Jazyk: angličtina
Rok vydání: 2019
Předmět:
FOS: Computer and information sciences
Sound (cs.SD)
Computer science
Speech recognition
Acoustic unit discovery
Speech synthesis
02 engineering and technology
computer.software_genre
Unsupervised learning
Computer Science - Sound
030507 speech-language pathology & audiology
03 medical and health sciences
Raw audio format
Resource (project management)
Transcription (linguistics)
[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG]
Audio and Speech Processing (eess.AS)
0202 electrical engineering
electronic engineering
information engineering

FOS: Electrical engineering
electronic engineering
information engineering

[SPI.ACOU]Engineering Sciences [physics]/Acoustics [physics.class-ph]
Computer Science - Computation and Language
020206 networking & telecommunications
Zero (linguistics)
ComputingMethodologies_PATTERNRECOGNITION
Zero resource speech technology
0305 other medical science
computer
Computation and Language (cs.CL)
Electrical Engineering and Systems Science - Audio and Speech Processing
Zdroj: Interspeech 2019-20th Annual Conference of the International Speech Communication Association
Interspeech 2019-20th Annual Conference of the International Speech Communication Association, Sep 2019, Graz, Austria
Interspeech 2019
HAL
INTERSPEECH
Popis: We present the Zero Resource Speech Challenge 2019, which proposes to build a speech synthesizer without any text or phonetic labels: hence, TTS without T (text-to-speech without text). We provide raw audio for a target voice in an unknown language (the Voice dataset), but no alignment, text or labels. Participants must discover subword units in an unsupervised way (using the Unit Discovery dataset) and align them to the voice recordings in a way that works best for the purpose of synthesizing novel utterances from novel speakers, similar to the target speaker's voice. We describe the metrics used for evaluation, a baseline system consisting of unsupervised subword unit discovery plus a standard TTS system, and a topline TTS using gold phoneme transcriptions. We present an overview of the 19 submitted systems from 10 teams and discuss the main results.
Interspeech 2019
Databáze: OpenAIRE