Výsledky vyhledávání - "Zhang, Wangyou"

Report

SpoofCeleb: Speech Deepfake Detection and SASV In The Wild

Autor: Jung, Jee-weon, Wu, Yihan, Wang, Xin, Kim, Ji-Hoon, Maiti, Soumi, Matsunaga, Yuta, Shim, Hye-jin, Tian, Jinchuan, Evans, Nicholas, Chung, Joon Son, Zhang, Wangyou, Um, Seyun, Takamichi, Shinnosuke, Watanabe, Shinji

This paper introduces SpoofCeleb, a dataset designed for Speech Deepfake Detection (SDD) and Spoofing-robust Automatic Speaker Verification (SASV), utilizing source data from real-world conditions and spoofing attacks generated by Text-To-Speech (TTS

Externí odkaz: http://arxiv.org/abs/2409.17285

Zobrazit plný text záznamu

Report

Text-To-Speech Synthesis In The Wild

Autor: Jung, Jee-weon, Zhang, Wangyou, Maiti, Soumi, Wu, Yihan, Wang, Xin, Kim, Ji-Hoon, Matsunaga, Yuta, Um, Seyun, Tian, Jinchuan, Shim, Hye-jin, Evans, Nicholas, Chung, Joon Son, Takamichi, Shinnosuke, Watanabe, Shinji

Text-to-speech (TTS) systems are traditionally trained using modest databases of studio-quality, prompted or read speech collected in benign acoustic environments such as anechoic rooms. The recent literature nonetheless shows efforts to train TTS sy

Externí odkaz: http://arxiv.org/abs/2409.08711

Zobrazit plný text záznamu

Report

Towards Robust Speech Representation Learning for Thousands of Languages

Autor: Chen, William, Zhang, Wangyou, Peng, Yifan, Li, Xinjian, Tian, Jinchuan, Shi, Jiatong, Chang, Xuankai, Maiti, Soumi, Livescu, Karen, Watanabe, Shinji

Self-supervised learning (SSL) has helped extend speech technologies to more languages by reducing the need for labeled data. However, models are still far from supporting the world's 7000+ languages. We propose XEUS, a Cross-lingual Encoder for Univ

Externí odkaz: http://arxiv.org/abs/2407.00837

Zobrazit plný text záznamu

Report

URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement

Autor: Zhang, Wangyou, Scheibler, Robin, Saijo, Kohei, Cornell, Samuele, Li, Chenda, Ni, Zhaoheng, Kumar, Anurag, Pirklbauer, Jan, Sach, Marvin, Watanabe, Shinji, Fingscheidt, Tim, Qian, Yanmin

The last decade has witnessed significant advancements in deep learning-based speech enhancement (SE). However, most existing SE research has limitations on the coverage of SE sub-tasks, data diversity and amount, and evaluation metrics. To fill this

Externí odkaz: http://arxiv.org/abs/2406.04660

Zobrazit plný text záznamu

Report

Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement

Autor: Zhang, Wangyou, Saijo, Kohei, Jung, Jee-weon, Li, Chenda, Watanabe, Shinji, Qian, Yanmin

Deep learning-based speech enhancement (SE) models have achieved impressive performance in the past decade. Numerous advanced architectures have been designed to deliver state-of-the-art performance; however, their scalability potential remains unrev

Externí odkaz: http://arxiv.org/abs/2406.04269

Zobrazit plný text záznamu

Report

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition

Autor: Wu, Yihan, Maiti, Soumi, Peng, Yifan, Zhang, Wangyou, Li, Chenda, Wang, Yuyue, Wang, Xihua, Watanabe, Shinji, Song, Ruihua

Recent advancements in language models have significantly enhanced performance in multiple speech-related tasks. Existing speech language models typically utilize task-dependent prompt tokens to unify various speech tasks in a single model. However,

Externí odkaz: http://arxiv.org/abs/2401.18045

Zobrazit plný text záznamu

Report

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

Autor: Jung, Jee-weon, Zhang, Wangyou, Shi, Jiatong, Aldeneh, Zakaria, Higuchi, Takuya, Theobald, Barry-John, Abdelaziz, Ahmed Hussen, Watanabe, Shinji

This paper introduces ESPnet-SPK, a toolkit designed with several objectives for training speaker embedding extractors. First, we provide an open-source platform for researchers in the speaker recognition community to effortlessly build models. We pr

Externí odkaz: http://arxiv.org/abs/2401.17230

Zobrazit plný text záznamu

Report

Improving Design of Input Condition Invariant Speech Enhancement

Autor: Zhang, Wangyou, Jung, Jee-weon, Watanabe, Shinji, Qian, Yanmin

Building a single universal speech enhancement (SE) system that can handle arbitrary input is a demanded but underexplored research topic. Towards this ultimate goal, one direction is to build a single model that handles diverse audio duration, sampl

Externí odkaz: http://arxiv.org/abs/2401.14271

Zobrazit plný text záznamu

Report

A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction

Autor: Saijo, Kohei, Zhang, Wangyou, Wang, Zhong-Qiu, Watanabe, Shinji, Kobayashi, Tetsunori, Ogawa, Tetsuji

We propose a multi-task universal speech enhancement (MUSE) model that can perform five speech enhancement (SE) tasks: dereverberation, denoising, speech separation (SS), target speaker extraction (TSE), and speaker counting. This is achieved by inte

Externí odkaz: http://arxiv.org/abs/2310.08277

Zobrazit plný text záznamu

Report

Toward Universal Speech Enhancement for Diverse Input Conditions

Autor: Zhang, Wangyou, Saijo, Kohei, Wang, Zhong-Qiu, Watanabe, Shinji, Qian, Yanmin

The past decade has witnessed substantial growth of data-driven speech enhancement (SE) techniques thanks to deep learning. While existing approaches have shown impressive performance in some common datasets, most of them are designed only for a sing

Externí odkaz: http://arxiv.org/abs/2309.17384

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání