Výsledky vyhledávání

Akademický článek

Domain Generalization for Language-Independent Automatic Speech Recognition

Autor: Heting Gao, Junrui Ni, Yang Zhang, Kaizhi Qian, Shiyu Chang, Mark Hasegawa-Johnson

Publikováno v: Frontiers in Artificial Intelligence, Vol 5 (2022)

A language-independent automatic speech recognizer (ASR) is one that can be used for phonetic transcription in languages other than the languages in which it was trained. Language-independent ASR is difficult to train, because different languages imp

Externí odkaz: https://doaj.org/article/2cdf1e50351a408e81033dd1c0ba1fbd

Zobrazit plný text záznamu

Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition

Autor: Junrui Ni, Liming Wang, Heting Gao, Kaizhi Qian, Yang Zhang, Shiyu Chang, Mark Hasegawa-Johnson

An unsupervised text-to-speech synthesis (TTS) system learns to generate speech waveforms corresponding to any written sentence in a language by observing: 1) a collection of untranscribed speech waveforms in that language; 2) a collection of texts w

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::8f4d3ac80a6660337c93c5868d621dea

Zobrazit plný text záznamu

Domain Generalization for Language-Independent Automatic Speech Recognition

Autor: Heting Gao, Junrui Ni, Yang Zhang, Kaizhi Qian, Shiyu Chang, Mark Hasegawa-Johnson

Publikováno v: Frontiers in artificial intelligence. 5

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::ab559744017c38285fb1fe70fe639e5b
https://pubmed.ncbi.nlm.nih.gov/35647534

Zobrazit plný text záznamu

Zero-Shot Cross-Lingual Phonetic Recognition with External Language Embedding

Autor: Yang Zhang, Heting Gao, Shiyu Chang, Kaizhi Qian, Mark Hasegawa-Johnson, Junrui Ni

Publikováno v: Interspeech 2021.

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_________::dc78865d60e84ee2ee7206ebc5fe519b
https://doi.org/10.21437/interspeech.2021-1843

Zobrazit plný text záznamu

F0-Consistent Many-To-Many Non-Parallel Voice Conversion Via Conditional Autoencoder

Autor: Kaizhi Qian, Gautham J. Mysore, Zeyu Jin, Mark Hasegawa-Johnson

Publikováno v: ICASSP

Non-parallel many-to-many voice conversion remains an interesting but challenging speech processing task. Many style-transfer-inspired methods such as generative adversarial networks (GANs) and variational autoencoders (VAEs) have been proposed. Rece

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::9672fe31466d62989992e2f77faa7dcb
https://doi.org/10.1109/icassp40776.2020.9054734

Zobrazit plný text záznamu

Monaural Singing Voice Separation Using Fusion-Net with Time-Frequency Masking

Autor: Kaizhi Qian, Mark Hasegawa-Johnson, Masato Akagi, Feng Li

Publikováno v: APSIPA

Monaural singing voice separation has received much attention in recent years. In this paper, we propose a novel neural network architecture for monaural singing voice separation, Fusion-Net, which is combining U-Net with the residual convolutional n

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::7841078c330faf7318608e1b6b560ee4
https://doi.org/10.1109/apsipaasc47483.2019.9023055

Zobrazit plný text záznamu

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

Autor: Kaizhi Qian, Yang Zhang, Shiyu Chang, Xuesong Yang, Mark Hasegawa-Johnson

Publikováno v: Publons

Non-parallel many-to-many voice conversion, as well as zero-shot voice conversion, remain under-explored areas. Deep style transfer algorithms, such as generative adversarial networks (GAN) and conditional variational autoencoder (CVAE), are being ap

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::bfd3c4fb2c795dc730d691b45d9e8b06

Zobrazit plný text záznamu

Deep Learning Based Speech Beamforming

Autor: Yang Zhang, Mark Hasegawa-Johnson, Dinei Florencio, Kaizhi Qian, Xuesong Yang, Shiyu Chang

Publikováno v: ICASSP

Multi-channel speech enhancement with ad-hoc sensors has been a challenging task. Speech model guided beamforming algorithms are able to recover natural sounding speech, but the speech models tend to be oversimplified or the inference would otherwise

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::9a1acb6894ea714aa7e22217df070660

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání