Výsledky vyhledávání - "Wang, Yuejiao"

Report

Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC

Autor: Kang, Jiawen, Meng, Lingwei, Cui, Mingyu, Wang, Yuejiao, Wu, Xixin, Liu, Xunying, Meng, Helen

Multi-talker speech recognition (MTASR) faces unique challenges in disentangling and transcribing overlapping speech. To address these challenges, this paper investigates the role of Connectionist Temporal Classification (CTC) in speaker disentanglem

Externí odkaz: http://arxiv.org/abs/2409.12388

Zobrazit plný text záznamu

Report

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

Autor: Meng, Lingwei, Hu, Shujie, Kang, Jiawen, Li, Zhaoqing, Wang, Yuejiao, Wu, Wenxuan, Wu, Xixin, Liu, Xunying, Meng, Helen

Recent advancements in large language models (LLMs) have revolutionized various domains, bringing significant progress and new opportunities. Despite progress in speech-related tasks, LLMs have not been sufficiently explored in multi-talker scenarios

Externí odkaz: http://arxiv.org/abs/2409.08596

Zobrazit plný text záznamu

Report

Large Language Model-based FMRI Encoding of Language Functions for Subjects with Neurocognitive Disorder

Autor: Wang, Yuejiao, Gong, Xianmin, Meng, Lingwei, Wu, Xixin, Meng, Helen

Functional magnetic resonance imaging (fMRI) is essential for developing encoding models that identify functional changes in language-related brain areas of individuals with Neurocognitive Disorders (NCD). While large language model (LLM)-based fMRI

Externí odkaz: http://arxiv.org/abs/2407.10376

Zobrazit plný text záznamu

Report

Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System

Autor: Meng, Lingwei, Kang, Jiawen, Wang, Yuejiao, Jin, Zengrui, Wu, Xixin, Liu, Xunying, Meng, Helen

Multi-talker speech recognition and target-talker speech recognition, both involve transcription in multi-talker contexts, remain significant challenges. However, existing methods rarely attempt to simultaneously address both tasks. In this study, we

Externí odkaz: http://arxiv.org/abs/2407.09817

Zobrazit plný text záznamu

Report

Exploiting Audio-Visual Features with Pretrained AV-HuBERT for Multi-Modal Dysarthric Speech Reconstruction

Autor: Chen, Xueyuan, Wang, Yuejiao, Wu, Xixin, Wang, Disong, Wu, Zhiyong, Liu, Xunying, Meng, Helen

Dysarthric speech reconstruction (DSR) aims to transform dysarthric speech into normal speech by improving the intelligibility and naturalness. This is a challenging task especially for patients with severe dysarthria and speaking in complex, noisy a

Externí odkaz: http://arxiv.org/abs/2401.17796

Zobrazit plný text záznamu

Report

UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization

Autor: Wang, Yuejiao, Wu, Xixin, Wang, Disong, Meng, Lingwei, Meng, Helen

Dysarthric speech reconstruction (DSR) systems aim to automatically convert dysarthric speech into normal-sounding speech. The technology eases communication with speakers affected by the neuromotor disorder and enhances their social inclusion. NED-b

Externí odkaz: http://arxiv.org/abs/2401.14664

Zobrazit plný text záznamu

Report

A Sidecar Separator Can Convert a Single-Talker Speech Recognition System to a Multi-Talker One

Autor: Meng, Lingwei, Kang, Jiawen, Cui, Mingyu, Wang, Yuejiao, Wu, Xixin, Meng, Helen

Although automatic speech recognition (ASR) can perform well in common non-overlapping environments, sustaining performance in multi-talker overlapping speech recognition remains challenging. Recent research revealed that ASR model's encoder captures

Externí odkaz: http://arxiv.org/abs/2302.09908

Zobrazit plný text záznamu