Zobrazeno 1 - 10
of 29
pro vyhledávání: '"Karout, Salah"'
End-to-end models have gradually become the main technical stream for voice trigger, aiming to achieve an utmost prediction accuracy but with a small footprint. In present paper, we propose an end-to-end voice trigger framework, namely WakeupNet, whi
Externí odkaz:
http://arxiv.org/abs/2210.02904
Self-supervised learning (SSL) is a powerful tool that allows learning of underlying representations from unlabeled data. Transformer based models such as wav2vec 2.0 and HuBERT are leading the field in the speech domain. Generally these models are f
Externí odkaz:
http://arxiv.org/abs/2202.03218
Autor:
Wang, Duo, Karout, Salah
Multi-Modal Self-Supervised Learning from videos has been shown to improve model's performance on various downstream tasks. However, such Self-Supervised pre-training requires large batch sizes and a large amount of computation resources due to the n
Externí odkaz:
http://arxiv.org/abs/2112.12182
We present a method for transferring pre-trained self-supervised (SSL) speech representations to multiple languages. There is an abundance of unannotated speech, so creating self-supervised representations from raw audio and fine-tuning on small anno
Externí odkaz:
http://arxiv.org/abs/2107.13530
Autor:
Fuoli, Dario, Huang, Zhiwu, Gu, Shuhang, Timofte, Radu, Raventos, Arnau, Esfandiari, Aryan, Karout, Salah, Xu, Xuan, Li, Xin, Xiong, Xin, Wang, Jinge, Michelini, Pablo Navarrete, Zhang, Wenhao, Zhang, Dongyang, Zhu, Hanwei, Xia, Dan, Chen, Haoyu, Gu, Jinjin, Zhang, Zhi, Zhao, Tongtong, Zhao, Shanshan, Akita, Kazutoshi, Ukita, Norimichi, S, Hrishikesh P, Puthussery, Densen, C V, Jiji
This paper reviews the video extreme super-resolution challenge associated with the AIM 2020 workshop at ECCV 2020. Common scaling factors for learned video super-resolution (VSR) do not go beyond factor 4. Missing information can be restored well in
Externí odkaz:
http://arxiv.org/abs/2009.06290
Publikováno v:
ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
We present a method for transferring pre-trained self-supervised (SSL) speech representations to multiple languages. There is an abundance of unannotated speech, so creating self-supervised representations from raw audio and fine-tuning on small anno
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.