Zobrazeno 1 - 5
of 5
pro vyhledávání: '"Wang, Langyu"'
Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignm
Externí odkaz:
http://arxiv.org/abs/2412.20872
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Autor:
Wang, Langyu1 (AUTHOR) 202130210136@stu.shmtu.edu.cn, Zhang, Yan1 (AUTHOR) zhangyan@shmtu.edu.cn, Lin, Yahong2 (AUTHOR) linyahong@ytu.edu.cn, Yan, Shuai3 (AUTHOR) yanshuai@sari.ac.cn, Xu, Yuanyuan1 (AUTHOR) yyxu@shmtu.edu.cn, Sun, Bo3 (AUTHOR) sunb@sari.ac.cn
Publikováno v:
Algorithms. Dec2023, Vol. 16 Issue 12, p534. 14p.
Publikováno v:
Proceedings of SPIE; April 2023, Vol. 12610 Issue: 1 p126101R-126101R-9, 1134919p
Publikováno v:
Proceedings of SPIE; 8/1/2023, Vol. 12626, p126101R-126101R-9, 1p