Zobrazeno 1 - 10
of 227
pro vyhledávání: '"Video question answering"'
Publikováno v:
IEEE Access, Vol 12, Pp 131664-131680 (2024)
Currently, video question answering (VideoQA) algorithms relying on video-text pretraining models employ intricate unimodal encoders and multimodal fusion Transformers, which often lead to decreased efficiency in tasks such as visual reasoning. Conve
Externí odkaz:
https://doaj.org/article/602c42a43f134051b839978976c02118
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Publikováno v:
Advanced Intelligent Systems, Vol 5, Iss 4, Pp n/a-n/a (2023)
Video question answering (VideoQA) is a typical task that integrates language and vision. The key for VideoQA is to extract relevant and effective visual information for answering a specific question. Information selection is believed to be necessary
Externí odkaz:
https://doaj.org/article/4e68299cda3847eba4207434742bae91
Publikováno v:
Information, Vol 14, Iss 6, p 328 (2023)
Video question answering (QA) is a cross-modal task that requires understanding the video content to answer questions. Current techniques address this challenge by employing stacked modules, such as attention mechanisms and graph convolutional networ
Externí odkaz:
https://doaj.org/article/1c1a04e5c906460588b10a7e4cef71a4
Publikováno v:
Jisuanji kexue, Vol 48, Iss 8, Pp 145-149 (2021)
Video question answering is a challenging task of significant importance toward visual understanding.However,current visual question answering (VQA) methods mainly focus on a single static image,which is distinct from the sequential visual data we fa
Externí odkaz:
https://doaj.org/article/70e3f302dc724b29af8a7094be60fa05
Publikováno v:
PeerJ Computer Science, Vol 8, p e974 (2022)
Bilinear pooling (BLP) refers to a family of operations recently developed for fusing features from different modalities predominantly for visual question answering (VQA) models. Successive BLP techniques have yielded higher performance with lower co
Externí odkaz:
https://doaj.org/article/204887f0dc8d4e028675cc392c1e8530
Autor:
Khushboo Khurana, Umesh Deshpande
Publikováno v:
IEEE Access, Vol 9, Pp 43799-43823 (2021)
While describing visual data is a trivial task for humans, it is an intricate task for a computer. This is even more challenging if the visual data is a video. Comprehending a video and describing it is called Video Captioning. This involves understa
Externí odkaz:
https://doaj.org/article/4a198f41a0c94edda47fe75e8c4940ec
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.
Akademický článek
Tento výsledek nelze pro nepřihlášené uživatele zobrazit.
K zobrazení výsledku je třeba se přihlásit.
K zobrazení výsledku je třeba se přihlásit.