Výsledky vyhledávání - "Shimizu, Shuichiro"

Report

MELD-ST: An Emotion-aware Speech Translation Dataset

Autor: Chen, Sirou, Yahata, Sakiko, Shimizu, Shuichiro, Yang, Zhengdong, Li, Yihang, Chu, Chenhui, Kurohashi, Sadao

Emotion plays a crucial role in human conversation. This paper underscores the significance of considering emotion in speech translation. We present the MELD-ST dataset for the emotion-aware speech translation task, comprising English-to-Japanese and

Externí odkaz: http://arxiv.org/abs/2405.13233

Zobrazit plný text záznamu

Report

SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition

Autor: Wang, Hao, Kurita, Shuhei, Shimizu, Shuichiro, Kawahara, Daisuke

Audio-visual speech recognition (AVSR) is a multimodal extension of automatic speech recognition (ASR), using video as a complement to audio. In AVSR, considerable efforts have been directed at datasets for facial features such as lip-readings, while

Externí odkaz: http://arxiv.org/abs/2401.09759

Zobrazit plný text záznamu

Report

Video-Helpful Multimodal Machine Translation

Autor: Li, Yihang, Shimizu, Shuichiro, Chu, Chenhui, Kurohashi, Sadao, Li, Wei

Existing multimodal machine translation (MMT) datasets consist of images and video captions or instructional video subtitles, which rarely contain linguistic ambiguity, making visual information ineffective in generating appropriate translations. Rec

Externí odkaz: http://arxiv.org/abs/2310.20201

Zobrazit plný text záznamu

Report

Towards Speech Dialogue Translation Mediating Speakers of Different Languages

Autor: Shimizu, Shuichiro, Chu, Chenhui, Li, Sheng, Kurohashi, Sadao

We present a new task, speech dialogue translation mediating speakers of different languages. We construct the SpeechBSD dataset for the task and conduct baseline experiments. Furthermore, we consider context to be an important aspect that needs to b

Externí odkaz: http://arxiv.org/abs/2305.09210

Zobrazit plný text záznamu

Report

VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation

Autor: Li, Yihang, Shimizu, Shuichiro, Gu, Weiqi, Chu, Chenhui, Kurohashi, Sadao

Existing multimodal machine translation (MMT) datasets consist of images and video captions or general subtitles, which rarely contain linguistic ambiguity, making visual information not so effective to generate appropriate translations. We introduce

Externí odkaz: http://arxiv.org/abs/2201.08054

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání