Výsledky vyhledávání - "Shuo-Yiin Chang"

A Language Agnostic Multilingual Streaming On-Device ASR System

Autor: Bo Li, Tara Sainath, Ruoming Pang, Shuo-Yiin Chang, Qiumin Xu, Trevor Strohman, Vince Chen, Qiao Liang, Heguang Liu, Yanzhang He, Parisa Haghani, Sameer Bidichandani

On-device end-to-end (E2E) models have shown improvements over a conventional model on English Voice Search tasks in both quality and latency. E2E models have also shown promising results for multilingual automatic speech recognition (ASR). In this p

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::e69d8dfd3d8f4389b06eed47e083c02c
http://arxiv.org/abs/2208.13916

Zobrazit plný text záznamu

Streaming Intended Query Detection using E2E Modeling for Continued Conversation

Autor: Shuo-Yiin Chang, Guru Prakash, Zelin Wu, Tara Sainath, Bo Li, Qiao Liang, Adam Stambler, Shyam Upadhyay, Manaal Faruqui, Trevor Strohman

In voice-enabled applications, a predetermined hotword isusually used to activate a device in order to attend to the query.However, speaking queries followed by a hotword each timeintroduces a cognitive burden in continued conversations. Toavoid repe

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::50678679e5680829604b4b3647342512
http://arxiv.org/abs/2208.13322

Zobrazit plný text záznamu

Turn-Taking Prediction for Natural Conversational Speech

Autor: Shuo-Yiin Chang, Bo Li, Tara Sainath, Chao Zhang, Trevor Strohman, Qiao Liang, Yanzhang He

While a streaming voice assistant system has been used in many applications, this system typically focuses on unnatural, one-shot interactions assuming input from a single voice query without hesitation or disfluency. However, a common conversational

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::293b1951bb805466d8a74467c8f7893b

Zobrazit plný text záznamu

Streaming End-to-End Multilingual Speech Recognition with Joint Language Identification

Autor: Chao Zhang, Bo Li, Tara Sainath, Trevor Strohman, Sepand Mavandadi, Shuo-Yiin Chang, Parisa Haghani

Language identification is critical for many downstream tasks in automatic speech recognition (ASR), and is beneficial to integrate into multilingual end-to-end ASR as an additional task. In this paper, we propose to modify the structure of the casca

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::48bd4fe6333011053c8e723968f9842b

Zobrazit plný text záznamu

E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR

Autor: W. Ronny Huang, Shuo-Yiin Chang, David Rybach, Tara Sainath, Rohit Prabhavalkar, Cal Peyser, Zhiyun Lu, Cyril Allauzen

Improving the performance of end-to-end ASR models on long utterances ranging from minutes to hours in length is an ongoing challenge in speech recognition. A common solution is to segment the audio in advance using a separate voice activity detector

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::e9c15fa03f1db0e0b6fc4f4d4951f31a

Zobrazit plný text záznamu

FastEmit: Low-Latency Streaming ASR with Sequence-Level Emission Regularization

Autor: Wei Han, Tara N. Sainath, Bo Li, Yonghui Wu, Anmol Gulati, Arun Narayanan, Ruoming Pang, Shuo-Yiin Chang, Chung-Cheng Chiu, Yanzhang He, Jiahui Yu

Publikováno v: ICASSP

Streaming automatic speech recognition (ASR) aims to emit each hypothesized word as quickly and accurately as possible. However, emitting fast without degrading quality, as measured by word error rate (WER), is highly challenging. Existing approaches

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::9136dd1ce22ab5c87c1875fef2f8b399
https://doi.org/10.1109/icassp39728.2021.9413803

Zobrazit plný text záznamu

A Better and Faster end-to-end Model for Streaming ASR

Autor: Anmol Gulati, James Qin, Yonghui Wu, Yanzhang He, Yu Zhang, Tara N. Sainath, Trevor Strohman, Ruoming Pang, Arun Narayanan, Qiao Liang, Shuo-Yiin Chang, Chung-Cheng Chiu, Wei Han, Jiahui Yu, Bo Li

Publikováno v: ICASSP

End-to-end (E2E) models have shown to outperform state-of-the-art conventional models for streaming speech recognition [1] across many dimensions, including quality (as measured by word error rate (WER)) and endpointer latency [2]. However, the model

Externí odkaz: https://explore.openaire.eu/search/publication?articleId=doi_dedup___::79f2c3f759db2f52ddb94da74741686d
https://doi.org/10.1109/icassp39728.2021.9413899

Zobrazit plný text záznamu

Vyhledávací nástroje:

Upřesnit hledání