About voice activity detection
Autor: | Bueno, Sergio Vieira, 1980 |
---|---|
Přispěvatelé: | Attux, Romis Ribeiro de Faissol, 1978, Nadalin, Everton Zaccaria, Gomes, Leandro de Campos Teixeira, Boccato, Levy, Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação, Programa de Pós-Graduação em Engenharia Elétrica, UNIVERSIDADE ESTADUAL DE CAMPINAS |
Rok vydání: | 2016 |
Předmět: | |
Zdroj: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
Popis: | Orientadores: Romis Ribeiro de Faissol Attux, Everton Zaccaria Nadalin Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação Resumo: Este trabalho tem por objetivo o estudo e a avaliação de técnicas de detecção de atividade de voz (VAD, Voice Activity Detection) em arquivos de áudio digital, bem como a proposta de uma nova metodologia de solução. Para tanto, foram estudados os conceitos fundamentais de processamento digital de sinais de fala, em especial, algumas abordagens clássicas ao problema da distinção entre voz e não voz. Começamos os estudos pelas pioneiras técnicas que faziam uso de análises de energia e das taxas de cruzamento por zero do sinal de voz, para então passarmos por enfoques mais recen-tes, tais como os que exploram a entropia espectral, a variabilidade em longo prazo, bem como a periodicidade do sinal de voz. Seguindo a história das metodologias para detecção da presença de fala, voltamos o foco para classificadores de atividade de voz baseados em modelos estatísticos e terminamos por examinar as recentes aplicações de reconhecimento de padrões e de técnicas de aprendizado de máquina ao problema estudado. Tal cenário revela uma vasta gama de caracterís-ticas representativas da voz a serem exploradas para a detecção da presença da mesma, bem como de métodos para extração de tais atributos. Assim, a seleção destas características e as técnicas de classificação a serem utilizadas são dois aspectos complementares que formam o par de interesses deste estudo. Em um sinal com alta relação sinal ruído, a detecção de atividade de voz pode ser realiza-da satisfatoriamente ao se aplicar um limiar de energia. Contudo, em baixa relação sinal-ruído pode ser bastante difícil detectar corretamente o sinal de interesse, especialmente quando este é corrompido por sinais acusticamente mais complexos tais como oriundos de vias urbanas e de praças de alimentação. Com o intuito de avaliar os atributos bem como as técnicas de classificação utilizados pela literatura em diferentes tipos e níveis de ruído, alguns algoritmos de detecção de atividade de voz tiveram o desempenho observado com o auxilio de uma extensa base de dados de ruído, a QUT-NOISE-TIMIT. Neste trabalho, apresenta-se, ainda, uma nova proposta que explora a natureza quase pe-riódica da voz para a detecção da parte vozeada da fala, uma vez que esta é mais robusta ao ruído e que a parte não vozeada da fala pode ser aproximada com técnicas de suavização. A investigação de tal proposta foi possível através da elaboração de algoritmos de VAD que aplicam a correlação cruzada entre espectros de quadros consecutivos para extração de atributo a ser explorado por diferentes estratégias de classificação. Discute-se o desempenho da proposta em comparação com o desempenho dos atributos utilizados pela literatura em conjunto com diferentes técnicas de classificação. Bons resultados foram obtidos quando da utilização da característica proposta em diferentes abordagens de classificação, especialmente em ambientes com ruídos de burburinho Abstract: This work aims to study and evaluate voice activity detection techniques (VAD Voice Activity Detection) applied to digital audio files, as well as proposes a new solution methodology. To achieve this end, the fundamental concepts of digital speech processing were studied, in particu-lar some classic approaches to the problem of the distinction between voice and non-voice. We started the study from the pioneering technique, which use energy analysis and zero-crossing rate of the speech signal, proceeding to more recent approaches such as those exploiting the spectral entropy, the long-term variability, as well as the periodicity of the voice signal. Following the history of the methodologies for detecting the presence of speech, we focused on VADs classifiers based on statistical models and, finally we examined recent pattern recognition ap-plications and machine learning techniques to solve the studied problem. This scenario presents a wide range of representative features of the voice that could be exploited for the detection of presence as well as methods for extracting these attributes. Thus, the selection of these features and classifi-cation techniques to be used are two complementary aspects that form the core of this study. In the context of a high signal to noise ratio, voice activity detection can be per-formed satisfactorily by applying an energy threshold. However, in low signal to noise ratio, it can be quite difficult to correctly detect the signal of interest, especially when it is corrupted by acoustically complex signals such as from urban roads and food courts. In order to evalu-ate the attributes and the classification techniques used in the literature in different scenarios and noise levels, some voice activity detection algorithms have their performance assessed with the aid of an extensive noise database, QUT -NOISE - TIMIT. In this study, we also present a new proposal that exploits the quasi-periodic nature of the voice for the detection of voiced speech, since it is more robust to noise and the non-voiced speech can be approximated with smoothing techniques. The investigation of such proposal was possible through the development of VAD algorithms that apply cross-correlation be-tween spectra of consecutive frames for attribute extraction that can be exploited by different classification strategies. We discuss the performance of the proposal compared with the performance of features commonly used in the literature in combination with different classification techniques. Good results were obtained when using the proposed resource in different classification approaches, especially in environments with bubble noise Mestrado Engenharia de Computação Mestre em Engenharia Elétrica CAPES |
Databáze: | OpenAIRE |
Externí odkaz: |