Métodos de Seleção de Parâmetros para o Diagnóstico de Patologias da Laringe
Autor: | Letícia Veiga Cena da Silva |
---|---|
Přispěvatelé: | Teixeira, João Paulo, Bispo, Bruno Catarino |
Předmět: | |
Zdroj: | Letícia Veiga Cena da Silva Repositório Científico de Acesso Aberto de Portugal Repositório Científico de Acesso Aberto de Portugal (RCAAP) instacron:RCAAP CIÊNCIAVITAE |
Popis: | Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná Esta dissertação propõe soluções para a identificação de patologias da voz através do processamento do sinal de fala. Foram utilizados na classificação de patologias como Laringite Crónica, Disfonia e Paralisia das Cordas Vocais as redes neuronais, Multilayer Perceptron e Long-Short-Term-Memory. Os parâmetros acústicos empregados foram jitter relativo, jitter absoluto, shimmer relativo, shimmer absoluto, autocorrelação, Harmonic to Noise Ratio, Noise to Harmonic Ratio e Mel Frequency Cepstral Coefficients. Estes parêmetros são extraídos da base de dados Saarbrücken Voice Database, a partir de arquivos de áudio que contém as vogais sustentadas /a/, /i/ e /u/ nos tons baixo, normal e alto. Também empregou e testou técnicas de normalização de dados, identificação de outliers e seleção de parâmetros. Tais aplicações tem a finalidade de otimizar o modelo de reconhecimento, torná-lo mais eficiente e consequentemente melhorar a acurácia/exatidão do diagnóstico. Como pré-processamento utilizou-se as técnicas de normalização Z-score, Logarítmica e Raiz Quadrada para permitir uma melhor identificação dos outliers presente nos dados, por meio da aplicação do método do Box Plot e do Desvio Padrão. Após os experimentos, tanto o método do Desvio Padrão quanto o do Box Plot com normalização do Z-score mostraram-se muito úteis para o pré-processamento do conjunto de dados para o reconhecimento de patologias de voz. A acurácia foi melhorada entre 3 a 13 pontos em percentagem. Posteriormente, foram utilizadas as técnicas de Seleção de Parâmetros que ordenam os atributos segundo uma métrica de importância. Deste modo, os parâmetros relevantes são selecionados de acordo com o critério estabelecido pelos testes: Correlação, ReliefF, Test t de Welch, Regressão Multilinear. Ao comparar todos os algoritmos desenvolvidos, pode-se destacar que o algoritmo baseado no ReliefF teve o melhor desempenho. Com relação a acurácia teve um aumento de 9 pontos percentuais e na medida F de 8 pontos percentuais. This thesis proposes solutions for the identification of voice pathologies through speech signal processing. Pathologies such as Chronic Laryngitis, Dysphonia and Vocal Cord Paralysis were used to classify neuronal networks, Multilayer Perceptron and Long-Short-Term-Memory. The acoustic parameters employed are relative jitter, absolute jitter, relative shimmer, absolute shimmer, autocorrelation, Harmonic to Noise Ratio, Noise to Harmonic Ratio and Mel Frequency Cepstral Coefficients. These parameters are extracted from the Saarbrücken Voice Database from audio files containing the sustained vowels /a/, /i/ and /u/ in low, normal and high tones. Data normalization, outlier identification and attribute selection techniques were used. Such applications have the purpose of optimizing the recognition model, making it more efficient and consequently improving the accuracy of the diagnosis. As preprocessing, Z-score, Logarithmic and Square Root normalization techniques were used to allow a better identification of outliers present in the data, by applying the Box Plot and Standard Deviation method. After the experiments, both the Standard Deviation method and the Z-score normalized Box Plot method proved to be very useful for data set preprocessing for speech pathology recognition. Accuracy was improved by 3 to 13 percentage points. Subsequently, we used the Parameter Selection techniques that order the attributes according to a metric of importance. Thus, the relevant parameters were selected according to the criteria established by the tests: Correlation, ReliefF, Welch T test, Multilinear Regression. When comparing all the developed algorithms, it can be highlighted that the ReliefF based algorithm had the best performance. Regarding accuracy, there was an increase of 9 percentage points and measure F of 8 percentage points. |
Databáze: | OpenAIRE |
Externí odkaz: |