Speech emotion recognition from handcrafted feature extraction with validation based on paraconsistent engineering

Autor:	Brajato, Hiago Matheus
Přispěvatelé:	Universidade Estadual Paulista (Unesp), Guido, Rodrigo Capobianco [UNESP]
Jazyk:	portugalština
Rok vydání:	2022
Předmět:	Redes neurais artificiais Artificial neural network Paraconsistent feature engineering Handcrafted extraction Engenharia paraconsistente de características Speech Emotion Recognition (SER)
Zdroj:	Repositório Institucional da UNESP Universidade Estadual Paulista (UNESP) instacron:UNESP
Popis:	Submitted by Hiago Matheus Brajato (hiago.brajato@unesp.br) on 2022-03-09T11:32:09Z No. of bitstreams: 1 Disserta__o____Mestrado.pdf: 2041789 bytes, checksum: aeca61bc8771299a5f4663ecbbc736c8 (MD5) Rejected by Vivian Letícia Duarte Parisi (vivian.parisi@unesp.br), reason: Sua submissão será devolvida para que você possa fazer as correções. 1. Falta a data na FOLHA DE APROVAÇÃO, que é a data efetiva da defesa. 2. Solicitamos inserir no Sumário e corrigir no texto, o correto é REFERÊNCIAS e não Referências Bibliográficas. Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente. Agradecemos a compreensão. Estamos à disposição caso necessite esclarecer alguma dúvida ou necessite algum auxílio para efetuar as correções. Atenciosamente, Repositório Institucional UNESP UNESP - Câmpus de São José do Rio Preto Rua Cristóvão Colombo, 2265 - Jd. Nazareth São José do Rio Preto – SP. on 2022-03-09T14:55:09Z (GMT) Submitted by Hiago Matheus Brajato (hiago.brajato@unesp.br) on 2022-03-09T18:02:51Z No. of bitstreams: 1 Disserta__o_Final___Dep_sito.pdf: 2050199 bytes, checksum: 461eb936180e443f9d8528294710eebb (MD5) Approved for entry into archive by Vivian Letícia Duarte Parisi (vivian.parisi@unesp.br) on 2022-03-09T19:47:02Z (GMT) No. of bitstreams: 1 brajato_hm_me_sjrp.pdf: 2065149 bytes, checksum: b626a01272e0b0a30c31b33342386e56 (MD5) Made available in DSpace on 2022-03-09T19:47:02Z (GMT). No. of bitstreams: 1 brajato_hm_me_sjrp.pdf: 2065149 bytes, checksum: b626a01272e0b0a30c31b33342386e56 (MD5) Previous issue date: 2022-02-24 Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Speech Emotion Recognition (SER) pode ser definida como a maneira automatizada de identificar o estado emocional de um locutor a partir da sua voz. Dentre as metodologias encontradas na literatura para viabilizar o SER, as quais ainda carecem de melhor compreensão e discussão, o presente trabalho ocupa-se da abordagem handcrafted extraction para a composição dos vetores de características responsáveis por permitir a classificação dos sinais de voz entre sete classes emocionais distintas: raiva, tédio, desgosto, medo, felicidade, neutralidade e tristeza. Os descritores utilizados, os quais foram obtidos por meio da energia clássica, do Operador de Energia de Teager, do zero crossing rate, da planaridade espectral e da entropia espectral, foram submetidos à Engenharia Paraconsistente de Características, que é responsável por selecionar o melhor subgrupo de características a partir da análise de similaridades e dissimilaridades intra e interclasse, respectivamente. Finalmente, um algoritmo genético associado à uma rede neural multilayer perceptron foi responsável por realizar a classificação dos sinais visando a maior taxa de acurácia possível, isto é, 84.9%, considerando a base de dados pública EMO_DB com 535 sinais na modalidade speaker-independent. Em contraste com abordagens do tipo feature learning, a estratégia proposta permitiu uma melhor compreensão física do problema em questão. Speech Emotion Recognition (SER) can be defined as the automated way to identify spe akers’ emotional states from their voices. Considering the methodologies found in the li terature, for which there is room for further research and better comprehension, this mo nograph considers a handcrafted feature extraction approach to create the feature vectors responsible for the classification of voice signals in one of the seven different classes: anger, boredom, disgust, fear, happiness, neutrality and sadness. The descriptors adopted, which were obtained based on regular energy, on Teager Energy Operator, on zero crossing rates, on spectral flatness and on spectral entropy, were submitted to the Paraconsistent Feature Engineering, which was responsible for selecting the best subgroup of features from the analysis of intra- and interclass similarities and dissimilarities, respectively. Lastly, a genetic algorithm associted with a multiplayer perceptron neural network was responsible for perfor ming the classification of the described signals aiming at the highest possible accuracy rate, i.e., 84.9%, considering the well-known EMO_DB database with 535 signals in a speaker independent approach. In contrast with feature learning strategies, the proposed approach allowed for a better comprehension of the problem being treated. 88887.499431/2020-00
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=od______3056::162c7e128d428ef389198af84ecb7bc6 Zobrazit plný text záznamu