Classificação binária para presença de ocorrência de cardiopatias usando características clássicas e novos parâmetros

Autor: FERREIRA, Adenice Gomes de Oliveira
Přispěvatelé: OSPINA MARTÍNEZ, Raydonal
Jazyk: portugalština
Rok vydání: 2019
Předmět:
Zdroj: Repositório Institucional da UFPE
Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
Popis: CNPq Essa dissertação tem como objetivo utilizar características cardíacas clássicas e os novos parâmetros introduzidos por Campello de Souza (2010) [O Apoio ao Diagnóstico Médico: o que se pode fazer com um tensiômetro e um relógio. 2. ed. Recife] no processo de classificação de indivíduos cardiopatas. Considerando distintos cenários de análise e baseados em quatro diferentes bancos de dados, os parâmetros de Campello de Souza foram incluídos no processo de seleção dos atributos mais informativos e no processo de classificação binária dos cardiopatas. Foram testados cinco classificadores bem consolidados na literatura a saber: Naive Bayes, Florestas Aleatórias, Regressão Logística, Adaboost e Máquinas de Vetores de Suporte. Os desempenhos destes classificadores foram avaliados com base nas acurácias e respectivos desvios padrões (DPs). Dada a alta dimensionalidade das matrizes de características contínuas usadas e sob ausência de ortogonalidade, as classificações foram também avaliadas utilizando Componentes Principais. Nessa fase é adicionando um sexto método de classificação: as Redes Neuronais Artificiais. Os resultados empíricos indicam que dentre os parâmetros introduzidos por Campello de Souza, a Pressão Arterial Média (PAM), que aparece em 8 dos 12 modelos selecionados pelo fator de inflação de variância VIF melhora o desempenho dos classificadores, apresentando acurácias que variaram entre 78.77% (DP = 4.54%) e 99.20% (DP = 1.17%), respectivamente. Considerando os classificadores, a Regressão Logística e o Adaboost foram os métodos com maiores médias de acurácias, cada classificador presente em um terço dos 12 modelos selecionados pelo VIF. Dominic, Gupta e Khare (2015) obtiveram 98% de acurácia com o classificador Adaboost, Umamaheswuari et al. (2017) obtiveram 91.89% com o classificador Stacking, enquanto que neste trabalho e para o mesmo banco de dados encontrou-se resultados mais competitivos na classificação dos cardiopatas, sendo a Regressão Logística o modelo contendo dentre suas variáveis explicativas a PAM, o Índice Pulsátil da Pressão Arterial (IPPA) e o parâmetro RC (Resistência _ Complacência), obtendo uma acurácia média nas bases de teste foi igual a 99.20% (DP = 1.17%). The aim of this work is to use classic cardiac characteristics and new parameters introduced by Campello de Souza (2010) [Support of Medical Diagnosis: what can be done with a tensiometer and a clock?. 2. Ed. Recife] in the process of classification of individuals with heart disease. Considering different scenarios, and based on four different databases, the parameters of Campello de Souza were included in the selection process of the most informative attributes and added in the binary classification process of the cardiac patients. Five well-consolidated classifiers were tested: Naive Bayes, Random Forests, Logistic Regression, Adaboost and Support Vector Machine. The performances of these classifiers were evaluated based on the accuracy and their respective standard deviations (SDs). Given the high dimensionality of the matrices of continuous features used and in the absence of orthogonality, the classifiers were also evaluated using Principal Components. In this phase, we are adding the Artificial Neural Networks as a sixth classification method. The empirical results indicate that among the parameters introduced by Campello de Souza, the mean arterial pressure (PAM), which appears in 8 of the 12 models selected by the VIF variance inflation factor, improves the performance of the classifiers, with accuracy ranging from 78.77% (SD = 4.54%) and 99.20% (SD = 1.17%), respectively. Considering the classifiers Logistic Regression and Adaboost were obtained the highest average of accuracy, each present in a third of the 12 models selected by FIV. Dominic, Gupta and Khare (2015) obtained 98% accuracy with the Adaboost classifier, Umamaheswuari et al. (2017) obtained 91.89% with the Stacking classifier, whereas in this study and for the same database, we found more competitive results in the classification of presence of heart diseases, with Logistic Regression are being the model containing, among its explanatory variables, the Pulsed Index (IPPA) and RC (Resistance x Complacency), where the mean accuracy of the test bases was 99.20% (SD = 1.17%).
Databáze: OpenAIRE