Identificação de padrões de longevidade baseada na transformação de dados e seleção de características por meio de biclusterização [recurso eletrônico]/Marta Dias Moreira Noronha ; orientador: Luis Enrique Zarate Galvez
Autor: | Noronha, Marta Dias Moreira |
---|---|
Přispěvatelé: | Zárate, Luis Enrique Orientador, Pontifícia Universidade Católica de Minas Gerais.Programa de Pós-Graduação em Informática Instituição |
Jazyk: | portugalština |
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | Biblioteca Digital de Teses e Dissertações da PUC_MINAS Pontifícia Universidade Católica de Minas Gerais (PUC MINAS) instacron:PUC_MINS |
Popis: | Dissertação (Mestrado) - Pontifícia Universidade Católica de Minas Gerais, Programa de Pós-Graduação em Informática. Bibliografia: f. 92-100 Em geral, estudos longitudinais permitem descobrir a influência de eventos em processos que são desencadeados com o passar do tempo. Neste trabalho, dados do estudo longitudinal do envelhecimento humano, correspondente ao estudo ELSA-UK, foram analisadas para caracterizar os perfis da longevidade. O conhecimento extraído, por meio de modelos de classificação, pode auxiliar no desenvolvimento de políticas públicas que melhorem a qualidade de vida da população idosa. O conjunto de dados considerado possui originalmente 124 variáveis politômicos e dicotômicos, provenientes de questões do estudo longitudinal ELSA. Essa quantidade e variedade de tipos de variáveis são sempre um desafio para as técnicas convencionais de mineração de dados. Para tratar essa complexidade, técnicas de blocagem foram aplicadas para as variáveis politômicas; e para as variáveis dicotômicas foi aplicado um processo de biclusterização, a partir da transformação prévia baseado na Análise Fatorial, para identificar fatores relevantes para classificação. Como resultado houve redução de dimensionalidade para 24 atributos, sem perda de informação relevante contida no conjunto de dados original. Por meio de experimentos foi obtido um modelo de classificação, baseado em árvore de decisão, por meio do qual foram extraídas 4 regras, contendo até 3 premissas, representando 18 variáveis blocadas e de fatores. Os experimentos mostram que foi possível caracterizar os perfis da longevidade com F-Score médio de 84,30%. Como parte do resultado, foi observado que a insatisfação total sentida pelo respondente, em diversos aspectos considerados para este estudo, irá caracterizá-lo como não-longevo. Já a realização de atividade física moderada uma vez por semana, combinada com atividade leve ou vigorosa entre 1 a 3 vezes por mês é um das combinações de atividades que favorecem a longevidade. Palavras-chave: Mineração de Dados. Envelhecimento Humano. Biclusterização. Análise Fatorial. Redução de Características. Classificação. Longitudinal studies enable the discovery of patterns in events that happen over time. In this dissertation we analysed data from a longitudinal study of human ageing, from the ELSA-UK database, in order to characterise longevity profiles. The knowledge extracted through classification models may help in the creation of public policies to improve the quality of life of elderly citizens. The dataset used in the study originally had 124 polytomous and dichotomous variables, created from questions in the ELSA study. This quantity and variety of data types is always a challenge for standard data mining techniques. In order to address this complexity, we compressed the variables in blocks, for the polytomous variables, and applied a biclustering process to the dichotomous variables, after a previous transformation using Factor Analysis, to identify the factors that were relevant to the classification task. After this process, the dimensionality of the dataset was reduced to 24 attributes, without relevant information loss. We trained decision tree classification models, and obtained 4 rules from those, all with up to 3 premises, which represent 18 of our attributes (block variables and selected factors). Our experiments showed that it is possible to characterise the longevity profiles with an average F-Score of 84.30%. As part of our results, we observed that the total insatisfaction felt by the respondent, in several aspects considered in the questionnaire, lead to a classification as the short-lived profile. On the other hand, moderate weekly activity, combined with light or vigorous physical activity, is one of the combinations of factors that lead to a long-lived profile classification. Keywords: Data Mining. Human Aging. Biclustering. Factor Analysis. Features Reduction. Classification . |
Databáze: | OpenAIRE |
Externí odkaz: |