Registres de salut digitals: Tractament de dades i construcció de models de predicció de malaltia

Autor: Cros Roura, Sílvia
Přispěvatelé: Maceira Duch, Marc, Pérez Álvarez, Nuria
Rok vydání: 2021
Předmět:
Zdroj: O2, repositorio institucional de la UOC
Universitat Oberta de Catalunya (UOC)
Popis: Els objectius principals d'aquest TFM han consistit en conèixer els registres de salut digitals, aprendre a tractar les dades que se'n deriven i simular un estudi de predicció de risc dirigit a l'Artritis Reumatoide. Per acomplir tals fites, s'ha utilitzat una base de dades amb informació de 100.000 pacients simulats (EMRbots), la qual s'ha adaptat i reduït a 28.572 pacients, la meitat dels quals estaven diagnosticats amb Artritis Reumatoide. L'anàlisi estadístic s'ha dividit en dos parts: la primera part ha estat enfocada a la identificació de factors de risc associats amb la malaltia en qüestió, recollint que l'hipoalbuminèmia, la proteïnèmia, l'anèmia, la leucositosi, l'hiperplaquetosis, el gènere femení i una edat superior a 45 anys podrien tenir una implicació directe amb aquesta. La segona part ha consistit en utilitzar aquestes variables per entrenar i executar diferents models i algoritmes de classificació de pacients segons diagnòstic. Els models seleccionats han sigut: Regressió logística múltiple, Algoritme de Naïve Bayes, Random Forest, SVM i ANN. S'ha estimat la seva actuació a partir de diferents paràmetres, tals i com són les corbes ROC, la precisió o l'AUC. En excepció de Naïve Bayes, tota la resta de models ha presentat una bona actuació, pel que s'ha conclòs que qualsevol d'ells és vàlid per problemes de classificació de malaltia a partir de predictors numèrics i categòrics. No obstant això, cal tenir present que tot el treball ha sigut simulat i que les conclusions no són extrapolables a nivell real. Los objetivos principales de este TFM han consistido al conocer los registros de salud digitales, aprender a tratar los datos que se derivan y simular un estudio de predicción de riesgo dirigido a la Artritis Reumatoide. Para cumplir tales hitos, se ha utilizado una base de datos con información de 100.000 pacientes simulados (EMRbots), la cual se ha adaptado y reducido a 28.572 pacientes, la mitad de los cuales estaban diagnosticados con Artritis Reumatoide. El análisis estadístico se ha dividido en dos partes: la primera parte ha sido enfocada a la identificación de factores de riesgo asociados con la enfermedad en cuestión, recogiendo que la hipoalbuminèmia, la proteïnèmia, la anemia, la leucositosi, la hiperplaquetosis, el género femenino y una edad superior a 45 años podrían tener una implicación directo con esta. La segunda parte ha consistido al utilizar estas variables para entrenar y ejecutar diferentes modelos y algoritmos de clasificación de pacientes según diagnóstico. Los modelos seleccionados han sido: Regresión logística múltiple, Algoritmo de Naïve Bayes, Random Monte, SVM y ANN. Se ha estimado su actuación a partir de diferentes parámetros, tales y como son las curvas ROC, la precisión o la AUC. En excepción de Naïve Bayes, todo el resto de modelos ha presentado una buena actuación, por el que se ha concluido que cualquiera de ellos es válido por problemas de clasificación de enfermedad a partir de predictores numéricos y categóricos. Sin embargo, hay que tener presente que todo el trabajo ha sido simulado y que las conclusiones no son extrapolables a nivel real. The main objectives pursued by this TFM were how to deal with data derived from Electronic Health Records and to simulate a prediction study for classifying patients according to the risk of developing rheumatoid arthritis using this data. For that, a 100.000 virtual patients' dataset was used. This cohort was adapted and reduced to 28.572 patients; half diagnosed with RA. A statistical analysis was performed, with two differentiated parts: the first one consisted in the identification of risk factors associated with the disease, recognizing hypoalbuminemia, proteinemia, anaemia, leucocytosis, thrombocytosis, the feminine gender, and an age over than 45 years as correlated variables. The second part used these factors to build and execute the different selected models, which were: Logistic multiple regression, Naïve Bayes algorithm, Random Forest, SVM and ANN. Their performance was evaluated by means of different parameters, such as: ROC curves, accuracy, and AUC. Excluding Naïve Bayes, all the other models showed a good performance, hence, all are considered acceptable to be used in classification problems based in numeric and categoric predictors. Nevertheless, it must be taken into account that the work was done with simulated data, therefore, the conclusions are not comparably to the real patients.
Databáze: OpenAIRE