Generation and evaluation of synthetic Covid-19 patients data

Autor: Martín Peyrona, Alex
Přispěvatelé: Universitat Politècnica de Catalunya. Departament de Matemàtiques, Ruiz Ordóñez, Magda, Mujica Delgado, Luis Eduardo
Jazyk: angličtina
Rok vydání: 2023
Předmět:
Popis: Aquest treball de final de grau es centra en un problema molt comú avui dia: la falta de dades. Els cientifics de dades necessiten volums grans de dades per produir eines precises i acurades. En aquest document s’investiga sobre un conjunt de dades de pacients covid, el qual es descriu en tots els seus aspectes. L’objectiu es produir dades noves, per tant, en centrar la recerca en diferents algoritmes i models que ho permetin. S’han triat tres algoritmes que estan basats en les copules gaussianes, reds generatives adver‐ saries i reds bayesianes, cadascun. Es generen les dades i s’estudia com de bones son. La evaluació d’aquestes es duu a terme per dues bandes. Per una banda, mitjançant un test d’hipótesis, s’evalua si la distribució sintètica es similar (estadisticament) a la distribució original, comparant estadístics com la variança i la mediana. D’altre banda, s’evalua si es mantenen les cor‐ relacions de les dades originals a les sintètiques mitjançant un anàlisis de similaritat utilitzant matrius de coeficients de correlació. S’efectua una diferència de matrius (original i sintètica), la qual, ideal‐ ment, hauria de ser molt propera a zero. Tot plegat, s’analitzen els resultats de les dues evaluacions i es proposen idees per seguir aquesta branca de la investigació. A més, s’analitza l’impacte econòmic i ambiental del projecte Este trabajo de fin de grado se centra en un problema muy común hoy en día: la falta de datos. Los científicos de datos necesitan grandes volúmenes de datos para producir herramientas precisas. En este documento se investiga sobre un conjunto de datos de pacientes covid, el cual se describe en todos sus aspectos. El objetivo es producir datos sintéticos, por lo tanto, se centra la investigación en diferentes algoritmos y modelos que lo permiten. Se han elegido tres modelos se basan en las copulas gausianas, redes generativas adversarias y redes bayesianas, cada uno. Se generan los datos y se estudia cómo de buenos son. La evaluación de estas se lleva a cabo por dos lados. Por uno, mediante una prueba de hipótesis, se evalúa si la distribución sintética es similar (estadísticamente) a la distribución original, compara‐ ndo estadísticos como la varianza y la mediana. Por otro lado, se evalúa si se mantienen las correla‐ ciones de los datos originales en las sintéticas mediante un análisis de similitud utilizando matrices de coeficientes de correlación. Se efectúa una diferencia de matrices (original y sintética), la cual, idealmente, debería ser muy cercana a cero. Finalmente, se analizan los resultados de las dos evaluaciones y se proponen ideas para seguir esta rama de la investigación. Además, se analiza el impacto económico y ambiental del proyecto. This final degree dissertation focuses on a very common problem nowadays: the lack of data. Data scientists need large volumes of data to produce accurate and precise tools. In this document, research is carried out on a set of COVID patient data, which is described in all its aspects. The objective is to produce synthetic data, therefore, focusing the research on different algorithms and models that allow it. Three algorithms have been chosen that are based on Gaussian copulas, adversarial generative networks, and Bayesian networks, each one. The data is generated and studied how good it is. The dataset is evaluated in two ways. On one hand, performing a hypothesis test, the synthetic distribution is evaluated to be similar (statistically) to the original distribution, comparing statistics such as variance and median. On the other hand, it is evaluated whether the correlations of the original data are maintained in the synthetic ones through a similarity analysis using correlation co‐ efficient matrices. A difference of matrices (original and synthetic) is carried out, which should ideally be very close to zero. To sum up, the results of the two evaluations are analyzed, and ideas are proposed to follow this branch of research. In addition, the economic and environmental impact of the project is analyzed.
Databáze: OpenAIRE