Υπολογιστική ανάλυση εποχικότητας της πανδημίας Covid-19 με ετερογενή δεδομένα, αυτόματες ροές εργασίας και μηχανική μάθηση

Jazyk: Greek, Modern (1453-)<br />Greek
Rok vydání: 2022
Předmět:
DOI: 10.26262/heal.auth.ir.338853
Popis: Ο νέος κορωνοϊός COVID-19 σύμφωνα με τον Παγκόσμιο Οργανισμό Υγείας από τις 11 Μαρτίου του 2020 αποτελεί μία πανδημία με περισσότερους από 400 εκατομμύρια ανθρώπους να έχουν νοσήσει. Πλέον έχει παρέλθει χρονικό διάστημα δύο χρόνων από την εύρεση του πρώτου κρούσματος, με τις περισσότερες χώρες ανά τον κόσμο να εφαρμόζουν κατά καιρούς διάφορα μέτρα φαρμακευτικά και μη για την αντιμετώπιση της πανδημίας. Η εποχικότητα ωστόσο που ακολουθεί ο ιός δεν έχει οριστεί απόλυτα, με τα δεδομένα να διαψεύδουν μέχρι τώρα την υπόθεση ότι ο ιός υποχωρεί κατά τους θερινούς μήνες. Οι κοινωνικο-οικονομικές παράμετροι όπως η απαγόρευση κυκλοφορίας και τα μέτρα απόστασης καθώς και η ανθρώπινη συμπεριφορά θολώνουν αρκετά το τοπίο της εποχικότητας. Επιπλέον, έρευνες που εφαρμόστηκαν σε μικρό όγκο δεδομένων, είναι πιθανό να έχουν καταλήξει σε αμφισβητούμενα αποτελέσματα. Συνεπώς, η μελέτη για την εποχικότητα του ιού SARS-CoV-2 και ο ορισμός των παραμέτρων που συσχετίζονται με την διασπορά του COVID-19 είναι επιτακτική, αφού ο ιός δύο χρόνια μετά από την εμφάνισή του συνεχίζει να μολύνει και να οδηγεί στο θάνατο καθημερινά πολλούς ανθρώπους. Η συγκεκριμένη διπλωματική εργασία έχει ως σκοπό να βοηθήσει στην έρευνα που γίνεται για την εποχικότητά του COVID-19, παρέχοντας δομημένα δεδομένα που μπορούν να εφαρμοστούν σε τεχνικές μηχανικής/στατιστικής μάθησης και οπτικοποίησης. Συγκεκριμένα, συλλέγονται δεδομένα από διαφορετικές, επιλεγμένες πηγές στα οποία περιλαμβάνεται μεγάλος όγκος από περιβαλλοντικές και κοινωνικο-οικονομικές παραμέτρους που είναι πιθανό να σχετίζονται με την διασπορά του COVID-19. Τα δεδομένα που προκύπτουν από τη συγκεκριμένη εργασία δεν είναι στάσιμα, αλλά κάθε μήνα αυτόματα ανανεώνονται συμπεριλαμβάνοντας καινούργιες μετρήσεις. Στο σύνολό τους ξεπερνούν μέχρις στιγμής τα 3.000.000 data points και περιλαμβάνονται τιμές από παραμέτρους χωρών σε χρονικό διάστημα μεγαλύτερο των δύο ετών, και για πρώτη φορά έχουμε στη διάθεση μας τον ετήσιο κύκλο για την ανίχνευση εποχικότητας. Τέλος τα δεδομένα από 7 Ευρωπαϊκές χώρες εφαρμόζονται σε τέσσερα μοντέλα μηχανικής μάθησης έτσι ώστε μέσα από τεχνικές όπως η σημαντικότητα χαρακτηριστικών (Feature Importance) και ο πίνακας συσχέτισης (Correlation Matrix), να γίνει κατανοητό ποιές από τις 41 παραμέτρους που εφαρμόστηκαν ως ανεξάρτητες μεταβλητές επηρεάζουν περισσότερο την εξαρτημένη, δηλαδή την διασπορά του COVID-19. Επίσης, τα αποτελέσματα από τη συγκεκριμένη εργασία αναλύονται σε συνδυασμό με τα αποτελέσματα από το συνολικό Project που αποτελεί τμήμα του η διπλωματική εργασία και κατά το οποίο μελετήθηκαν δεδομένα από 54 χώρες. Μέρος της εργασίας θα χρησιμοποιηθεί σε μία εργασία προς δημοσίευση εντός του 2022.
The novel coronavirus COVID-19 as of March 11, 2020, and according to the World Health Organization is a pandemic with more than 400 million people infected thus far. It has now been two years since the first case was found, with most countries around the world occasionally implementing various pharmaceutical and non-pharmaceutical measures to deal with the pandemic. The virus has not been completely defined, with the data so far disproving the hypothesis that the virus subsides during the summer months. Socio-economic parameters such as curfews and distancing measures as well as human behavior blur the pattern of seasonality. Moreover, various research carried out on a limited volume of data may have yielded questionable results. Therefore, the study on the seasonality of the SARS-CoV-2 virus and the definition of the parameters associated with the spread of COVID-19 is imperative as two years after its onset, the virus continues to infect and lead to the death of many people every day. This thesis aims to assist in the research done on the seasonality of COVID-19, providing structured data that can be applied to machine/statistical learning and visualisation techniques. In particular, data which are collected from different, selected sources include a large volume of environmental and socio-economic parameters that are likely to be related to the spread of COVID-19. The data resulting from this task are not static, but automatically updated every month to include new measurements. So far, the data exceed 3,000,000 points and include values from countries’ parameters collected over a period of more than two years. For the first time we have at our disposal the annual cycle for the detection of seasonality. Finally, data from seven European countries are applied to four machine learning models so that ¬¬̶ through techniques such as Feature Importance and Correlation Matrix ¬¬̶ it is understood which of the forty-one parameters applied as independent variables most affect the dependent variable, i.e., the spread of COVID-19. Also, the results from this work are analyzed in conjunction with the results from the wider project (of which this thesis is part) where data from fifty-four countries were studied. Part of this work will be used in a paper to be published in 2022
Databáze: OpenAIRE