Development of a Machine Learning Survival Analysis Pipeline with Explainable AI for Analyzing the Complexity of ED Crowding : Using Real World Data collected from a Swedish Emergency Department

Autor: Haraldsson, Tobias
Jazyk: angličtina
Rok vydání: 2023
Předmět:
Druh dokumentu: Text
Popis: One of the biggest challenges in healthcare is Emergency Department (ED)crowding which creates high constraints on the whole healthcare system aswell as the resources within and can be the cause of many adverse events.Is is a well known problem were a lot of research has been done and a lotof solutions has been proposed, yet the problem still stands unsolved. Byanalysing Real-World Data (RWD), complex problems like ED crowding couldbe better understood. Currently very few applications of survival analysis hasbeen adopted for the use of production data in order to analyze the complexityof logistical problems. The aims for this thesis was to apply survival analysisthrough advanced Machine Learning (ML) models to RWD collected at aSwedish hospital too see how the Length Of Stay (LOS) until admission ordischarge were affected by different factors. This was done by formulating thecrowding in the ED for survival analysis through the use of the LOS as thetime and the decision regarding admission or discharge as the event in order tounfold the clinical complexity of the system and help impact clinical practiceand decision making.By formulating the research as time-to-event in combination with ML, thecomplexity and non linearity of the logistics in the ED is viewed from a timeperspective with the LOS acting as a Key Performance Indicator (KPI). Thisenables the researcher to look at the problem from a system perspective andshows how different features affect the time that the patient are processedin the ED, highlighting eventual problems and can therefore be useful forimproving clinical decision making. Five models: Cox Proportional Hazards(CPH), Random Survival Forests (RSF), Gradient Boosting (GB), ExtremeGradient Boosting (XGB) and DeepSurv were used and evaluated using theConcordance index (C-index) were GB were the best performing model witha C-index of 0.7825 showing that the ML models can perform better than thecommonly used CPH model. The models were then explained using SHapleyAdaptive exPlanations (SHAP) values were the importance of the featureswere shown together with how the different features impacted the LOS. TheSHAP also showed how the GB handled the non linearity of the features betterthan the CPH model. The five most important features impacting the LOS wereif the patient received a scan at the ED, if the visited and emergency room,age, triage level and the label indicating what type of medical team seemsmost fit for the patient. This is clinical information that could be implementedto reduce the crowding through correct decision making. These results show that ML based survival analysis models can be used for further investigationregarding the logistic challenges that healthcare faces and could be furtherused for data analysis with production data in similar cases. The ML survivalanalysis pipeline can also be used for further analysis and can act as a first stepin order to pinpoint important information in the data that could be interestingfor deeper data analysis, making the process more efficient.
En av de största utmaningarna inom vården är trängsel på akuten som skaparstora ansträngninar inom vårdsystemet samt på dess resurser och kan varaorsaken till många negativa händelser. Det är ett välkänt problem där mycketforskning har gjorts och många lösningar har föreslagits men problemetär fortfarande olöst. Genom att analysera verklig data så kan komplexaproblem som trängsel på akuten bli bättre förklarade. För närvarande harfå tillämpningar av överlevnadsanalys applicerats på produktionsdata för attanalysera komplexiteten av logistiska problem. Syftet med denna avhandlingvar att tillämpa överlevnadsanalys genom avancerade maskininlärningsmetoderpå verklig data insamlat på ett svenskt sjukhust för att se hur vistelsens längdför patienten fram till inläggning påverkades av olika faktorer. Detta gjordesgenom att applicera överlevnadsnanalys på trängsel på akuten genom attanvända vistelsens längd som tid och beslutet om intagning eller utskrivningsom händelsen. Detta för att kunna analysera systemets kliniska komplexitetoch bidra till att påverka klinisk praxis och beslutsfattande.Genom att formulera forskningsfrågan som en överlevnadsanalys i kombinationmed maskininlärning kan den komplexitet och icke-linjäritet som logistikenpå akuten innebär studeras genom ett tidsperspektiv där vistelsens längdfungerar som ett nyckeltal. Detta gör det möjligt för forskaren att ävenstudera problemet från ett systemperspektiv och visar hur olika egenskaperoch situationer påverkar den tid som patienten bearbetas på akuten. Detta uppmärksammar eventuella problem och kan därför vara användbart för attförbättra det kliniska beslutsfattandet. Fem olika modeller: CPH, RSF, GB,XGB och DeepSurv användes och utvärderades med hjälp av C-index där GBvar den bäst presterande modellen med ett C-index på 0.7825 vilket visar attmaskininlärningsmetoderna kan prestera bättre än den klassiska och vanligtförekommande CPH modellen. Modellerna förklarades sedan med hjälp utavSHAP värden där vikten utav de olika variablerna visades tillsammmans med deras påverkan. SHAP visade även att GB modellen hanterade icke-linjäriteten bättre än CPH modellen. De fem viktigaste variablerna som påverkade vistelsens längd till intagning var om patienten blev scannad påakutmottagningen, om de blev mottagna i ett akutrum, ålder, triagenivå ochvilket medicinskt team som ansågs bäst lämpat för patienten. Detta är kliniskinformation som skulle kunna implementeras genom beslutsfattande för attminska trängseln på akuten. Dessa resultat visar att maskininlärningsmetoderför överlevnadsanalys kan användas för vidare undersökning angående de logistiska utmaningar som sjukvården står inför och kan även användas ytterligareför datanalys med produktionsdata i liknande fall. Processen med överlevnadsanalys och ML kan även användas för vidare analys och kan agera som ett förstasteg för att framhäva viktig information i datan som skulle vara intressant fördjupare data analys. Detta skulle kunna göra processen mer effektiv.
Databáze: Networked Digital Library of Theses & Dissertations