Forecasting post COVID-19 : How to improve forecasting models' performance when training data has been aected by exceptional events like COVID-19 pandemic?

Autor: Shrebati, Lina
Jazyk: angličtina
Rok vydání: 2023
Předmět:
Druh dokumentu: Text
Popis: Almost every company around the world were aected by the COVID-19 crisis and the government measures that were taken to slow the spread of the virus. The impact the crisis had on the economy caused the appearance of anomalies in the data collected by companies : such as abnormal trend, seasonality etc. Traditional methods of forecasting were then questioned when trying to predict business indicators such as sales in a post COVID19 world, as we saw performance like forecast accuracy decreased. So how can data scientists increase the performance of their forecasting models in a post COVID-19 world knowing that the training data contains COVID-19, an event never observed before? What methods can be used to overcome this problem? The goal of this project was to provide a guideline for dealing with COVID-19 data points for forecasters. We first dedicated this thesis to data analysis and finding a clear methodology to better understand and quantify the impact of COVID-19 crisis on business indicators. Then, we compared multiple methods to overcome the forecasting issues that are faced when training datasets influenced by the phenomenon of COVID-19 and improved forecast accuracy and reduce bias. Each method had its pros and cons. Among the methods changing the training data, imputation is the easiest method and can give very good results. Multiplicative coecients also can be used, and give also good results. Finally, optimal transport was tested as an alternative to the two first methods. This method changes less the original the time series compared to imputation. Among methods consisting in adding external features to the model, a boolean feature is the most simple way to flag a COVID-19 period and works surprisingly well. Adding more complex features describing COVID-19 impact on the time series is challenging since we need to find a feature that describes well the phenomenon and be able to use another model to predict its future values if we want to use it for our first model. Adding Google mobility features to the model as external regressors seem to increase the most forecast accuracy, but its performance depends on how well we can estimate their future values. This applies also to stringency index, but predicting stringency index future values is even harder as we are trying to estimate government measures. However, with the Stringency index we can simulate scenarios if we make a hypothesis on future government measures: we can estimate COVID-19 impact on the time series in a worst case scenario with lockdowns by setting the Stringency index high for instance.
Nästan alla företag runt om i världen drabbades av covid-19-krisen och de statliga åtgärder som har vidtagits för att bromsa spridningen av viruset. Krisens inverkan på ekonomin orsakade uppkomsten av anomalier i data som samlats in av företag: onormal trend, säsongsvariationer ... etc. Traditionella metoder för prognoser ifrågasattes sedan när man försökte förutsäga aärsindikatorer som försäljning i en värld efter covid-19, eftersom vi såg att prestanda som prognosnoggrannhet minskade. Så hur kan dataforskare öka prestandan för sina prognosmodeller i en värld efter covid-19 med vetskapen om att träningsdata innehåller covid-19, en händelse som aldrig tidigare observerats? Vilka metoder kan användas för att övervinna detta problem? Målet med detta projekt var att ge en riktlinje för hantering av covid-19-datapunkter för prognosmakare. Vi dedikerade först denna avhandling till dataanalys och att hitta en tydlig metod för att bättre förstå och kvantifiera eekten av covid-19- krisen på aärsindikatorer. Sedan jämförde vi flera metoder för att övervinna problemet med den COVID-19-påverkade träningsdatauppsättningen och förbättrad prognosnoggrannhet och minskad bias. Varje metod hade sina för- och nackdelar. Bland metoderna för att ändra träningsdata är imputering den enklaste metoden och kan ge mycket goda resultat. Multiplikativa koecienter kan också användas och ger också bra resultat. Slutligen undersöktes en ny metod: optimal transport, och kan vara ett alternativ till imputering. Med denna metod är den ursprungliga formen på tidsseriekurvan lite mer bevarad, så viss information i originaldata är fortfarande användbar för modellen. Bland de externa funktioner som lagts till i modellen är den booleska funktionen det enklaste sättet att flagga en covid-19-period och fungerar förvånansvärt bra. Googles mobilitetsfunktioner är de externa regressorer som verkar öka mest prognosnoggrannhet, men det beror på hur väl vi kan uppskatta deras framtida värden. Detta gäller även stringensindex, men ännu svårare då vi försöker skatta statliga åtgärder. Stringensindex kan användas för att simulera scenarier (värsta scenario med låsningar, bästa fall där allt är öppet).
Databáze: Networked Digital Library of Theses & Dissertations