Modeling tourist consumption using statistical learning methods
Autor: | Faullend Heferer, Ida |
---|---|
Přispěvatelé: | Sandrić, Nikola |
Jazyk: | chorvatština |
Rok vydání: | 2023 |
Předmět: |
least squares method
expected test error linear regression model linearni regresijski model turistička potrošnja u Republici Hrvatskoj metode regularizacije (ridge i LASSO regresija) PRIRODNE ZNANOSTI. Matematika očekivana testna greška tourist consumption in the Republic of Croatia metoda najmanjih kvadrata testna greška Institut za turizam NATURAL SCIENCES. Mathematics Institute for tourism regularization methods (ridge and LASSO regression) test error |
Popis: | U ovom radu modelirala se turistička potrošnja u Republici Hrvatskoj koristeći metode statističkog učenja. Na početku rada dali smo uvod u statističko učenje, uveli terminologiju, centralne pojmove najbolje veze i funkcije gubitka te cijeli okvir za daljnje predstavljanje metoda koje smo koristili. Podsjetili smo se linearnog regresijskog modela i najčešće metode njegove prilagodbe - metode najmanjih kvadrata. Definirali smo pojmove testne greške i očekivane testne greške te predstavili metodu unakrsne validacije kao metodu za procjenu očekivane testne greške. Koristeći lemu o dekompoziciji očekivane testne greške, objasnili smo odnos pristranosti i varijance u statističkom učenju. Potom smo uveli metode odabira prediktora u linearnim modelima te metode regularizacije (ridge i LASSO regresija). Na kraju smo predstavljene metode primijenili na podatke Instituta za turizam o turističkoj potrošnji u Republici Hrvatskoj. Rezultati svih metoda koje smo primijenili upućuju na nelinearnost veze između varijabli odziva i varijable prediktora. Sve metode dovode do približno jednakih zaključaka vezano uz utjecaj pojedinih prediktora na odziv. S obzirom da je testna greška najmanja kod metoda ridge i LASSO regresije, za njih bismo se najprije odlučili pri donošenju zaključaka. In this thesis, we model tourist expenditure in the Republic of Croatia using statistical learning methods. The thesis begins with an introduction to the statistical learning terminology, its concepts and its main tools. We then further revise the linear regression model and the least squares method. Next, we define the test error and the expected test error of a prediction and we present the cross-validation method as a tool for estimating the expected test error. We also provide a decomposition of the expected test error which explains the relationship between bias and variance in the statistical learning theory. We next discuss subset selection methods in linear models and regularization methods (ridge and LASSO). Finally, we apply the presented methods to the data provided by the Institute for Tourism on tourist expenditure in the Republic of Croatia. The results of all the methods we apply suggest a non-linear relationship between the response variable and the predictor variables. However, they also lead to a similar conclusion on the relationship between the response variable and the regressors, with regularization methods giving lower test error. |
Databáze: | OpenAIRE |
Externí odkaz: |