Popis: |
Zavedamo se, da je za banko dodeljevanje kreditov fizičnim in pravnim osebam zelo pomemben in odgovoren proces. Zato želimo v diplomskem delu približati pomen in uporabo naprednih modelov neplačil na primeru prebivalstva. Diplomsko delo ločita dve področji. V prvem so predstavljena teoretična spoznan- ja strojnega učenja, klasifikacije, kreditnega točkovanja, metod strojnega učenja ter njihove ocene in mere. Drugo, analitično področje seznanja z raziskovalnim pro- gramom Orange in predstavitvijo ter obdelavo uporabljenih podatkov odobrenih in zavrnjenih kreditojemalcev. Izhodišče za analizo so podatki pridobljeni, iz nemškega inštituta za statistiko in ekonometrijo, zbrani leta 1994. Teoretična in empirična spoznanja metod strojne- ga učenja so pripomogla k nadaljnjim raziskavam in ugotovitvam. Poskušali smo napovedati kateri kreditojemalci bodo kredit vrnili. Iz pridobljenih rezultatov sklepamo, da bi za kakovosten in točen izid potrebo- vali sistematičen pristop (večjo količino aktualnih podatkov kreditojemalcev), saj z razpoložljivimi podatki klasifikacija novih kreditojemalcev ne bi bila uspešna. S pomočjo rezultatov metod in meril za strojno učenje smo izbrali najinformativnejše atribute. Dokazali smo, da dosežemo skoraj isto klasifikacijsko točnost z izbranimi osmimi atributi kot z vsemi dvajsetimi. Z združitvijo lastnih in izbranih karakteristik nam je uspelo zagotoviti smernice, ki bi slovenskim bankam omogočale izboljšanje sistema za odobritev kreditov. Zaključimo, da bi bilo koristno če bi banke uporabl- jale poenotena merila za dodeljevanje posojil. Zagotovile bi enakopraven, pregleden in učinkovit pristop k reševanju kreditne problematike. We are aware of how important and responsible is the process of assigning credits for a bank. Because of that we would like to introduce advanced credit scoring models based on machine learning. We have focused on the credit scoring models for individual customers. Our thesis consists of two parts. First one presents the theoretical background of machine learning, classification, credit scoring, machine learning methods and theirs evaluations and measures. Second part, analytical one introduces us with data min- ing software Orange and presents credit data which was later on analyzed. The starting-point for the analysis are data received from German statistics and econometric institute. They were collected in 1994. Using the Orange data mining software we aimed to build credit scoring models based on old credit history. Results showed that we need more systematical approach (bigger amount of actual credit data). Using the German data we have shown that models based on German data are not very usefull for predicting new creditors. We also tried to select the most informative attributes. We have proved that we can reach the same classification accuracy using 8 attributes instead of 20. Based on our experiece from building credit scoring models we crafted a set of relevant attributes which can serve as a guideline for improvement of banks credit policy. |