Clustering and classification of prepaid mortgages

Autor: Atli Thorsteinsson, Jakob
Jazyk: angličtina
Rok vydání: 2023
Předmět:
Druh dokumentu: Text
Popis: This thesis aims to cluster and classify mortgages issued by a financial institution. The aim is to apply machine learning techniques on historical data in order to discover a possible structure and predictability in prepaid mortgages. To discover the underlying structure of the data \textit{k}-means clustering on principal components is performed to cluster customers with mortgages.A logistic regression model is trained to predict how likely (future) customers with mortgages are to prepay their loans, hence moving them to another institution. The classification model is evaluated using confusion matrices for different levels of thresholds. The results show that based on historical data the model detects clusters which include a higher proportion of mortgages being prepaid. This indicating an underlying structure which can be used to determine a riskiness of leaving for customers within each cluster. The results from the logistic regression show a significant improvement in precision by using a high threshold in the classification.
Målet med uppsatsen är att gruppera och klassificera bostadslån utställda av en finansiell institution. Målet är att tillämpa maskininlärningstekniker på historisk data för att upptäcka en möjlig struktur och förutsägbarhet i förskottsbetalda bostadslån.För att upptäcka den underliggande strukturen i datamängden utförs \textit{k}-means klustring på principalkomponenter för att gruppera kunder med bostadslån. En logistisk regressionsmodell tränas för att förutsäga hur sannolikt det är att (framtida) kunder med bostadslån kommer att förskottsbetala sina lån, och därmed flytta dem till en annan institution. Klassificeringsmodellen utvärderas med hjälp av förvirringsmatriser för olika tröskelnivåer. Resultaten visar att baserat på historisk data upptäcker modellen kluster som innehåller en högre andel förskottsbetalda bostadslån. Detta indikerar en underliggande struktur som kan användas för att bestämma risken för att kunder inom varje kluster lämnar institutionen. Resultaten från den logistiska regressionsmodellen visar en betydande förbättring av precisionen genom att använda en hög tröskel vid klassificeringen.
Databáze: Networked Digital Library of Theses & Dissertations