Predição de default de empresas: técnicas de machine learning em dados desbalanceados

Autor: Cordeiro, Tiago Vilas Boas
Přispěvatelé: Escolas::EESP, Costa, Oswaldo Luiz do Valle, Matsumoto, Élia Yathie, Chela, João Luiz
Jazyk: portugalština
Rok vydání: 2020
Předmět:
Zdroj: Repositório Institucional do FGV (FGV Repositório Digital)
Fundação Getulio Vargas (FGV)
instacron:FGV
Popis: Given the importance of credit risk management for the banking sector, probability of default models have become fundamental. In this context, with the advances in the volume of information from customers and the computational capacity, several techniques have been studied and applied. In this study, we used two traditional linear techniques, the Linear Discriminant Analysis and Logistic Regression, and four non-linear ensemble techniques, Bagging, Random Forest, Adaboost and Stacking, applied to a problem of probability of default on brazilian companies, using information from their financial statements. The results indicate that the transformations in the data and treatment of class imbalanced have a strong impact on the predictive power of Logistic Regression. Yet, Random Forest was the technique with the best performance regardless of the scenario and the metric used. Dada a importância do gerenciamento do risco de crédito para o setor bancário, modelos de probabilidade de default tornaram-se fundamentais. Neste contexto, com o avanço do volume de informações dos clientes e a capacidade computacional, diversas técnicas têm sido estudadas e aplicadas. Neste estudo, utilizamos duas técnicas lineares tradicionais, a Análise Discriminante Linear e a Regressão Logística, e quatro técnicas não-lineares ensembles, Bagging, Random Forest, Adaboost e Stacking, aplicadas em um problema de predição de default de empresas brasileiras utilizando informações de seus demonstrativos financeiros. Os resultados indicam que as transformações nos dados e tratamento de desbalanceamento de classes tem forte impacto no poder preditivo da Regressão Logística. Ainda, o Random Forest foi a técnica com melhor desempenho, independente do cenário e da métrica utilizada.
Databáze: OpenAIRE