Detección de fraudes en tarjetas de crédito, emitidas por una empresa particular, usando métodos de clasificación binaria en un escenario altamente desbalanceado

Autor: Parra Duque, Lina Victoria
Přispěvatelé: Mazo Lopera, Mauricio Alejandro
Jazyk: Spanish; Castilian
Rok vydání: 2023
Předmět:
Popis: In recent years, many companies have incorporated credit cards into their portfolios as a sales strategy, which has made this payment method increasingly common and a focal point for criminal activity. The company under study has not been immune to this type of fraud, which has significantly increased in recent years, resulting in losses for the organization. Therefore, this study aims to implement a model that identifies fraud through the application of classification methods, reducing financial losses in the organization. This study presents a model for fraud detection in credit cards for a specific company, applied to a highly imbalanced database, meaning that the observations for some classes are greater than others. To counteract this problem, the resampling technique is used, which is based on two fundamental aspects: adding and removing patterns. Thus, two methodologies are used to balance the classes. The first method is undersampling, which involves removing pantterns from the majority class to equalize it with the minority class. The second method is oversampling, which involves adding patterns to the minority class to equalize it with the majority class. To measure performance, sensitivity and specificity metrics are used for different applied models, including the model without data balancing and the models with balanced data. It is evident that the oversampling balancing methodology shows a considerable improvement in these indicators compared to the other models, as it is more sensitive in detecting fraudulent customers to a greater extent. En los últimos años muchas empresas han incorporado en sus portafolios la tarjeta de crédito como estrategia de venta, lo que ha permitido que este medio de pago se vuelva cada vez más frecuente, convirtiéndose en un foco de atención para los casos de delitos. La empresa objeto de estudio no ha sido ajena a esta modalidad de fraude que en los últimos años se ha incrementado considerablemente generando perdidas en la organización. Por esta razón, el presente trabajo busca implementar un modelo que identifique fraudes por medio de la aplicación de métodos de clasificación reduciendo pérdidas financieras en la organización. En este trabajo se presenta un modelo para la detección de fraudes en tarjetas de crédito para una empresa en particular, aplicado a una base de datos altamente desbalanceada, es decir, que las observaciones de alguna de sus clases es mayor con respecto a las demás. Para contrarrestar este problema se utiliza la técnica de remuestreo, la cual se basa en dos aspectos fundamentales como agregar y quitar patrones; de este modo para el equilibrio de las clases se utilizan dos metodologías: la primera corresponde al método de submuestreo (undersampling) la cual consiste en quitar patrones, los cuales se eliminarían de la clase mayoritaria y de esta forma igualarla a la clase minoritaria; y la segunda corresponde al sobremuestreo (oversampling), que consiste básicamente en agregar patrones los cuales se anexarían a la clase minoritaria y de esta forma igualarla a la clase mayoritaria. Para la medición del desempeño se utilizan métricas de sensibilidad y especificidad para los diferentes modelos aplicados entre los cuales se encuentra el modelo sin balanceo de datos y los modelos con datos balanceados. Se evidencia que con la metodología de balanceo oversampling hay una mejora considerable de estos indicadores con respecto a los otros modelos, ya que es más sensible al detectar en mayor proporción los clientes que cometen fraude. 8texto tomado de la fuente) Maestría Maestría en Ciencias - Estadística Área Curricular Estadística
Databáze: OpenAIRE