Popis: |
La minería de datos y machine learning son herramientas altamente potenciales en la identificación de observaciones inusuales en tendencias de patrones, dado que son un conjunto de técnicas robustas que facilitan la toma de decisión, el proceso knowledge discovery in databases, kdd por sus siglas en inglés, es un campo de la estadística y ciencias de la computación que emplea diversas técnicas y metodologías para el proceso de identificar patrones valiosos en la extracción de la información nueva, útil y novedosa; una de las etapas más importantes es el data mining, donde se realiza la estimación de los parámetros de los modelos probabilísticos como son las redes neuronales, random forest, naive bayes, máquinas de soporte vectorial, modelos lineales generalizados logit, probit y log log; posteriormente serán evaluados y analizados con las métricas de clasificación accuracy, precisión, recall, f beta score y curva roc. El fraude se define como la acción contraria a la verdad y a la rectitud, que perjudica a la persona o entidad contra quien se comete, esto conlleva a pérdidas económicas y problemas legales; hay diferentes tipos de fraude, como son intruso a redes privadas, tarjeta de crédito, telecomunicaciones y lavado de activos. Este trabajo busca comparar la eficiencia de los modelos probabilísticos de la minería de datos, machine learning y los modelos lineales generalizados para ser aplicados a las transacciones con tarjeta de crédito y evaluar con las métricas de clasificación que modelo probabilístico es eficiente en la detección de predecir el fraude. Data mining and machine learning are highly potential tools in the identi_cation of unusual observations in pattern trends, since they are a set of robust techniques that facilitate decision making, the knowledge discovery in databases process, KDD for its acronym in English, is a _eld of statistics and computer science that employs various techniques and methodologies for the process of identifying valuable patterns in the extraction of new, useful and novel information; One of the most important stages is the data mining, where the estimation of the parameters of the probabilistic models such as neural networks, random forest, naive bayes, vectorial support machines, generalized lineal models logit, probit and log log; later they will be evaluated and analyzed with the classi_cation, accuracy, recall, f beta score and roc curve metrics. Fraud is defined as the action contrary to the truth and rectitude, which harms the person or entity against whom it is committed, this leads to economic losses and legal problems. There are different types of fraud, as they are intrusive to private networks, credit card, telecommunications and money laundering. This work seeks to compare the efficiency of the probabilistic models of data mining, machine learning and generalized linear models to be applied to credit card transactions and evaluate with the classi_cation metrics that probabilistic model is efficient in predicting the fraud Profesional en estadística http://unidadinvestigacion.usta.edu.co Pregrado |