Método rápido de preprocesamiento para clasificación en conjuntos de datos no balanceados

Autor: William Cruz-Santos, Liliana Puente-Maury, Lourdes López-García, Asdrúbal López-Chau
Rok vydání: 2014
Předmět:
Zdroj: Research in Computing Science. 73:129-142
ISSN: 1870-4069
DOI: 10.13053/rcs-73-1-9
Popis: Resumen. El problema de desbalance en clasificacion se presenta en conjuntos de datos que tienen una cantidad grande de datos de cierto tipo (clase mayoritaria), mientras que el numero de datos del tipo contrario es considerablemente menor (clase minoritaria). En este escenario, practicamente todos los metodos de clasificacion presentan un bajo desempeno. En este articulo se propone un nuevo metodo de preprocesamiento, que utiliza un enfoque similar a las tecnicas de basadas en enlaces Tomek, pero cuyo tiempo de ejecucion es dramaticamente reducido con respecto al calculo por fuerza bruta, comunmente utilizado en dichas tecnicas. Los resultados obtenidos en los experimentos demuestran la efectividad del metodo propuesto para mejorar las areas de las curvas ROC y PRC de metodos de clasificacion aplicados a conjuntos de datos reales no balanceados.
Databáze: OpenAIRE