Clustering and classification algorithm for detection of customers suspected of contributing to non-technical energy losses at energy trader company
Autor: | Calentura Rojas, Yeison Ferney |
---|---|
Přispěvatelé: | Prias Caicedo, Omar Fredy, Cruz Roa, Angel Alfonso, Grisec |
Jazyk: | Spanish; Castilian |
Rok vydání: | 2022 |
Předmět: |
Detección de anomalías
Pérdidas no técnicas de energía Monthly billing Computational learning Non-technical energy losses Anomaly detection Technical inspections Electric power Energy losses Energy consumption Empresa comercializadora de energía Aprendizaje computacional Inspecciones técnicas de instalaciones eléctricas Facturación mensual Monthly reading take 003 - Sistemas [000 - Ciencias de la computación información y obras generales] Energía eléctrica Machine learning Comercializador Energy trading company APRENDIZAJE AUTOMATICO (INTELIGENCIA ARTIFICIAL) Consumo de energía |
Zdroj: | Repositorio UN Universidad Nacional de Colombia instacron:Universidad Nacional de Colombia |
Popis: | ilustraciones, graficas Las empresas comercializadoras de energía eléctrica contemplan dentro de su proceso de planeación estratégica el propósito de maximizar sus rendimientos y brindar servicios con altos estándares de calidad. Por lo tanto, continuamente están en búsqueda de una operación más eficiente y rentable. El reto fundamental para este objetivo es minimizar las pérdidas de energía que corresponden a la diferencia entre la energía eléctrica generada y la que se factura finalmente a los usuarios. Estas pérdidas son de dos tipos: i) técnicas, que se manifiestan como parte de los fenómenos físicos asociados a la transmisión, transformación y distribución de la energía; y ii) no técnicas, que están asociadas a las intervenciones del ser humano que afectan el funcionamiento normal del equipo de medida, o demás acciones que no permiten la correcta facturación del consumo de energía. La naturaleza de las pérdidas no técnicas hace que su rastreo sea un proceso difícil e ineficiente, las soluciones propuestas por diversos autores se han agrupado en tres categorías: la primera enfocada a implementación de redes inteligentes y sistemas de monitoreo constante; la segunda basada en analítica de datos y la aplicación de técnicas de aprendizaje computacional sobre información de los usuarios, redes y consumos de energía; y la tercera, un enfoque mixto que toma elementos de ambos para la construcción de una solución completa analizando datos recopilados por redes de distribución inteligente. Este trabajo se abordó desde la perspectiva de la segunda categoría, el comercializador en estudio dispuso de fuentes de información que contenía datos del cliente, registros de toma de lectura mensual, e inspecciones técnicas. Posterior a la construcción del conjunto de datos, se analizaron los diferentes atributos numéricos y categóricos principalmente y se crearon características adicionales denominadas meta-características. Se emplearon dos algoritmos para la selección de las características: Random Forest y mRMR (Máxima relevancia, mínima redundancia), finalmente se realizó la implementación de técnicas de aprendizaje computacional supervisadas (Random Forest y Gradient Boosting) y no supervisadas (Kmeans, Agglomerative y Spectral clustering). En este trabajo puede evidenciarse como la selección de características y la creación de las meta-características propuestas permitieron un mejor desempeño de los modelos aplicados contrarrestando el efecto del desbalance entre clases propio de la naturaleza del problema, la implementación de la búsqueda de parámetros óptimos usando el método de Grid Search y la aplicación de validación cruzada por K-Folds contribuye de manera significativa a encontrar la mejor configuración de desempeño de los clasificadores y minimizar los errores de entrenamiento pasando de precisiones iniciales del 0,6 al 0,8 de precisión promedio macro (Macro-average Precision). Para las técnicas no supervisadas la naturaleza de los datos no permite una diferenciación clara entre los grupos obtenidos, por lo que ese enfoque no se considera apropiado para la solución del problema, en este caso se obtuvieron grupos bastante heterogéneos cuyos resultados se mantuvieron inferiores a 0,06 de puntuación de homogeneidad. (Texto tomado de la fuente) Electric energy trading companies consider within their strategic planning process the purpose of maximizing their yields and providing services with high quality standards. Therefore, they are continually searching for a more efficient and profitable operation. The fundamental challenge for this objective is to minimize energy losses, which correspond to the difference between the electrical energy generated and the one finally billed to users. These losses are of two types: i) technical, which are manifested as part of the physical phenomena associated with the transmission, transformation and distribution of energy; and ii) not technical, that are associated with human interventions that affect the normal operation of the media equipment or other actions that do not allow the correct billing of energy consumption. The nature of non-technical losses makes their tracking a difficult and inefficient process, the solutions proposed by several authors have been grouped into three categories: the first focused on the implementation of smart grids and constant monitoring systems, second based on data analytics and the application of computational learning techniques on information from users, networks and energy consumption, third, a mixed approach that takes elements of both to build a complete solution by analyzing data collected by intelligent distribution networks. This work was approached from the perspective of the second group, the marketer under study had information sources that contained customer data, monthly reading records, and technical inspections. After the construction of the data set, the different numerical and categorical attributes were analyzed and additional characteristics called meta-characteristics were created. Two algorithms are applied to select the most relevant characteristics: Random Forest and mRMR (maximum relevance, minimum redundancy), finally the implementation of supervised (random forest y gradient boosting) and unsupervised agglomerative y spectral clustering) computational learning techniques were carried out. In this work it can be evidenced how the selection of characteristics and the creation of the proposed meta-characteristics allowed a better performance of the applied models, counteracting the effect of the imbalance between classes typical of the nature of the problem, the implementation of the search for optimal parameters using the Grid Search method and the application of cross-validation by K-Folds contribute significantly to finding the best performance configuration of the classifiers and minimizing training errors, going from initial precision of 0.6 to 0.8 Macro-average Precision. For the unsupervised techniques, the nature of the data does not allow a clear differentiation between the groups obtained, so this approach is not considered appropriate for solving the problem. In this case, quite heterogeneous groups were obtained whose results remained below 0.06 homogeneity score. Maestría Magíster en Ingeniería - Ingeniería de Sistemas y Computación Computación aplicada |
Databáze: | OpenAIRE |
Externí odkaz: |