Implementation of multivariate statistical techniques for prediction of energy use

Autor: Li, Zhengxu, Universitat Autònoma de Barcelona. Escola d'Enginyeria
Přispěvatelé: Ortiz Vargas, Walter Andrés
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Zdroj: Dipòsit Digital de Documents de la UAB
Universitat Autònoma de Barcelona
Popis: Aquest projecte tracta sobre el desenvolupament de tècniques estadístiques multivariants per a la predicció de l'ús d'energia, basades en els principals factors que influeixen en el consum d'energia. S'estudiaren diverses estratègies per elaborar models que siguin capaços de pronosticar la variable dependent (ús d'energia) utilitzant diverses variables independents. Els models de predicció proposats són relativament simples i fàcils dimplementar, per tant, poden jugar un paper important en el manteniment del consum d'energia de les instal·lacions i ser aplicats com un mètode universal per al món industrial. Una preocupació principal del treball és que les dades sense processar com a dades de sèries de temps i contenien una gran quantitat de variables independents, com a resultat, es va utilitzar l'anàlisi de components principals (PCA) per reduir la quantitat de paràmetres i simplificar el model. Després es va realitzar la implementació de dos tipus de models de regressió lineal: Model de Regressió Lineal Múltiple (MLR) i Model Lineal Generalitzat (GLM). Per determinar els paràmetres ubicats en aquests dos models es van utilitzar els Mínims Quadrats Ordinaris (OLS) i l'Estimació de Màxima Versemblant (MLE) i se'n van estudiar les diferències. A més, també es va investigar un algorisme de machine learning anomenat Random Forest (RF) per fer una comparació entre els mètodes clàssics i el model de machine learning. Els models proposats presenten les característiques següents: simplicitat, gran aplicabilitat, bon ajustament amb les dades obtingudes i fàcil implementació. Este proyecto trata sobre el desarrollo de técnicas estadísticas multivariantes para la predicción del uso de energía, basadas en los principales factores que influyen en el consumo de energía. Se estudiaron varias estrategias para elaborar modelos que sean capaces de pronosticar la variable dependiente (uso de energía) utilizando varias variables independientes. Los modelos de predicción propuestos son relativamente simples y fáciles de implementar, por lo tanto, pueden jugar un papel importante en el mantenimiento del consumo de energía de las instalaciones y ser aplicados como un método universal para el mundo industrial. Una preocupación principal del trabajo es que los datos sin procesar como datos de series de tiempo y contenían una gran cantidad de variables independientes, como resultado, se utilizó el análisis de componentes principales (PCA) para reducir la cantidad de parámetros y simplificar el modelo. Luego, se realizó la implementación de dos tipos de modelos de regresión lineal: Modelo de Regresión Lineal Múltiple (MLR) y Modelo Lineal Generalizado (GLM). Para determinar los parámetros ubicados en estos dos modelos se utilizaron los Mínimos Cuadrados Ordinarios (OLS) y la Estimación de Máxima Verosimilitud (MLE) y se estudiaron sus diferencias. Además, también se investigó un algoritmo de machine learning llamado Random Forest (RF) para hacer una comparación entre los métodos clásicos y el modelo de machine learning. Los modelos propuestos presentan las siguientes características: simplicidad, gran aplicabilidad, buen ajuste con los datos obtenidos y fácil implementación. This project concerns the development of multivariate statistical techniques for the prediction of energy use, based on the main factors that influence energy consumption. Several strategies were studied to elaborate models that are capable to forecast dependent variable (energy use) using various independent variables. The proposed prediction models are relatively simple and uncomplicated to implement, therefore, can play an important role in the maintenance of facilities' energy consumption and be applied as an universal method for industrial world. A primary concern of the work is that the raw data as time series data and contained huge amount of independent variables, as a result, Principal Component Analysis (PCA) was used to reduce the number of parameters to make the model more simple. Then, implementation of two types of linear regression models was performed: Multiple Linear Regression model (MLR) and Generalized Linear Model (GLM). In order to determine the parameters located in these two models, the Ordinary Least Squares (OLS) and Maximum likelihood estimation (MLE) were utilized and their differences were studied. In addition, a machine-learning algorithm named Random Forest (RF) was also investigated to make an comparison between classical methods and machine-learning model. The proposed models present the following characteristics: simplicity, large applicability, good match with obtained data and easy deployment.
Databáze: OpenAIRE