Evaluación de las técnicas de aprendizaje estadístico en el software R
Autor: | Peteiro Gándara, Alberto |
---|---|
Přispěvatelé: | Oviedo de la Fuente, Manuel, Universidade da Coruña. Facultade de Informática |
Jazyk: | Spanish; Castilian |
Rok vydání: | 2023 |
Předmět: |
Limpieza de valores atípicos
Clasificación de conjuntos de datos Elimination of irrelevant variables Algoritmos de aprendizaje supervisado Data preprocessing Utility of R software Preprocesamiento de datos Statistical learning Utilidad del software R Aprendizaje estadístico Eliminación de variables irrelevantes Supervised learning algorithms Classification of datasets Outlier removal |
Popis: | [Resumen]: El objetivo de este TFG es evaluar diferentes técnicas de aprendizaje estadístico implementadas en el software R y comparar su rendimiento en la clasificación de conjuntos de datos. Para ello, se han utilizado diferentes algoritmos de aprendizaje supervisado, como regresión logística, naive bayes y gradient boosting, entre otros. Se ha llevado a cabo un proceso de preprocesamiento de los datos, que incluye la limpieza de valores atípicos, la eliminación de variables irrelevantes y la normalización de los datos. Posteriormente, se han aplicado los algoritmos de aprendizaje a los datos procesados y se han evaluado mediante la métrica de precisión, la cual mide la proporción de instancias clasificadas de forma correcta. Los resultados obtenidos indican que los diferentes algoritmos de aprendizaje estadístico presentan resultados similares en cuanto a precisión en la clasificación de los datos, aunque algunos algoritmos, como naive bayes y gradient boosting, pueden ser más adecuados para conjuntos de datos específicos. En conclusión, este estudio demuestra la utilidad del software R para la implementación y evaluación de técnicas de aprendizaje estadístico, así como la importancia de seleccionar el algoritmo adecuado para cada conjunto de datos en particular. [Abstract]: The goal of this TFG is to evaluate different statistical learning techniques implemented in the R software and compare their performance in classifying datasets. For this purpose, various supervised learning algorithms such as logistic regression, Naive Bayes, and gradient boosting have been used. A data pre-processing process has been carried out, including outlier removal, elimination of irrelevant variables, and data normalization. Subsequently, the learning algorithms were applied to the pre-processed data and evaluated using the precision metric, which measures the proportion of instances classified correctly. The results indicate that the different statistical learning algorithms show similar results in terms of precision in classifying the data, although some algorithms, such as Naive Bayes and gradient boosting, may be more suitable for specific datasets. In conclusion, this study demonstrates the usefulness of the R software for implementing and evaluating statistical learning techniques, as well as the importance of selecting the appropriate algorithm for each specific dataset. Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2022/2023 |
Databáze: | OpenAIRE |
Externí odkaz: |