Modelos de clasificación para datos astronómicos
Autor: | Teppa Pannia, Florencia Anabella |
---|---|
Přispěvatelé: | Vicente Villardón, José Luis |
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | GREDOS. Repositorio Institucional de la Universidad de Salamanca Fundacion Sancho el Sabio Fundazioa (FSS) |
Popis: | La aplicación de métodos de aprendizaje automático supervisado a problemas científicos ha alcanzado su auge en los últimos años como herramienta fundamental para la exploración y minería de grandes bases de datos. En particular, en el campo de la Astronomía, un tema de estudio frecuentemente abordado es el entrenamiento de modelos para la clasificación de objetos celestes a partir de imágenes y/o características físicas observables. El objetivo general de este trabajo es investigar modelos supervisados de clasificación binaria para resolver el problema de la distinción de objetos puntuales dentro de las clases galaxia y estrella. Los objetivos particulares se detallan a continuación: 1. Presentar el marco teórico de los modelos supervisados de clasificación, con el fin de familiarizar las ventajas y desventajas que presenta cada uno, así como adquirir un dominio de las herramientas numéricas para su aplicación. En este marco, se definen también las métricas adecuadas para cuantificar y comparar las capacidades de predicción de cada modelo. 2. Entrenar los modelos presentados utilizando el catálogo astronómico ALHAMBRA, compuesto por un total de 23 filtros fotométricos, que recoge información de observaciones de más de 6 × 104 objetos celestes. Comparar las predicciones de clasificación de cada modelo para este ejemplo concreto. Asimismo, el trabajo es llevado a cabo según la siguiente metodología: el marco teórico para presentar los modelos es recogido de bibliografía específica, siguiendo los lineamientos del modulo 5 (Machine Learning) de este máster; los datos utilizados son de acceso público y se presentan mediante un análisis exploratorio inicial; los modelos son entrenados a partir de algoritmos disponibles en librerías de R y los códigos se presentan detallados para la reproducibilidad de los resultados obtenidos. Como resultado general de nuestro trabajo, encontramos que todos los modelos estudiados arrojan buenos ajustes (regresión logística, support vector machines, redes neuronales y árboles de decisión, entre otros), con errores de predicción bajos al ser evaluados con datos de validación. Valorando la complejidad de los modelos y aplicando el principio de simplicidad, el modelo de regresión logística resulta preferido por su buena capacidad de predicción y la simpleza en implementación e interpretación. Los resultados obtenidos en este trabajo para la clasificación de objetos del catálogo ALHAMBRA son originales, y los modelos entrenados resultan comparables a otros estudiados con catálogos astronómicos de las mismas características. Applications of supervised machine learning techniques to scientific problems have increased in the last years as an extremely powerful tool for exploring and managing big data. Particularly, in the field of Astronomy, an important application is the study of classification models to distinguish between point-like sources from images and/or observable features. The main objective of this work is the training of binary classification models with astronomical data to deal with the problem of classifying point-like sources into galaxy and star targets. Particular goals are: 1. To present the theoretical framework for classification models, highlighting their advantages and disadvantages, and providing general criteria to use them in different situations together with the corresponding numerical tools for applications. In this context, we will also define appropriate metrics to compare models and evaluate their power of prediction. 2. To train the presented models using astronomical data from ALHAMBRA, a photometric multi-filter survey of approximately 6 × 104 celestial objects. We will compare predictions from different classifiers, as well as their efficiency and complexity. The objectives of this work will be accomplished by means of the following methodology: The theoretical framework to present the models is taken from the bibliography suggested in the Master as well as specific scientific publications on the topic. The data, which is publicly available, will be first statistically described and prepared for training. All models will be trained using specific libraries in R and codes will be available for the reproducibility of the results. As our main result, we find that all the studied models for binary classification (logistic regression, support vector machines, neural networks, and decision tress, among others) are in agreement with good predictions for the star/galaxy problem when validation data is tested. Taking into account the complexity of the studied models and the principle of simplicity, we find that the logistic regression is preferred due to its excellent capacity of prediction and the simplicity of its implementation and interpretation. All the results obtained in this work for the star/galaxy classification problem using ALHAMBRA data are original, and comparable with those presented in the literature for catalogs with similar properties. |
Databáze: | OpenAIRE |
Externí odkaz: |