Reducción de dimensionalidad en Machine Learning. Diagnóstico de cáncer de mama bsado en datos genómicos y de imagen

Autor: Galarza Hernández, Javier
Jazyk: Spanish; Castilian
Rok vydání: 2017
Předmět:
Zdroj: RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia
instname
Popis: The target of the current Project consist in analyzing some of the Matching Learning techniques used in the current treatment of Big Data. It includes the study of the statistical and algebraic tools involved in the calculations, and an application to the diagnosis and clasification of breast cancer based on genomic and image data. To extract information from Big Data, the data obtained require to be pre-processed. In this Project we present different pre-processing techniques and analyze them and their impact on the resulting prediction models. Two Machine Learning Models are presented: One of them is focused on the diagnosis of breast cáncer base don image data. The second one is devoted to the classification of the different types of breast cancer and to the discovery of different patterns using genomic and proteinomic data. The two data basis are particularly convenient to present the Marchine Learning techniques analyzed in the Project and the corresponding pre-processing strategies.
El objetivo del proyecto es analizar algunas técnicas de aprendizaje automático (Machine Learning) que se emplean en la actualidad para extracción de información de grandes cantidades de datos, estudiar las herramientas estadísticas y algebraicas que emplean en los cálculos, y aplicarlas al diagnóstico y clasificación de tipos de cáncer de mama. El manejo de grandes cantidades de datos requiere de un pre-procesamiento de los mismos para poder ser empleados. En este proyecto se presentan y analizan también distintas herramientas utilizadas en el pre-procesado de datos y su impacto en el modelo de predicción. En el trabajo se crean dos modelos de aprendizaje automático: Uno enfocado al diagnóstico del cáncer de mama utilizando indicadores de imagen, y otro focalizado en la clasificación de subtipos y descubrimiento de patrones utilizando datos genómicos y proteómicos. Las dos bases de datos elegidas son particularmente adecuadas para mostrar el funcionamiento de las técnicas de Machine Learning analizadas y del correspondiente pre-procesamiento requerido.
Databáze: OpenAIRE