Empleo de técnicas de Machine Learning para la predicción de propiedades ADME-Tox: Toxicidad
Autor: | Vela Castro, Alberto |
---|---|
Přispěvatelé: | Enciso Carrasco, Marta, Cánovas Izquierdo, Javier Luis |
Rok vydání: | 2019 |
Předmět: |
análisis estadístico
bases de datos xarxes neuronals artificials toxicity máquina de vectores de soporte redes neuronales artificiales aprenentatge automàtic anàlisi estadística Bioinformática -- TFM machine learning statistical analysis aprendizaje automático support vector machine toxicidad toxicitat màquina de vectors de suport bases de dades artificial neural networks database Bioinformàtica -- TFM Bioinformatics -- TFM |
Zdroj: | O2, repositorio institucional de la UOC Universitat Oberta de Catalunya (UOC) |
Popis: | Existe una creciente predilección por la aplicación de técnicas in silico en el desarrollo y descubrimiento de nuevos fármacos frente a las costosas y laboriosas técnicas de laboratorio. Estas son técnicas de machine learning. El Trabajo de Final de Máster (TFM) consistirá en analizar cuáles son las mejores técnicas actuales de machine learning para la predicción de la propiedad ADME-Tox, toxicidad. Una vez seleccionadas se realizará una comparativa práctica, además de una teórica con una base de datos real donde se podrán observar las distintas eficacias en la predicción de los distintos modelos propuestos. La metodología se llevó a cabo con el software libre de R y el paquete "rcdk" para la generación de los descriptores, le siguió un pre-procesamiento de los datos y una posterior generación de los algoritmos con su debida comparación. El algoritmo que se diferenció del resto por sus características fue el Árbol de decisión con una precisión del 0.88 y un índice kappa de 0.72 para este tipo de datos. Gracias a que es capaz de operar con bajos volúmenes de datos, pocos niveles y sobre todo por su capacidad de excluir características sin importancia. Se podría concluir que para bases de datos con un gran número de descriptores numéricos y pocos valores el algoritmo idóneo sería el Árbol de decisión. There is a growing predilection for the application of in silico techniques in the development and discovery of new drugs opposite of costly and laborious laboratory techniques. These are machine learning techniques. The Master Final Project (TFM) consisted in the analysis of the best current techniques of machine learning for the prediction of ADME-Tox property, toxicity. Once a theoretical comparison has been made, a practice will be carried out with a real database where it will be possible to observe the different efficiencies in the prediction of the different proposed models. The methodology was carried out with the free software of R and the "rcdk" package for the generation of the descriptors, followed by a pre-processing of the data and a subsequent generation of the algorithms with their proper comparison. The algorithm that was differentiated from the rest by its characteristics was the Decision Tree with an accuracy of 0.88 and a kappa index of 0.72 for this type of data. Thanks to the fact that it is capable of operating with low data volumes, few levels and above all because of its ability to exclude unimportant features. It could be concluded that for databases with a large number of numerical descriptors and few values, the ideal algorithm would be the Decision Tree. Existeix una creixent predilecció per l'aplicació de tècniques in silico en el desenvolupament i descobriment de nous fàrmacs enfront de les costoses i laborioses tècniques de laboratori. Aquestes són tècniques de machine learning. El Treball de Final de Màster (TFM) consistirà a analitzar quines són les millors tècniques actuals de machine learning per a la predicció de la propietat ADME-Tox, toxicitat. Una vegada seleccionades es realitzarà una comparativa pràctica, a més d'una teòrica amb una base de dades real on es podran observar les diferents eficàcies en la predicció dels diferents models proposats. La metodologia es va dur a terme amb el programari lliure de R i el paquet "rcdk" per a la generació dels descriptors, li va seguir un pre-processament de les dades i una posterior generació dels algorismes amb la seva deguda comparació. L'algorisme que es va diferenciar de la resta per les seves característiques va ser l'Arbre de decisió amb una precisió del 0.88 i un índex kappa de 0.72 per a aquesta mena de dades. Gràcies a que és capaç d'operar amb baixos volums de dades, pocs nivells i sobretot per la seva capacitat d'excloure característiques sense importància. Es podria concloure que per a bases de dades amb un gran nombre de descriptors numèrics i pocs valors l'algorisme idoni seria l'Arbre de decisió. |
Databáze: | OpenAIRE |
Externí odkaz: |