Deep Learning and its applications in Multiple Sequence Alignment

Autor: Piriz Sapio, Fiorella
Přispěvatelé: García Nieto, José Manuel, Nebro-Urbaneja, Antonio Jesus, Lenguajes y Ciencias de la Computación
Rok vydání: 2021
Předmět:
Zdroj: RIUMA. Repositorio Institucional de la Universidad de Málaga
instname
Popis: En la última década, Deep Learning (DL) ha sido una de las técnicas más em pleadas en diversos campos de estudio, incluida la Bioinformática. Sin embargo, a día de hoy no existen demasiados estudios en los que se aplique DL en para el Alineamiento de Secuencias Múltiples (MSA), una herramienta esencial en el día a día de disciplinas como la Biología y la Bioinformática. En concreto, los problemas de MSA son muy relevantes en Bioinformática ya que permite des cubrir similitudes entre múltiples secuencias biológicas (ADN, ARN o proteína). Además, tiene muchas aplicaciones en la comparación de estructuras y el análisis funcional. Sin embargo, la alineación resultante puede diferir de usar una u otra aplicación, por lo que, el resultado puede no ser óptimo, lo cual es el objetivo de MSA. Por tanto, es una tarea difícil elegir qué alineación realizar dependiendo de la familia de proteínas. Por ello, en este trabajo de fin de grado proponemos una herramienta para comparar diferentes modelos de Machine Learning, como Decision Tree, Ran dom Forest o Gradient Boosting, con dos arquitecturas de redes neuronales con volucionales (CNN). El objetivo es demostrar que el aprendizaje profundo es un procedimiento eficaz para clasificar familias de proteínas en función del prome dio de identidad porcentual por pares de secuencias(PID).Estos modelos de toma de decisiones determinan cuál de las cuatro herramientas seleccionadas para la Alineación de Secuencias Múltiples (MSA): MAFFT, Muscle, ClustalW2 y T-coffee, proporcionará la alineación final más precisa. Finalmente, para representar el proyecto, hemos implementado una aplicación Web llamada MachineLAlign (código abierto disponible aquí) que permite obtener el MSA con cualquiera de los modelos entrenados y evaluados.
Databáze: OpenAIRE