Deep Learning and its applications in Multiple Sequence Alignment
Autor: | Piriz Sapio, Fiorella |
---|---|
Přispěvatelé: | García Nieto, José Manuel, Nebro-Urbaneja, Antonio Jesus, Lenguajes y Ciencias de la Computación |
Rok vydání: | 2021 |
Předmět: |
Alineamiento múltiple de secuencias
Evaluación de rendimiento Alineamiento de secuencias (Bioinformática) Aprendizaje automático (Inteligencia artificial) Aplicaciones (Software) Grado en Ingeniería de la Salud - Trabajos Fin de Grado Machine learning Deep learning Bioinformática Informática - Trabajos Fin de Grado |
Zdroj: | RIUMA. Repositorio Institucional de la Universidad de Málaga instname |
Popis: | En la última década, Deep Learning (DL) ha sido una de las técnicas más em pleadas en diversos campos de estudio, incluida la Bioinformática. Sin embargo, a día de hoy no existen demasiados estudios en los que se aplique DL en para el Alineamiento de Secuencias Múltiples (MSA), una herramienta esencial en el día a día de disciplinas como la Biología y la Bioinformática. En concreto, los problemas de MSA son muy relevantes en Bioinformática ya que permite des cubrir similitudes entre múltiples secuencias biológicas (ADN, ARN o proteína). Además, tiene muchas aplicaciones en la comparación de estructuras y el análisis funcional. Sin embargo, la alineación resultante puede diferir de usar una u otra aplicación, por lo que, el resultado puede no ser óptimo, lo cual es el objetivo de MSA. Por tanto, es una tarea difícil elegir qué alineación realizar dependiendo de la familia de proteínas. Por ello, en este trabajo de fin de grado proponemos una herramienta para comparar diferentes modelos de Machine Learning, como Decision Tree, Ran dom Forest o Gradient Boosting, con dos arquitecturas de redes neuronales con volucionales (CNN). El objetivo es demostrar que el aprendizaje profundo es un procedimiento eficaz para clasificar familias de proteínas en función del prome dio de identidad porcentual por pares de secuencias(PID).Estos modelos de toma de decisiones determinan cuál de las cuatro herramientas seleccionadas para la Alineación de Secuencias Múltiples (MSA): MAFFT, Muscle, ClustalW2 y T-coffee, proporcionará la alineación final más precisa. Finalmente, para representar el proyecto, hemos implementado una aplicación Web llamada MachineLAlign (código abierto disponible aquí) que permite obtener el MSA con cualquiera de los modelos entrenados y evaluados. |
Databáze: | OpenAIRE |
Externí odkaz: |