Development of a variant interpretation framework for the SIGEN genomic diagnostic service

Autor: Mahecha López, Daniel Hernán
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Zdroj: Séneca: repositorio Uniandes
Universidad de los Andes
instacron:Universidad de los Andes
Popis: "Diagnostic of genetics diseases from high throughput DNA sequencing data is becoming a common practice. The SIGEN diagnostic service aims to offer high quality genetic diagnosis service in Colombia. However, an important concern among practitioners interpreting genetic diagnostic reports is the significant number of disease-related variants classified as Variants of Uncertain Significance (VUS). An additional barrier is the high cost of software and databases required in the the interpretation process. Here, we present a framework for variant interpretation using only open access software tools and databases, tested with real data from patients with suspected genetic disease. To help prioritize VUS with higher probabilities of being pathogenic, we developed different machine-learning methods. We trained and compared a Naive Bayes model, a Random Forest (RF), a Support Vector Machine, and a Five-Layer Perceptron (MLP) using variants from ClinVar classified as pathogenic, likely pathogenic, likely benign and benign on october 2019. A set of conservation scores and 1,000 human genomes global allele frequencies were used as features for model training. The RF and the MLP models showed the highest accuracy, above commonly used tools for variant deleteriousness prediction. Additionally, we developed a database of the variants found in our patient population and a web interface to make it more accessible."--Tomado del Formato de Documento de Grado "El diagnóstico de enfermedades genéticas con secuenciación de ADN de alto rendimiento es una práctica cada vez más común. El servicio de diagnóstico de SIGEN tiene como objetivo ofrecer diagnóstico genético de calidad en Colombia. Sin embargo, el trabajo de los especialistas que interpretan los reportes diagnósticos es el alto número de Variantes de Significado Incierto (VUS). Adicionalmente, el alto costo del software y las bases de datos usadas en el proceso de interpretación son una barrera para su implementación. En el presente trabajo, se presenta un proceso de interpretación de variantes utilizando únicamente software y bases de datos de acceso libre, evaluado en datos reales de pacientes con sospecha de enfermedades genéticas. Para priorizar las VUS con mayor probabilidad de ser patogénicas, se desarrollaron diferentes métodos de Machine Learning. Se entrenaron y compararon modelos basados en Bayes Ingenuo, Bosque Aleatorio (RF), Máquina de Soporte Vectorial y un Perceptron de Cinco Capas (MLP) usando variantes de ClinVar clasificadas como patogénicas, probablemente patogénicas, probablemente benignas y benignas en octubre de 2019. Como atributos para el entrenamiento se utilizó un conjunto de puntajes de conservación y las frecuencias alélicas globales del proyecto de 1000 genomas humanos. Los módelos basados en RF y MLP mostraron la exactitud más alta, sobre herramientas usadas comúnmente en la predicción de variantes. Adicionalmente, se desarrolló una base de datos de las variantes encontradas en nuestra población de pacientes y una interfaz web para facilitar su accesibilidad."--Tomado del Formato de Documento de Grado Magíster en Biología Computacional Maestría
Databáze: OpenAIRE