Uso de paquetes de R/Bioconductor para análisis funcional de datos ChIP-Seq
Autor: | Gallego Crespo, Aarón |
---|---|
Přispěvatelé: | Pérez Navarro, Antoni, Brunel Montaner, Helena |
Jazyk: | Spanish; Castilian |
Rok vydání: | 2021 |
Předmět: | |
Zdroj: | O2, repositorio institucional de la UOC Universitat Oberta de Catalunya (UOC) |
Popis: | ChIP-Seq es un método de secuenciación masiva para identificar sitios de unión proteínas-ADN. Su aplicación para el estudio del perfil de unión de histonas y factores de transcripción en el genoma humano permite conocer la relevancia de estas proteínas en procesos como la diferenciación celular y la patogenia de enfermedades. El proyecto Bioconductor ofrece paquetes de software en R para el análisis de datos ChIP-Seq, suponiendo una alternativa de fácil acceso, bajo coste computacional y altamente versátil frente a otras herramientas. En este trabajo se propuso como objetivos: 1) La búsqueda y selección de paquetes de R/Bioconductor; 2) La búsqueda y selección de conjuntos de datos ideales para aplicar los paquetes; 3) El diseño de un pipeline de análisis de datos ChIP-Seq. Este pipeline se diseñó para realizar la anotación funcional e identificación de motivos de ADN a partir de datos procedentes de tres escenarios experimentales típicos: 1) ChIP-Seq en diferentes replicas biológicas; 2) ChIP-Seq en dos condiciones diferentes; 3) ChIP-Seq en diferentes líneas celulares. El pipeline resultante combina los paquetes ChIPSeeker y ChIPpeakAnno; rGREAT para el análisis de motivos, entre otros paquetes. Los resultados indican que: 1) ChIPpeakAnno es más flexible y específico para anotación funcional de los picos; 2) ChIPseeker ofrece mayor variedad de opciones para visualizar datos; 3) Ambos paquetes se complementan bien en sus fortalezas y debilidades, siendo más útiles juntos que separados; 4) rGREAT cumple los requerimientos básicos para el análisis de motivos, pero tiene un catálogo de funciones limitado. Xip-Seq és un mètode de seqüenciació massiva per a identificar llocs d'unió proteïnes-ADN. La seva aplicació per a l'estudi del perfil d'unió d'histones i factors de transcripció en el genoma humà permet conèixer la rellevància d'aquestes proteïnes en processos com la diferenciació cel·lular i la patogènia de malalties. El projecte Bioconductor ofereix paquets de programari en R per a l'anàlisi de dades Xip-Seq, suposant una alternativa de fàcil accés, sota cost computacional i altament versàtil enfront d'altres eines. En aquest treball es va proposar com a objectius: 1) La cerca i selecció de paquets de R/Bioconductor; 2) La cerca i selecció de conjunts de dades ideals per a aplicar els paquets; 3) El disseny d'un pipeline d'anàlisi de dades Xip-Seq. Aquest pipeline es va dissenyar per a realitzar l'anotació funcional i identificació de motius d'ADN a partir de dades procedents de tres escenaris experimentals típics: 1) Xip-Seq en diferents repliques biològiques; 2) Xip-Seq en dues condicions diferents; 3) Xip-Seq en diferents línies cel·lulars. El pipeline resultant combina els paquets ChIPSeeker i ChIPpeakAnno; rGREAT per a l'anàlisi de motius, entre altres paquets. Els resultats indiquen que: 1) ChIPpeakAnno és més flexible i específic per a anotació funcional dels pics; 2) ChIPseeker ofereix major varietat d'opcions per a visualitzar dades; 3) Tots dos paquets es complementen bé en les seves fortaleses i febleses, sent més útils junts que separats; 4) rGREAT compleix els requeriments bàsics per a l'anàlisi de motius, però té un catàleg de funcions limitat. ChIP-Seq is a massive sequencing method to identify protein-DNA binding sites. Its application to the study of histone and transcription factor binding profiles in the human genome provides insight into the relevance of these proteins in processes such as cell differentiation and disease pathogenesis. The Bioconductor project offers software packages in R for the analysis of ChIP-Seq data, providing an easily accessible, low computational cost and highly versatile alternative to other tools. In this work we proposed as objectives: 1) The search and selection of R/Bioconductor packages; 2) The search and selection of ideal data sets to apply the packages; 3) The design of a ChIP-Seq data analysis pipeline. This pipeline was designed to perform functional annotation and DNA motif identification on data from three typical experimental scenarios: 1) ChIP-Seq in different biological replicates; 2) ChIP-Seq in two different conditions; 3) ChIP-Seq in different cell lines. The resulting pipeline combines the ChIPSeeker and ChIPpeakAnno packages; rGREAT for motif analysis, among other packages. The results indicate that: 1) ChIPpeakAnno is more flexible and specific for functional annotation of peaks; 2)ChIPseeker offers a greater variety of options for visualizing data; 3) Both packages complement each other well in their strengths and weaknesses, being more useful together than separately; 4) rGREAT meets the basic requirements for motif analysis, but has a limited catalog of functions. |
Databáze: | OpenAIRE |
Externí odkaz: |