Towards the in silico reconstruction of protein interaction networks : identification of DNA- and RNA-protein interfaces, and construction of a database of multiple interactions of proteins

Autor: Corsi, Flavia
Přispěvatelé: Biologie Computationnelle et Quantitative = Laboratory of Computational and Quantitative Biology (LCQB), Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Institut de Biologie Paris Seine (IBPS), Sorbonne Université (SU)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS), Sorbonne Université, Alessandra Carbone, Elodie Laine, STAR, ABES
Jazyk: angličtina
Rok vydání: 2019
Předmět:
Zdroj: Structural Biology [q-bio.BM]. Sorbonne Université, 2019. English. ⟨NNT : 2019SORUS452⟩
Popis: This thesis focuses on the characterization and prediction of DNA- and RNA-binding sites on protein structures, with some comparisons with protein-protein ones. We compiled and manually curated a non-redundant and representative set of 187 high resolution protein-DNA complexes, with the available 82 protein unbound conformations, that could be used as a reference benchmark. We conducted a comprehensive analysis of sequence- and structure-based properties of protein-DNA/RNA interfaces and compared them with respect to protein-protein interfaces and to non-interacting protein regions. We developed JET2DNA and JET2RNA, new methods for predicting DNA- and RNA-binding sites on protein surfaces. Combining four biologically meaningful descriptors, they outperform other machine-learning methods, in terms of predictive power and robustness to conformational changes. Our tools demonstrated to be instrumental in discovering alternative DNA/RNA-binding sites and in deciphering their properties. This could be very helpful for drug design and repurposing. To give a comprehensive view of plasticity of DNA-binding proteins and structural information on their multiple interactions, we constructed the Protein-(Protein)-DNA database (P(P)DNAdb). It comprises the 187 protein-DNA complexes in our benchmark, protein unbound forms and structures of other complexes where the proteins, or closed homologs, were in contact with other proteins. The user can access properties of the interfaces, visualize conformational changes associated to the binding of different partners and the location of the DNA-binding residues on the unbound structures and on the complexes with the other protein partners.
Cette thèse porte sur la caractérisation et la prédiction des interfaces protéine-ADN et -ARN, et des comparaisons avec les interfaces protéine-protéine. Nous avons créé un ensemble non-redondant et représentatif de 187 complexes protéine-ADN à haute résolution, comprenant aussi les conformations non liées de 82 protéines. Cette base de données peut servir de référence dans le domaine. Nous avons mené une analyse exhaustive des propriétés de séquence et structurels des interfaces protéine-ADN/ARN et nous les avons comparé avec les propriétés des interfaces protéine-protéine et celles des régions protéiques non-interagissantes. Nous avons développé JET2DNA et JET2RNA, nouvelles méthodes pour la prediction des sites de liaison protéine-ADN/ARN à la surface des protéines. En combinant quatre descripteurs biologiquement pertinents, elles surpassent des méthodes par apprentissage machine. Elles permettent aussi de découvrir des sites de liaison alternatifs avec l'ADN/ARN et de déchiffrer leurs propriétés. Afin de donner un aperçu global de la plasticité des protéines interagissant avec l'ADN, nous avons construit la base de données protéine-(protéine)-ADN (P(P)DNAdb). Elle inclut les 187 complexes protéine-ADN de notre ensemble de référence, les forme libres des protéines et les structures des autres complexes où ces protéines, ou des homologues proches, sont impliqués. L'utilisateur peut accéder aux propriétés des interfaces, visualiser les changements de conformation associés à la liaison avec des partenaires différents et localiser les résidus interagissants avec l'ADN dans les autres structures de la même protéine.
Databáze: OpenAIRE