ALGORITHMS AND COMPUTATIONAL TOOLS FOR THE STUDY OF INTRINSICALLY DISORDERED PROTEINS

Autor: Estaña Garcia, Alejandro
Přispěvatelé: HAL-LAAS, LAAS, Équipe Robotique et InteractionS (LAAS-RIS), Laboratoire d'analyse et d'architecture des systèmes (LAAS), Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Institut National des Sciences Appliquées - Toulouse (INSA Toulouse), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Institut National des Sciences Appliquées de Toulouse, Juan Cortés, Pau Bernado
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Zdroj: Bioinformatics [q-bio.QM]. Institut National des Sciences Appliquées de Toulouse, 2020. English. ⟨NNT : 2020ISAT0012⟩
Popis: Intrinsically Disordered Proteins (IDPs) are involved in many biological processes. Their inherent plasticity facilitates very specialized tasks in cell regulation and signalling, and their malfunction is linked to severe pathologies. Understanding the functional roles of IDPs requires their structural characterization, which is extremely challenging, and needs a tight coupling of experimental and computational methods. In contrast to structured/globular proteins, IDPs cannot be represented by a single conformation, and their models must be based on ensembles of conformations representing a distribution of states that the protein adopts in solution. While purely random coil ensembles can be reliably constructed by available bioinformatics tools, these tools fail to reproduce the conformational equilibrium present in partially-structured regions.In this thesis, we propose several computational methods that, combined with experimental data, provide a better structural characterization of IDPs. These methods can be grouped in two main categories: methods to construct conformational ensemble models, and methods to simulate conformational transitions.Contributing to the first type of methods, we propose a new approach to generate realistic conformational ensembles that improves previously existing methods, being able to reproduce the partially-structured regions in IDPs. This method exploits structural information encoded in a database of three-residue fragments (tripeptides) extracted from high-resolution experimentally-solved protein structures. We have shown that conformational ensembles generated by our method reproduce accurately structural descriptors obtained from NMR and SAXS experiments for a benchmark set of nine IDPs. Also exploiting the tripeptide database, we have developed an algorithm to predict the propensity of some fragments inside IDPs to form secondary structure elements. This new method provides more accurate results than those of the most commonly-used predictors available on our benchmark set of well-characterized IDPs.Contributing to the second type of methods, we have developed an original approach to model the folding mechanism of secondary structural elements. The computation of conformational transitions is formulated as a discrete path search problem using the tripeptide database. To evaluate the approach, we have applied the strategy to two small synthetic polypeptides mimicking two common structural motifs in proteins. The folding mechanisms extracted are very similar to those obtained when using traditional, computationally expensive approaches. Finally, we have developed a more general method to compute transition paths between a (possibly large) set of conformations of an IDP. This method builds on a multi-tree variant of the TRRT algorithm, developed at LAAS-CNRS, and which provided good results for small and middle-sized biomolecules. In order to apply this method to IDPs, we have proposed a hybrid strategy for the parallelization of the algorithm, enabling an efficient e! xecution in computer clusters.In addition to the aforementioned methodological work, I have been actively involved in multidisciplinary work, together with biophysicists and biologists, where I have applied these methods to the investigation of important biological systems, in particular the huntingtin protein, the causative agent of Huntington’s disease.In conclusion, the work carried out during my PhD thesis has enabled a better understanding of the relationship between sequence and structural properties of IDPs, paving the way to novel applications. For example, this deeper understanding of sequence-structure relationships will enable us to anticipate structural perturbations exerted by sequence mutations, and subsequently, the rational design of IDPs with tailored properties for biotechnological applications.
Les protéines intrinsèquement désordonnées (IDPs, acronyme en anglais de "Intrinsically Disordered Proteins") sont des essentielles dans des nombreux processus biologiques. Leur plasticité inhérente facilite des tâches spécialisées, complémentaire à celles des protéines globulaires, dans la régulation et dans la signalisation cellulaire, et leur dysfonctionnement est lié à des pathologies sévères. Comprendre leur rôle fonctionnel exige de caractériser la structure des IDPs et des complexes qu'elles forment. Modéliser les IDPs est extrêmement difficile et exige un couplage étroit des méthodes expérimentales et informatiques. Contrairement aux protéines structurées/globulaires, les IDPs ne peuvent pas être représentées par une seule conformation, et leurs modèles doivent être basés sur des ensembles de conformations qui représentent une distribution des états que la protéine adopte en solution. Il existe de multiples outils bioinformatique! s qui permettent d'identifier à priori les éléments partiellement structurés au sein des IDPs. Cependant, les caractéristiques structurelles détectées par ces programmes dépendent fortement de la méthodologie utilisée, et les différentes méthodes produisent souvent des résultats contradictoires. Alors que des ensembles purement composés par "random coil" peuvent être construits de manière fiable, l'équilibre conformationnel présent dans les régions partiellement structurées est mal reproduit.Dans cette thèse, nous proposons plusieurs méthodes de calcul qui, combinées à des données expérimentales, permettent une meilleure caractérisation structurelle des IDPs. Ces méthodes peuvent être regroupées en deux grandes catégories : les méthodes de construction de modèles d'ensembles conformationnels et les méthodes de simulation des transitions conformationnelles.Contribuant au premier type de méthodes, nous présentons une nouvelle approche pour générer des ensembles conformationnels réalistes, qui améliore les approches existantes, et permet de reproduire les régions partiellement structurées des IDPs. Cette méthode exploite les informations structurelles codées dans une base de données de fragments de trois résidus (tripeptides) extraits de structures protéiques de haute résolution obtenues expérimentalement. Nous avons montré que les ensembles conformationnels générés par notre méthode reproduisent fidèlement les descripteurs structurels obtenus à partir d'expériences RMN et SAXS. En tant que composante nécessaire de l'algorithme de construction d'ensemble, nous avons développé un algorithme pour prédire la propension de certains fragments à l'intérieur des IDPs à former des éléments de structure secondaire. Cette nouvelle méthode, qui exploite également la base de données de tripeptides, fournit! des résultats plus précis que ceux des prédicteurs les plus couramment utilisés sur plusieurs IDPs bien caractérisées. Bien que le prédicteur structurel ait été principalement développé pour compléter notre méthode de modélisation d'ensembles, il peut également être très utile comme outil indépendant.Contribuant au deuxième type de méthodes, nous avons développé une approche originale pour modéliser le mécanisme de repliement des éléments structuraux secondaires. Le calcul des transitions conformationnelles menant à la formation des éléments structuraux est formulé comme un problème de recherche de chemin discret à l'aide de la base de données de tripeptides. Pour évaluer l'approche, nous avons appliqué la stratégie à deux petits polypeptides synthétiques imitant deux motifs structurels communs dans les protéines. Les mécanismes de repliement extraits sont très similaires à ceux obtenus en utilisant des approches traditionnelles et coûteuses en calcul. Enfin, nous avons mis au point une méthode plus générale pour calculer les chemins de transition entre un ensemble (éventuellement important) de conformations d'IDPs. Cette méthode s'appuie sur une variante multi-arbre de l'algorithme Transition-based Rapidly-exploring Random Tree (Multi-TRRT)! , récemment développé au LAAS-CNRS, et qui a donné de bons résultats pour les biomolécules de petites et moyennes tailles. Afin d'appliquer cette méthode aux IDPs, nous avons proposé une stratégie hybride pour la parallélisation de l'algorithme, permettant une exécution efficace dans les clusters de calcul.Outre le travail méthodologique susmentionné, j'ai également participé activement à des travaux multidisciplinaires, en collaboration avec des biophysiciens et des biologistes, où j'ai appliqué ces méthodes à l'étude de systèmes biologiques importants, en particulier la protéine huntingtin, l'agent responsable de la maladie de Huntington.En conclusion, les travaux menés dans le cadre de cette thèse de doctorat ont permis de mieux comprendre la relation entre la séquence et la structure des IDPs, ouvrant la voie à de nouvelles applications. Grâce à cette compréhension plus approfondie des relations séquence-structure il sera possible d'anticiper les perturbations structurelles exercées par les mutations dans la séquence, ainsi que la conception rationnelle des IDPs ayant des propriétés spécifiques pour des applications dans les biotechnologies.
Databáze: OpenAIRE