Analyse de la différenciation génétique à l'ère des nouvelles technologies de séquençage

Autor: Hivert, Valentin
Přispěvatelé: Centre de Biologie pour la Gestion des Populations (UMR CBGP), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-Institut National de la Recherche Agronomique (INRA)-Centre international d'études supérieures en sciences agronomiques (Montpellier SupAgro)-Université de Montpellier (UM)-Institut de Recherche pour le Développement (IRD [France-Sud])-Institut national d’études supérieures agronomiques de Montpellier (Montpellier SupAgro), Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro)-Institut national d'enseignement supérieur pour l'agriculture, l'alimentation et l'environnement (Institut Agro), Montpellier SupAgro, Renaud Vitalis, Mathieu Gautier
Jazyk: francouzština
Rok vydání: 2018
Předmět:
Zdroj: Sciences agricoles. Montpellier SupAgro, 2018. Français. ⟨NNT : 2018NSAM0061⟩
Popis: The advent of high throughput sequencing and genotyping technologies allows the comparison of patterns of polymorphisms at a very large number of genetic markers. The analysis of genetic differentiation between populations at a whole-genome scale makes it possible to characterize genomic regions involved in the local adaptation of organisms to their environment. In this thesis, we followed two complementary approaches to characterize differentiation from high-throughput genotyping data. First, we developed an unbiased estimator of the parameter FST for individuals sequenced in pools (Pool-seq). Deriving this estimator, in an analysis-of-variance framework, required to properly account for the different sampling steps: individual genes from the pool, and sequence reads from these genes. We show that it outperforms previously proposed estimators. Second, we developed a method to analyze genetic differentiation at a whole-genome scale in a hierarchical bayesian framework, in order to untangle the effect of demography from that of selection. To this end, we implemented different extensions to the SelEstim model, aimed at leveraging the information from linkage disequilibrium between markers. A first approach consisted in analyzing multiallelic data derived from the local clustering of SNPs into haplotype blocks. An alternative strategy consisted in including a smoothing model, which accounts for the spatial dependency between neighboring markers. This strategy relies on the analysis of biallelic data, and can be used both with individual genotype data or Pool-seq data. We discuss the relative benefits of these different approaches, based on the analysis of simulated data sets.; L’avancée des technologies de séquençage et de génotypage à haut-débit permet la comparaison de patrons de polymorphisme à un très grand nombre de marqueurs génétiques. L'analyse de la différenciation des populations à une échelle génomique rend ainsi possible la recherche de régions génomiques impliquées dans l’adaptation locale des organismes à leur environnement. Dans cette thèse, nous avons suivi deux approches complémentaires pour caractériser la différenciation génétique à partir de données de génotypage à haut-débit. Dans un premier temps, nous avons développé un estimateur non-biaisé du paramètre FST pour des données de génotypage d’individus en mélange (Pool-seq). La construction de cet estimateur, dans un contexte d’analyse de variance, a nécessité de bien prendre en compte les différentes étapes de l’échantillonnage : des gènes dans le mélange d'individus et des lectures de séquençage parmi les gènes. Nous montrons qu’il surpasse les estimateurs utilisés jusqu'à présent. Dans un deuxième temps, nous avons développé une méthode d'analyse de la différenciation génétique à l'échelle du génome, dans le cadre d’un modèle bayésien hiérarchique, pour distinguer l'effet de la démographie de celui de la sélection. Pour cela, nous avons implémenté plusieurs extensions au modèle SelEstim, pour exploiter l'information de déséquilibre de liaison entre les marqueurs. Une première stratégie a consisté à analyser des données multialléliques, obtenues par le regroupement local de marqueurs SNPs en blocs d'haplotypes. Une stratégie alternative a consisté à intégrer un modèle de lissage prenant en compte la dépendance spatiale entre marqueurs adjacents. Cette approche repose sur l'analyse de données bialléliques, ce qui la rend applicable à la fois à des données de génotypage individuel et à des données Pool-seq. Nous discutons, sur la base de l'analyse de jeux de données simulées, des mérites relatifs de ces différentes approches.
Databáze: OpenAIRE