Cohérences de grandes matrices aléatoires. Théorèmes limites et applications

Autor: Boucher, Maxime
Přispěvatelé: Institut Denis Poisson (IDP), Centre National de la Recherche Scientifique (CNRS)-Université de Tours (UT)-Université d'Orléans (UO), Université d'Orléans, Marguerite Zani, Didier Chauveau, Centre National de la Recherche Scientifique (CNRS)-Université de Tours-Université d'Orléans (UO)
Jazyk: francouzština
Rok vydání: 2021
Předmět:
Zdroj: Statistiques [math.ST]. Université d'Orléans, 2021. Français
Popis: This thesis focuses on the study of the $\tau$-coherence of an high-dimensional $(n \times p)$-observation matrix with $p>>n$, where $n$ is the number of individuals and $p$ the number of variables. The $\tau$-coherence is defined as the largest magnitude of the entries of the empirical correlation matrix outside a central band (with a bandwith $\tau$). The first chapter is devoted to the presentation of the Chen-Stein method, which is an approximation of weakly dependent events by a Poisson distribution, and to some bibliography concerning coherence. The second and third chapter focus on the limiting behaviour of $\tau$-coherence in a case where the observations are assumed to be Gaussian with bandwise (resp.blockwise) covariance in Chapter 2 (resp. Chapter 3). In the last chapter, we propose a Monte-Carlo simulation procedure allowing us to study numerically the limiting distribution of the $\tau$-coherence for large (Big Data) matrices. We use a splitting strategy of our matrices and HPC method such as GPGPU computation in order to, from one side, being able to compute correlation matrices even if they are too large to be loaded in a computer, and on the other side, to reduce computation time. Finally the appendix is devoted to some technical results.\\; Cette thèse concerne l'étude de la $\tau$-cohérence d'une matrice d'observations aléatoires de grande taille $(n \times p)$ où $p >> n$ et avec $p$ le nombre de variables observées sur $n$ individus. La $\tau$-cohérence est alors définie comme étant le maximum, en valeur absolue, des coefficients de la matrice de corrélation empirique associée, en dehors d'une bande centrale de largeur $\tau$. Le premier chapitre est consacré à la présentation de la méthode de Chen-Stein qui permet l'approximation d'événements faiblement dépendants par une loi de Poisson et à la présentation des travaux de T. Cai et T. Jiang concernant la cohérence. Les deuxième et troisième chapitres sont consacrés à l'étude du comportement asymptotique de la $\tau$-cohérence dans le cas où les observations proviennent d'un modèle gaussien et où la matrice de covariance possède une structure par bandes (chapitre 2) ou par blocs (chapitre 3). Dans le chapitre 4, nous présentons une méthode de simulation par réplications Monte-Carlo pour étudier numériquement la distribution asymptotique de la $\tau$-cohérence. Nous utilisons des stratégies de découpage de nos matrices et des teThis thesis focuses on the study of the $\tau$-coherence of an high-dimensional $(n \times p)$-observation matrix with $p>>n$, where $n$ is the number of individuals and $p$ the number of variables. The $\tau$-coherence is defined as the largest magnitude of the entries of the empirical correlation matrix outside a central band (with a bandwith $\tau$). The first chapter is devoted to the presentation of the Chen-Stein method, which is an approximation of weakly dependent events by a Poisson distribution, and to some bibliography concerning coherence. The second and third chapter focus on the limiting behaviour of $\tau$-coherence in a case where the observations are assumed to be Gaussian with bandwise (resp.blockwise) covariance in Chapter 2 (resp. Chapter 3). In the last chapter, we propose a Monte-Carlo simulation procedure allowing us to study numerically the limiting distribution of the $\tau$-coherence for large (Big Data) matrices. We use a splitting strategy of our matrices and HPC method such as GPGPU computation in order to, from one side, being able to compute correlation matrices even if they are too large to be loaded in a computer, and on the other side, to reduce computation time. Finally the appendix is devoted to some technical results.\\chniques HPC telles que le calcul en GPU pour, d'une part pouvoir calculer des corrélations sur des matrices trop grandes pour être stockées, et d'autre part réduire le temps de calcul. Nous présentons en annexe de ce manuscrit des éléments de preuves supplémentaires.\\
Databáze: OpenAIRE