Développements méthodologiques autour de l’inférence causale et de l’analyse de données en grande dimension
Autor: | Etiévant, Lola |
---|---|
Přispěvatelé: | STAR, ABES |
Jazyk: | angličtina |
Rok vydání: | 2020 |
Předmět: | |
Popis: | Cancer epidemiology is concerned with the identification of causes of cancer, including the biological mechanisms possibly involved in cancer development, based on observational data. The tools recently introduced in the causal inference literature offer a formal framework to address such causal questions. In particular counterfactual variables can be used to define causal effects of interest, and different sets of conditions have been shown to be sufficient to guarantee that a given causal effect can be estimated in practice. However, the practical application of causal inference in cancer epidemiology still faces a number of challenges; the objective of this thesis is to explore some of them. First, concerns have been raised in the literature regarding the relevance of causal effects estimated from observational studies for certain exposures, for instance obesity, for which there is no possible “direct” intervention, and only interventions on some of its causes, such as diet or physical activity, can be implemented in practice. We show how the effect of an hypothetical intervention on the exposure of interest, when impossible to apply in practice, relates to the effects of interventions on its causes, depending on the structure of the causal model. Then, even if many causal models of interest in epidemiology involve time-varying variables, these variables are most often observed at one single point in time only. Then, practitioners tend to overlook the time-varying nature of the variables, and to work under over-simplified causal models. We investigate conditions ensuring that estimates derived under over-simplified longitudinal causal models relate to causal quantities of interest under the true longitudinal causal model. Our results confirm that these conditions are very stringent and that estimates derived under over-simplified longitudinal causal models generally have to be interpreted with great caution. Motivated by a project on high-dimensional mediation analysis, we also study latent variable models for dimension-reduction. We notice a severe limitation in several models proposed in the literature, including the probabilistic formulation of partial least squares proposed by el Bouhaddani et al. (2018). We precisely describe the limitation under this particular model, and illustrate it through simulated examples. We also propose a simple extension which corrects the defect of the initial model. Overall, our results suggest that caution is needed when developing and applying latent variable models for dimension-reduction, as they may turn out to be too simplistic when imposing too strong constraints on the model parameters. Finally, with the same motivating example in mind, we study the calibration of the tuning parameter in penalized regression models. We focus on a popular extension of the lasso, the adaptive lasso, which uses a weighted L1-norm in the penalty term, with weights derived from initial estimates of the parameter vector. We empirically show that the standard K-fold cross-validation, although very popular, is not suitable to calibrate the tuning parameter in the adaptive lasso. A simple alternative cross-validation scheme is proposed, which is shown to outperform the standard K-fold cross-validation on simulated examples. L’identification des causes du cancer, mais aussi des mécanismes biologiques pouvant intervenir dans son développement, à partir de données observationnelles, est l’une des problématiques principales en épidémiologie du cancer. Les outils introduits récemment en inférence causale offrent un cadre formel pour répondre à de telles questions. En particulier, les variables contrefactuelles permettent de définir les effets causaux d’intérêts, et diverses conditions permettent de garantir qu’un effet causal donné soit estimable en pratique. Cependant, leur mise en application en épidemiologie du cancer présente un certain nombre d’enjeux ; l’objectif de cette thèse est d’en explorer quelques uns. Tout d’abord, des réserves ont été émises concernant la pertinence des effets causaux estimés à partir de données observationnelles pour des expositions telles que l’obésité, pour laquelle il n’existe pas d’intervention «directe», mais seulement des interventions sur certaines de ses causes, comme l’activité physique ou l’alimentation. À cet effet, nous étudions comment l’effet d’une intervention hypothétique sur l’exposition d’intérêt est lié aux effets des interventions sur certaines de ses causes. Ensuite, même si la plupart des modèles causaux d’intérêt en épidémiologie font intervenir des variables qui varient au cours du temps, ces dernières ne sont bien souvent observées qu’à un unique temps donné. De fait, il est assez usuel de travailler sous un modèle causal simplifié, qui néglige le caractère longitudinal de ces variables. Nous déterminons des conditions qui assurent que les quantités obtenues en travaillant sous de tels modèles soient liées à celles d’intérêt sous le vrai modèle longitudinal. Ces conditions, très restrictives, confirment ainsi que les quantités obtenues en travaillant sous des modèles causaux longitudinaux simplifiés doivent généralement être interprétées avec prudence. Motivé.e.s par un projet sur les analyses en médiation en grande dimension, nous nous sommes intéressé.e.s à l’utilisation des modèles à variables latentes pour la réduction de dimension. Nous avons identifié un défaut dans plusieurs modèles proposés dans la littérature, notamment dans la formulation probabiliste des moindres carrés partiels proposée par el Bouhaddani et al. (2018). Nous décrivons en détail le défaut sous leur modèle, et l’illustrons au moyen de simulations. Nos résultats suggèrent que les modèles à variables latentes doivent être développés avec précaution pour faire de la réduction de dimension, puisqu’ils peuvent en fait être trop simples lorsque les contraintes imposées sur les paramètres sont trop fortes. Enfin, toujours motivé.e.s par le même projet, nous nous intéressons à la sélection du paramètre de régularisation dans les modèles de régression pénalisés. Plus précisément, nous considérons le lasso adaptatif, une extension du lasso qui utilise une version pondérée de la norme L1 dans le terme de pénalité, où les poids sont obtenus à partir d’une estimation initiale du vecteur de paramètres. Nous montrons de manière empirique que la validation croisée «K-fold», bien que couramment employée, n’est pas adaptée à la calibration du paramètre de régularisation pour le lasso adaptatif. Une procédure alternative est proposée, et nous montrons sur des simulations qu’elle présente de meilleures performances que la validation croisée «K-fold». |
Databáze: | OpenAIRE |
Externí odkaz: |