Méthodes pour l'inférence post-clustering appliquées à l'expression génique

Autor: Hivert, Benjamin, Agniel, Denis, Thiébaut, Rodolphe, Hejblum, Boris P.
Přispěvatelé: Bordeaux population health (BPH), Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM), Statistics In System biology and Translational Medicine (SISTM), Inria Bordeaux - Sud-Ouest, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)- Bordeaux population health (BPH), Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Bordeaux (UB)-Institut de Santé Publique, d'Épidémiologie et de Développement (ISPED)-Institut National de la Santé et de la Recherche Médicale (INSERM), Vaccine Research Institute (VRI), Université Paris-Est Créteil Val-de-Marne - Paris 12 (UPEC UP12), Rand Corporation, CHU Bordeaux [Bordeaux], Hivert, Benjamin
Jazyk: francouzština
Rok vydání: 2022
Předmět:
Zdroj: Journées de Statistique de la SFDS 2022
Journées de Statistique de la SFDS 2022, Jun 2022, Lyon, France
Popis: The analysis of RNA-seq gene expression data is often organised aroundtwo successive steps : i) clustering using all of the genes to group the observation units (pa-tients, cells, etc.) into separate and homogeneous subgroups ; then ii) differential analysisof individual genes using hypothesis testing to identify which genes, i.e. which variables,are differentially expressed between the subgroups. However, several subgroups construc-ted in i) can actually contain only units coming from the same homogeneous population :clustering will then artificially create differences between those spurious subgroups, lea-ding to false positives in ii). We propose two inference methods to take into account theinitial clustering step for differential analysis and thus guarantee an effective control of thetype I error. This first method is based on the concept of selective inference while the se-cond one use unimodality and multimodality to describe the separation between clusters.We evaluate the performance of both approaches in extensive numerical simulations aswell as in an application to a real, low dimensional dataset. Both proposed methods leadto valid p-values under their null hypothesis of no difference between subgroups in expres-sion at a selected gene independently of the clustering, while maintaining good statisticalpower. In high dimension, this type I error inflation can be overcome by the dilution of theclustering information, provided that the variables are independent. Yet, in the presenceof correlation (as for gene expression), spurious clusters appear, even though they are notseparable. An adaptation of the above methods to this high dimensional context is thusnecessary.
L’analyse des données d’expression génique est souvent organisée autour de deux étapes successives : i) une classification non supervisée utilisant l’ensemble des gènes pour regrouper les unités d’observations (patients, échantillons ou cellules) en sous-groupes distincts et homogènes ; puis ii) l’analyse différentielle se faisant à l’aide de tests d’hypothèse visant à identifier quels gènes, c’est-à-dire quelles variables, sont différentiellement exprimés entre ces sous-groupes. Cependant, cette approche utilisant les même données lors des deux étapes ne permet pas de garantir un bon contrôle de l’erreur de type I à l’étape ii). Nous proposons deux méthodes d’inférence pour tenir compte de l’étape initiale de classification non supervisée lors de l’analyse différentielle et ainsi garantir un contrôle effectif de l’erreur de type I. La première méthode se base sur le concept d’inférence sélective tandis que la seconde repose sur une définition de la séparation de classes faisant uniquement intervenir les concepts d’unimodalité et de multimodalité. Nous avons évalué les performances des deux méthodes grâces à différentes simulations numériques, ainsi que dans une application sur un jeu de données réelles de faible dimension. Les méthodes proposées conduisent à des p-valeurs valides sous l’hypothèse nulle d’absence de différence entre les sous-groupes dans l’expression d’un gène sélectionné, indépendamment de la classification, tout en conservant une bonne puissance statistique. En grande dimension, cette inflation de l’erreur de type I peut-être contre-balancée par la dilution du signal utilisé pour la classification, à condition que les variables soient indépendantes. En revanche, en présence de corrélation (comme c’est le cas en pratique pour l’expression génique), des classes artificielles apparaissent alors que celles-ci ne sont pas séparables.Une adaptation des méthodes à ce contexte de grande dimension est donc nécessaire.
Databáze: OpenAIRE