Popis: |
Les modèles de régression dans le cadre des données censurées supposent comme pour tous modèles de régression que l'on ait plus d'observations que de descripteurs et des descripteurs pas trop corrélés entre eux. Ces hypothèses ne sont pas souvent vérifiées dans la pratique et les approches classiques deviennent caduques. C'est le cas par exemple en pharmacogénomique lorsque l'on cherche à prédire la probabilité de survie de patients à partir de profiles, ou signatures transcriptomiques, construits à partir de l'expression de milliers de gènes. L'objectif de cette thèse est d'apporter une solution à ce problème en utilisant les principes de la régression PLS. Le modèle PLS-Cox qui est proposé est issu d'une généralisation de la régression PLS à tous modèles de régression. Il fournit une alternative régularisée aux modèles de survie en grande dimension (p>>n). L'utilisation d'une reparamétrisation de type « Kernel » des algorithmes PLS a permis en outre de développer des solutions à la fois très rapides et particulièrement utiles en très grande dimension, mais aussi adaptées pour l'analyse de structures non-linéaires des données. Une autre solution à ce problème, rapide et simple à mettre en œuvre, a été développée à partir des résidus de la déviance. Une alternative à PLS-NIPALS a été proposée pour la gestion des valeurs manquantes en introduisant le concept d'imputation multiple en régression PLS simple et généralisée. Finalement, on s'est intéressé à la recherche de modèles plus parcimonieux en proposant une approche de type « Thresholding PLS » qui opère implicitement par sélection des variables. |