Apprentissage de données fonctionnelles par modèles multi-tâches : application à la prédiction de performances sportives
Autor: | Arthur Leroy |
---|---|
Přispěvatelé: | Mathématiques Appliquées Paris 5 (MAP5 - UMR 8145), Institut National des Sciences Mathématiques et de leurs Interactions (INSMI)-Centre National de la Recherche Scientifique (CNRS)-Université de Paris (UP), Université de Paris, Servane Gey |
Předmět: |
Curve clustering
Apprentissage multi-tâche Multi-task learning [MATH.MATH-ST]Mathematics [math]/Statistics [math.ST] Données fonctionnelles Expectation-Maximisation algorithms (EM algorithms) Gaussian processes Variational inference [MATH.MATH-FA]Mathematics [math]/Functional Analysis [math.FA] Functional data Méthodes variationnelles Clustering de courbes |
Zdroj: | HAL Statistics [math.ST]. Université de Paris, 2020. English. ⟨NNT : 2020UNIP7089⟩ |
Popis: | The present document is dedicated to the analysis of functional data and the definition of multi-task models for regression and clustering. The purpose of this work is twofold andfinds its origins in the problem of talent identification in elite sports. This context provides a leading thread illustrative example for the methods and algorithms introduced subsequently while also raising the problem of studying multiple time series, assumed to share information and generally observed on irregular grids. The central method and the associated algorithm developed in this thesis focus on the aspects of functional regression by using multi-task Gaussian processes (GPs) models. This non-parametric probabilistic framework proposes to define a prior distribution on functions, generating data associated with several individuals. Sharing information across those different individuals, through a mean process, offers enhanced modelling compared to a single-task GP, along with a thorough quantification of uncertainty. An extension of this model is then proposed from the definition of a multi-task GPs mixture. Such an approach allows us to extend the assumption of a unique underlying mean process to multiple ones, each being associated with a cluster of individuals. These two methods, respectively called Magma and MagmaClust, provide new insights on GP modelling as well as state-of-the-art performances both on prediction and clustering aspects. From the applicative point of view, the analyses focus on the study of performance curves of young swimmers, and preliminary exploration of the real datasets highlights the existence of different progression patterns during the career. Besides, the algorithm Magma provides, after training on a dataset, a probabilistic prediction of the future performances for each young swimmer, thus offering a valuable forecasting tool for talent identification. Finally, the extension proposed by MagmaClust allows the automatic construction of clusters of swimmers, according to their similarities in terms of progression patterns, leading once more to enhanced predictions. The methods proposed in this thesis have been entirely implemented and are freely available.; Ce manuscrit de thèse est consacré à l’analyse de données fonctionnelles et la définition de modèles multi-tâches pour la régression et la classification non supervisée. L’objectif de ce travail est double et trouve sa motivation dans la problématique d’identification de jeunes sportifs prometteurs pour le sport de haut niveau. Ce contexte, qui offre un fil rouge illustratif des méthodes et algorithmes développés par la suite, soulève la question de l’étude de multiples séries temporelles supposées partager de l’information commune, et généralement observées à pas de temps irréguliers. La méthode centrale développée durant cette thèse, ainsi que l’algorithme d’apprentissage qui lui est associé, se concentrent sur les aspects de régression fonctionnelle à l’aide d’un modèle de processus Gaussiens (GPs) multi-tâche. Ce cadre probabiliste non-paramétrique permet de définir une loi a priori sur des fonctions, supposées avoir généré les données de plusieurs individus. Le partage d’informations communes entre les différents individus, au travers d’un processus moyen, offre une modélisation plus complète que celle d’un simple GP, ainsi qu’une pleine prise en compte de l’incertitude. Unprolongement de ce modèle est par la suite proposé via la définition d’un mélange de GPs multi-tâche. Cette approche permet d’étendre l’hypothèse d’un unique processus moyen sousjacent à plusieurs, chacun associé à un groupe d’individus. Ces deux méthodes, nommées respectivement Magma et MagmaClust, offrent de nouvelles perspectives de modélisation ainsi que des performances remarquables vis-à-vis de l’état de l’art, tant sur les aspects de prédiction que de clustering. D’un point de vue applicatif, l’analyse se concentre sur l’étude des courbes de performances de jeunes nageurs, et une première exploration des données réelles met en évidence l’existence de différents patterns de progression au cours de la carrière. Par la suite, l’utilisation de l’algorithme Magma, entrainé sur la base de données, attribue à chaque sportif une prédiction probabiliste de ses performances futures, offrant ainsi un précieux outil d’aide à la détection. Enfin, l’extension via l’algorithme MagmaClust permet de constituer automatiquement des groupes de nageurs de part les ressemblances de leurs patterns de progression, affinant de ce fait encore les prédictions. Les méthodes détaillées dans ce manuscrit ont également été entièrement implémentées et sont partagées librement. |
Databáze: | OpenAIRE |
Externí odkaz: |