Probabilistic Modeling for Novelty Detection with Applications to Fraud Identification

Autor: Domingues, Rémi
Přispěvatelé: Eurecom [Sophia Antipolis], Sorbonne Université, Maurizio Filippone, Pietro Michiardi, STAR, ABES
Jazyk: angličtina
Rok vydání: 2019
Předmět:
Zdroj: Machine Learning [cs.LG]. Sorbonne Université, 2019. English. ⟨NNT : 2019SORUS473⟩
Popis: Novelty detection is the unsupervised problem of identifying anomalies in test data which significantly differ from the training set. While numerous novelty detection methods were designed to model continuous numerical data, tackling datasets composed of mixed-type features, such as numerical and categorical data, or temporal datasets describing discrete event sequences is a challenging task. In addition to the supported data types, the key criteria for efficient novelty detection methods are the ability to accurately dissociate novelties from nominal samples, the interpretability, the scalability and the robustness to anomalies located in the training data. In this thesis, we investigate novel ways to tackle these issues. In particular, we propose (i) a survey of state-of-the-art novelty detection methods applied to mixed-type data, including extensive scalability, memory consumption and robustness tests (ii) a survey of state-of-the-art novelty detection methods suitable for sequence data (iii) a probabilistic nonparametric novelty detection method for mixed-type data based on Dirichlet process mixtures and exponential-family distributions and (iv) an autoencoder-based novelty detection model with encoder/decoder modelled as deep Gaussian processes. The learning of this last model is made tractable and scalable through the use of random feature approximations and stochastic variational inference. The method is suitable for large-scale novelty detection problems and data with mixed-type features. The experiments indicate that the proposed model achieves competitive results with state-of-the-art novelty detection methods.
La détection de nouveauté est le problème non supervisé d’identification d’anomalies dans des données de test qui diffèrent de manière significative des données d’apprentissage. La représentation de données temporelles ou de données de types mixtes, telles des données numériques et catégorielles, est une tâche complexe. Outre le type de données supporté, l'efficacité des méthodes de détection de nouveauté repose également sur la capacité à dissocier avec précision les anomalies des échantillons nominaux, l'interprétabilité, la scalabilité et la robustesse aux anomalies présentes dans les données d'entraînement. Dans cette thèse, nous explorons de nouvelles façons de répondre à ces contraintes. Plus spécifiquement, nous proposons (i) une étude de l'état de l'art des méthodes de détection de nouveauté, appliquée aux données de types mixtes, et évaluant la scalabilité, la consommation mémoire et la robustesse des méthodes (ii) une étude des méthodes de détection de nouveauté adaptées aux séquences d'évènements (iii) une méthode de détection de nouveauté probabiliste et non paramétrique pour les données de types mixtes basée sur des mélanges de processus de Dirichlet et des distributions de famille exponentielle et (iv) un modèle de détection de nouveauté basé sur un autoencodeur dans lequel l'encodeur et le décodeur sont modélisés par des processus Gaussiens profonds. L’apprentissage de ce modèle est effectué par extension aléatoire des dimensions et par inférence stochastique variationnelle. Cette méthode est adaptée aux dimensions de types mixtes et aux larges volumes de données.
Databáze: OpenAIRE