Contributions to pattern set mining : from complex datasets to significant and useful pattern sets
Autor: | Makhalova, Tatiana |
---|---|
Přispěvatelé: | Knowledge representation, reasonning (ORPAILLEUR), Inria Nancy - Grand Est, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL), Université de Lorraine, Amedeo Napoli, Sergei O. Kuznetsov, Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS) |
Jazyk: | angličtina |
Rok vydání: | 2021 |
Předmět: |
Pattern interestingness
Numerical data Formal Concept Analysis Closed patterns Données numériques Classes d’équivalence MDL Données binaires Equivalence classes Fouille de motifs Explosion des motifs [INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] Pattern evaluation Structures de modèle d’intervalle Binary data [INFO]Computer Science [cs] Principe de longueur de description minimale Interval Pattern Structures Complexité des données Analyse de concept formelle Motifs fermés Pattern explosion Data complexity Pattern Set Mining Structure de niveaux de fermetures Closure structure Minimum Description Length principle Intérêt des motifs Évaluation des motifs |
Zdroj: | Computer Science [cs]. Université de Lorraine, 2021. English. ⟨NNT : 2021LORR0124⟩ |
Popis: | In this thesis, we study different aspects of pattern mining in binary and numerical tabular datasets. The objective of pattern mining is to discover a small set of non-redundant patterns that may cover entirely a given dataset and be interpreted as useful and significant knowledge units. We focus on some key issues such as (i) formal definition of pattern interestingness, (ii) the minimization of pattern explosion, (iii) measure for evaluating the performance of pattern mining, and (iv) the discrepancy between interestingness and quality of the discovered pattern sets. Moreover, we go beyond the typical perspectives of pattern mining and investigate the intrinsic structure underlying a tabular dataset. The main contributions of this research work are theoretical, conceptual, and practical. Regarding the theoretical novelty, we propose a so-called closure structure and the GDPM algorithm for its computing. The closure structure allows us to estimate both the data and pattern complexity. Furthermore, practically the closure structure may be used to represent the data topology w.r.t. an interestingness measure. Conceptually, the closure structure allows an analyst to understand the intrinsic data configuration before selecting any interestingness measure rather than to understand the data by means of an arbitrarily selected interestingness measure. In this research work, we also discuss the difference between interestingness and quality of pattern sets. We propose to adopt the best practices of supervised learning in pattern mining. Based on that, we developed an algorithm for itemset mining, called KeepItSimple, which relates interestingness and the quality of pattern sets. In practice, KeepItSimple allows us to efficiently mine a set of interesting and good-quality patterns without any pattern explosion. In addition, we propose an algorithm for a greedy enumeration of likely-occurring itemsets that can be used when frequent closed itemset miners return too many itemsets. The last practical contribution consists in developing an MDL-based algorithm called Mint for mining pattern sets in numerical data. The Mint algorithm relies on a strong theoretical foundation and at the same time has a practical objective in returning a small set of numerical, non-redundant, and informative patterns. The experiments show that Mint has very good behavior in practice and usually outperforms its competitors.; Nous étudions différents aspects de l’exploration ou fouille de motifs dans des jeux de données tabulaires binaires et numériques. L’objectif de l’exploration de motifs est de découvrir un petit ensemble de motifs non redondants qui peuvent recouvrir presque entièrement un ensemble de données et être interprétés comme des unités de connaissances significatives et utiles. Nous nous concentrons sur les questions clés telles que la définition formelle de l’intérêt des motifs, la minimisation de l’explosion combinatoire des motifs, la définition de mesures pour évaluer les performances des méthodes d’exploration de motifs, et le rapprochement entre l’intérêt et la qualité des ensembles de motifs. Nous proposons une structure dite “de niveaux de fermetures” et l’algorithme GDPM qui la calcule. Cette structure nous permet d’estimer à la fois la complexité des données et celle des motifs. En pratique, cette structure peut être utilisée pour représenter la topologie des données par rapport à une mesure d’intérêt. Du point de vue conceptuel, cette structure autorise un analyste à comprendre la configuration intrinsèque des données avant de sélectionner une mesure d’intérêt plutôt que de comprendre les données au moyen d’une mesure d’intérêt choisie arbitrairement. Nous discutons également de la différence entre l’intérêt et la qualité des ensembles de motifs. Nous proposons d’adopter les bonnes pratiques de l’apprentissage supervisé et de les adapter à la fouille de motifs. Ainsi, nous avons développé un algorithme d’exploration d’ensembles de motifs appelé KeepItSimple, qui met en relation l’intérêt et la qualité des ensembles de motifs et qui permet de retrouver de façon efficace un ensemble de motifs intéressants sans craindre d’explosion combinatoire. De plus, nous proposons un algorithme glouton d’énumération de motifs susceptibles d’intérêt qui remplace les méthodes classiques d’énumération de motifs fermés fréquents lorsque les motifs sont trop nombreux. Enfin une dernière contribution porte sur le développement d’un algorithme qui s’appuie sur le principe MDL appelé Mint qui a pour objectif d’extraire des ensembles de motifs dans les données numériques. Il repose sur des bases théoriques solides tout en ayant l’objectif pratique de retourner un ensemble concis de motifs numériques qui sont non redondants et informatifs. Les expérimentations montrent que Mint surpasse généralement ses concurrents en efficacité et qualité des motifs retournés. |
Databáze: | OpenAIRE |
Externí odkaz: |