Semantic Services for Assisting Users to Augment Data in the Context of Analytic Data Sources

Autor: Liu, Rutian
Přispěvatelé: Bases de Données (BD), LIP6, Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), SAP France, Sorbonne Université, Bernd Amann, Professeur, LIP6, Sorbonne Université, Stéphane Gançarski, Maître de conférences, LIP6, Sorbonne Université, Amann, Bernd
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Zdroj: Databases [cs.DB]. Sorbonne Université, 2020. English
Popis: The production of analytic datasets is a significant big data trend and has gone well beyond the scope of traditional IT-governed dataset development. Analytic datasets are now created by data scientists and data analysts using bigdata frameworks and agile data preparation tools. However, it still remains difficult for a data analyst to start from a dataset at hand and customize it with additional attributes coming from other existing datasets.This thesis presents a new solution for business users and data scientists who want to augment the schema of analytic datasets with attributes coming from other semantically related datasets :• We introduce attribute graphs as a novel concise and natural way to represent literal functional dependencies over hierarchical dimension level types to infer unique dimension and fact table identifiers• We give formal definitions for schema augmentation, schema complement, and merge query in the context of analytic tables. We then introduce several reduction operations to enforce schema complements when schema augmentation yields a row multiplication in the augmented dataset.• We define formal quality criteria and algorithms to control the correctness, non-ambiguity, and completeness of generated schema augmentations and schema complements.• We describe the implementation of our solution as a REST service within the SAP HANA platform and provide a detailed description of our algorithms.• We evaluate the performance of our algorithms to compute unique identifiers in dimension and fact tables and analyze the effectiveness of our REST service using two application scenarios.
La production de collections de données analytiques est une tendance importante et a dépassé le cadre des technologies traditionnelles de production d'information et de données. Les collections de données analytiques sont maintenant directement créés par les utilisateurs (experts, data scientists). Malgré l'apparition des nouvelles technologies "big data" et d'outils de préparation de données agiles, l'intégration et l'enrichissement de schémas analytiques avec des attributs provenant d'autres sources de données reste une tâche difficile qui nécessite une bonne connaissance des schémas de données manipulées. Cette thèse présente une nouvelle solution pour compléter des schémas de données analytiques avec des attributs provenant d'autres sources de données sémantiquement liées :- Nous introduisons les graphes d'attributs comme une nouvelle façon concise et naturelle pour représenter les dépendances fonctionnelles littérales sur des attributs de dimensions hiérarchiques et pour déduire des identificateurs uniques de dimensions et de tables de faits.- Nous donnons des définitions formelles d'augmentation de schémas, de complément de schémas et de requête de fusion dans le contexte des données analytiques. Nous introduisons ensuite plusieurs opérations de réduction pour éviter la multiplication de lignes dans la table de données augmentée. - Nous définissons des critères formels de qualité et des algorithmes pour contrôler l'exactitude, la non-ambiguïté et l'exhaustivité des augmentations et des compléments de schéma générés.- Nous décrivons l'implémentation de notre solution au sein de la plate-forme SAP HANA et fournissons une description détaillée de nos algorithmes. - Nous évaluons la performance de nos algorithmes et analysons l'efficacité de notre approche avec deux scénarios d'application.
Databáze: OpenAIRE