Gestion et optimisation de l’architecture logistique de lacs de données
Autor: | Derakhshannia, Marzieh |
---|---|
Přispěvatelé: | STAR, ABES |
Jazyk: | francouzština |
Rok vydání: | 2022 |
Předmět: | |
Popis: | The digital world with constantly evolution gives rise to the precious concept , "data" that is known as the black gold. In accordance with this evolution, database management systems, which play an important role in data valuation, are becoming an essential element of information systems and decision- making processes. With respect to the digital revolution, data is generated every second in a huge volume, by multiple sources and with different formats.Despite the fact that managing large and dispersed data is a problematic issue , we could not neglect the precious value that could potentially be gained through raw data exploration. This heterogeneity translates into the need for an integrated system to efficiently store, process and analyze the huge amount of scattered data. The phenomenon of huge data, known as big data, requires a decision-making system with an appropriate architecture that stores the heterogeneous data and supports the main characteristics of the big data environment, such as the data volume, the veracity, velocity and veracity. The data lake, which is a centralized storage system, is a good answer to these arising problems to receive raw data on a large scale in their native formats. Concerning this goal, it is clear that the infrastructure and architecture of the data lake have a significant impact on the profitability and functionality of the overall system. In this regard, the design and management of the data lake structure requires practical and innovative methods in order to achieve an integrated and optimal centralized repository. By considering the systematic structure of the data lake as well as the hierarchical architecture of the systems, a logistical vision could lead us to the defined objectives.The supply chain is a good example of logistics systems where hierarchical participants are coordi- nated within an integrated network in order to prepare a product or render services to targeted consumers. The logistics structure as well as the supply chain management strategies could be an innovative source of inspiration to design, manage and optimize a data management system based on a logistics vision.For this reason, the implementation of the analog method between systematic structures clarifies to what extent one could take advantage of management strategies derived from the supply chain to develop the architecture and performance of the data lake.In this thesis, we hypothesize that it is possible to describe a data lake and its functionality by comparing it to the logistical structure of a supply chain. On the basis of these objectives:First, we are interested in relying on several data lake architectures and verifying the effectiveness of these architectures on the performance of the data lake, in particular in relation to data governance and the quality of services.In a second step, we introduce the supply chain, supply chain management and the methods that are used frequently to optimize the supply chain. Furthermore we compare all the elements of this data lake logistics system and focus on their similar points in order to use the data lake supply chain management methods.Thirdly, we propose a new architecture for data lake based on supply chain definition thanks to the evolutionary process of modeling the structures of data lakes. We finish this work by optimizing the proposed data lake architecture with supply chain network design strategies and propose the methods to solve the defined mathematical optimization model. Le monde numérique en constante évolution donne naissance au précieux concept "data" que l’on appelle l’or noir. Conformément à cette évolution, les systèmes de gestion de données, qui jouent des rôles importants dans la valorisation des données générées, deviennent un élément essentiel dans les systèmes d’information et pour les processus de prise de décision. Avec la révolution digitale, les données sont générées chaque seconde en gros volumes, par de multiples sources et dans différents formats. Il est communément admis que ces données brutes peuvent être exploitées pour extraire de la valeur. L’hétérogénéité des données sources se traduit par un besoin de systèmes intégrés pour stocker, traiter et analyser efficacement des données massives et éparpillées. Le phénomène de données massives, qui est connu sous le nom de mégadonnées, exige un système décisionnel avec une architecture souple qui stocke les données hétérogènes et soutient les caractéristiques principales de mégadonnées comme le volume, la variété, la vélocité, la vitesse et la véracité. Le lac de données, qui est un système de stockage centralisé, est une bonne réponse à ces problèmes posés afin accueillir à grande échelle des données brutes sous leurs formats natifs. Par rapport à cet objectif, il est évident que l’architecture et l’infrastructure du lac de données ont un impact significatif sur la rentabilité et la fonctionnalité du système global. À cet égard, la conception et la gestion de la structure du lac de données nécessitent des méthodes pratiques et innovantes afin de réaliser un référentiel centralisé intégré et optimal. En considérant la structure systématique du lac de données ainsi que l’architecture globale des systèmes, une vision logistique pourrait nous conduire aux objectifs définis.La chaîne d’approvisionnement est un bon exemple de systèmes logistiques où les participants hiérar- chiques se coordonnent au sein d’un réseau intégré afin de préparer un produit ou de rendre des services aux consommateurs ciblés. La structure logistique ainsi que les stratégies de gestion de la chaîne d’ap- provisionnement pourraient être une source d’inspiration innovante pour concevoir, gérer et optimiser un système de gestion de données basé sur une vision logistique. Pour cette raison, la mise en œuvre de la méthode analogique entre structures systématiques clarifie dans quelle mesure on pourrait tirer parti des stratégies gestionnaires dérivées de la chaîne d’approvisionnement pour développer l’architecture et les performances du lac de données.Dans cette thèse, nous émettons l’hypothèse qu’il est possible de décrire un lac de données et ses fonctionnalités en le comparant à la structure logistique d’une chaîne d’approvisionnement. Sur la base de ces objectifs :Dans un premier temps, nous nous intéressons à plusieurs architectures de lacs de données et vérifions l’efficacité de ces architectures sur la performance de lac de données notamment par rapport à la gouvernance des données et la qualité de service. Dans un deuxième temps, nous introduisons la chaîne d’approvisionnement, gestion de la chaîne logistique et les méthodes qui sont utilisés fréquemment pour optimiser la chaîne d’approvisionnement. En outre nous comparons tous les éléments de ce système logistique avec un lac de données et nous nous focalisons sur leurs points similaires afin d’utiliser les methodes de gestion de la chaîne d’approvisionnement pour le lac de données. Dans un troisième temps, nous proposons une nouvelle architecture pour les lacs de données basée sur la définition de chaîne d’approvisionnement grâce au processus évolutif de modélisation des structures des lacs de données. Nous terminons ce travail en optimisant l’architecture de lac de données proposée avec des stratégies de conception de réseau de chaîne d’approvisionnement et proposons des méthodes pour résoudre le modèle d’optimisation mathématique défini. |
Databáze: | OpenAIRE |
Externí odkaz: |