Ordonnancement d'opérateurs continus pour l'analyse de flux de données à la périphérie de l'Internet des Objets

Autor: Ntumba wa Ntumba, Patient
Přispěvatelé: Middleware on the Move (MIMOVE), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Sorbonne Université (SU), Sorbonne Université, Nikolaos Georgantas, Vassilis Christophides
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Zdroj: Data Structures and Algorithms [cs.DS]. Sorbonne Université, 2022. English. ⟨NNT : 2022SORUS183⟩
Popis: Data stream processing and analytics (DSPA) applications are widely used to process the ever increasing amounts of data streams produced by highly geographically distributed data sources, such as fixed and mobile IoT devices, in order to extract valuable information in a timely manner for actuation. DSPA applications are typically deployed in the Cloud to benefit from practically unlimited computational resources on demand. However, such centralized and distant computing solutions may suffer from limited network bandwidth and high network delay. Additionally, data propagation to the Cloud may compromise the privacy of sensitive data. To effectively handle this volume of data streams, the emerging Edge/Fog computing paradigm is used as the middle-tier between the Cloud and the IoT devices to process data streams closer to their sources and to reduce the network resource usage and network delay to reach the Cloud. However, Edge/Fog computing comes with limited computational resource capacities and requires deciding which part of the DSPA application should be performed in the Edge/Fog layers while satisfying the application response time constraint for timely actuation. Furthermore, the computational and network resources across the Edge-Fog-Cloud architecture can be shareable among multiple DSPA (and other) applications, which calls for efficient resource usage. In this PhD research, we propose a new model for assessing the usage cost of resources across the Edge-Fog-Cloud architecture. Our model addresses both computational and network resources and enables dealing with the trade-offs that are inherent to their joint usage. It precisely characterizes the usage cost of resources by distinguishing between abundant and constrained resources as well as by considering their dynamic availability, hence covering both resources dedicated to a single DSPA application and shareable resources. We complement our system modeling with a response time model for DSPA applications that takes into account their windowing characteristics. Leveraging these models, we formulate the problem of scheduling streaming operators over a hierarchical Edge-Fog-Cloud resource architecture. Our target problem presents two distinctive features. First, it aims at jointly optimizing the resource usage cost for computational and network resources, while few existing approaches have taken computational resources into account in their optimization goals. More precisely, our aim is to schedule a DSPA application in a way that it uses available resources in the most efficient manner. This enables saving valuable resources for other DSPA (and non DSPA) applications that share the same resource architecture. Second, it is subject to a response time constraint, while few works have dealt with such a constraint; most approaches for scheduling time-critical (DSPA) applications include the response time in their optimization goals. To solve our formulated problem, we introduce several heuristic algorithms that deal with different versions of the problem: static resource-aware scheduling that each time calculates a new system deployment from the outset, time-aware and resource-aware scheduling, dynamic scheduling that takes into account the current deployment. Finally, we extensively and comparatively evaluate our algorithms with realistic simulations against several baselines that either we introduce or that originate / are inspired from the existing literature. Our results demonstrate that our solutions advance the current state of the art in scheduling DSPA applications.; Les applications de traitement et d'analyse des flux de données (TAFD) sont largement utilisées pour traiter les quantités toujours plus importantes de flux de données produites par des sources de données hautement distribuées géographiquement, telles que les dispositifs de l'internet des objets (IdO) fixes et mobiles, afin d'extraire des informations précieuses le plus rapidement possible pour une action satisfaisant une limite de temps de réponse. Les applications TAFD sont généralement déployées dans le Cloud pour bénéficier de ressources de calcul pratiquement illimitées à la demande. Cependant, ces solutions de calcul centralisées et distantes peuvent souffrir d'une bande passante réseau limitée et des retards de réseau élevé. De plus, la propagation des données dans le nuage peut compromettre la confidentialité des données sensibles. Pour traiter efficacement ce volume de flux de données, le paradigme émergent du Edge/Fog computing est utilisé comme niveau intermédiaire entre le Cloud et les dispositifs IdO pour traiter les flux de données plus près de leurs sources afin de réduire l'utilisation des ressources réseau et les retards dans le réseau pour atteindre le Cloud. Cependant, le paradigme Edge/Fog computing contient des ressources de calcul limitées, il est donc nécessaire de décider quelle partie de l'application TAFD doit être exécutée au niveau du Edge/Fog tout en satisfaisant à la contrainte de temps de réponse de l'application. De plus, les ressources de calcul et de réseau de l'architecture Edge-Fog-Cloud peuvent être partagées entre plusieurs applications de TAFD (ou autres), ce qui nécessite une utilisation efficiente de ces ressources. Dans cette thèse, nous proposons un nouveau modèle pour évaluer le coût d'utilisation des ressources à travers l'architecture Edge-Fog-Cloud. Notre modèle concerne à la fois les ressources de calcul et de réseau et permet de traiter les compromis inhérents à leur utilisation conjointe. Ce modèle caractérise précisément le coût d'utilisation des ressources en distinguant les ressources abondantes des ressources contraintes et en considérant leur disponibilité dynamique, couvrant ainsi les ressources dédiées à une seule application de TAFD et les ressources partageables. Nous complétons notre modélisation du système par un modèle de temps de réponse pour les applications TAFD qui prend en compte leurs caractéristiques de fenêtrage. En s'appuyant sur ces modèles, nous formulons le problème de l'ordonnancement d'opérateurs continus, qui constituent une application de TAFD, sur une architecture hiérarchique de ressources Edge-Fog-Cloud. Notre problème cible présente deux différentes caractéristiques. Premièrement, il vise à optimiser conjointement le coût d'utilisation des ressources de calcul et de réseau, alors que peu d'approches existantes ont pris en compte les ressources de calcul dans leurs objectifs d'optimisation. Plus précisément, notre objectif est de déployer une application de TAFD de manière à ce qu'elle utilise les ressources disponibles de la manière la plus efficace possible. Cela permet d'économiser des ressources précieuses pour les autres applications de TAFD (ou d'autre type) qui partagent la même architecture de ressources. Deuxièmement, il est soumis à une contrainte de temps réponse, alors que peu de travaux ont traité d'une telle contrainte ; la plupart des approches d'ordonnancement des applications soumises au contrainte de temps de réponse incluent le temps de réponse dans leurs objectifs d'optimisation. Nous introduisons plusieurs algorithmes basés sur des heuristiques qui traitent différentes versions du problème : l'ordonnancement statique tenant compte que des ressources de calcul et réseau, l'ordonnancement statique tenant compte à la fois des ressources et de la contrainte de temps de réponse, et l'ordonnancement dynamique qui prend en compte le déploiement actuel de l'application et des ressources disponibles. Enfin, nous évaluons de [...]
Databáze: OpenAIRE