Resource profiling for large­-scale data centres

Autor: Hauser, Christopher B.
Přispěvatelé: Wesner, Stefan, Fernández Anta, Antonio
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Popis: The use of virtualisation allows to share physical resources in a data centre among multiple tenants in parallel. Cloud Computing became the de facto standard in modern data centre management. Yet, resource interferences and non-ideal placement decisions can hinder an equally distributed and fair shared data centre utilisation for the participants, the data centre provider and the customers. Related work is improving virtualisation and isolation, works on resource management in data centres, addresses green computing aspects to improve the ecological aspects of data centres, reviews and improves data centre monitoring, and works on time series analysis. The popular data centre management modes are Cloud Computing or High Performance Computing. Both have in common to consist of a centralised management component, which schedules and allocates resources, based on static criteria. A dynamic resource allocation is more complex and expensive, since utilisation-aware scheduling requires monitoring and processing to express resource demands as profiles to resource management components. This thesis presents solutions for the monitoring and profiling, to build a distributed dynamic resource allocation for large-scale data centres. The designed and implemented distributed monitoring for virtualised nodes in shared data centres works cross-layer while being non-intrusive, elastic and robust. The DisResc Monitoring proposed here considers static and dynamic metrics of physical and virtual layer with multi-tenancy awareness, and introduces a flexible and scalable communication model. The DisResc communication uses a distributed message bus with publish-subscribe, to allow fully distributed, hierarchical, or centralised setups. The kvmtop collector, as proof of concept implementation, transmits comprehensive static and dynamic metrics for virtual machines on KVM hypervisors, including runtime overhead and with awareness of overbooking. The evaluation shows that this black box monitoring approach produces accurate measurements, equivalent to monitoring inside the virtual machines. Resource interferences, due to overbooking and high utilisation values, can be detected accurately by the monitoring design and by kvmtop. The designed and implemented distributed profiling selects statistical methods and probability theory to process the monitoring data as distributed profiler instances, next to the monitoring collector on each node in the data centre. The DisResc Profiler therefore requests and subscribes to events from the DisResc Monitoring instances, to sequentially process the online time series stream. The utilisation values are aligned to the static hardware properties, discretised to states, and transformed to Markov chains. Transition matrices of the Markov chain are built for the overall profile, for each period in a period tree with fix size, and for each of automatically detected phases. The period tree dimension is configured using pre-processing steps like signal processing methods. The phase detection uses the recorded probabilities to differentiate patterns by likeliness of a sequence of states. The prototypical implementation TSProfiler provides tools to produce profiles, simulate utilisation values from profiles, and compute the likeliness of future utilisation values. The TSProfiler tools are used to evaluate the profiling approach. An n-step-ahead prediction on existing data sets calculates the error of predicted and actual utilisation values. The prediction error is significantly lower than using an overall average. The accuracy and the computation complexity depends on the profiling parameters, like the number of states, which mode is used (overall transitions, with period tree, with phases), and the number of prediction steps. The profile is distributed via the DisResc communication, and contains hardware-independent representations of CPU, disk and network utilisation. The presented DisResc monitoring and profiling provide necessary information as input for a dynamic resource allocation. The distributed, non-intrusive approach for monitoring virtual environments and processing the stream directly allows to deploy the components as independent instances decentralised in large-scale data centres. The profiling compresses the raw monitoring data, and produces expressive representations, suitable for direct use to derive resource allocation decisions. Monitoring and profiling are designed for low resource demanding, and the resulting profile is designed to be lightweight. Compared to state of the art centralised monitoring and analysis tools, the presented thesis approach follows a decentralised approach to achieve horizontal scalability.
Die Nutzung von Virtualisierung erlaubt die parallele Nutzung von physischen Ressourcen in Rechenzentren mit mehreren Benutzergruppen. Cloud Computing wurde der de-facto Standard für die Verwaltung von modernen Rechenzentren. Dennoch, Interferenzen der Ressource sowie nicht optimale Platzierungsentscheidungen können die gleichmäßige und faire Verteilung der Auslastung des Rechenzentrums für Betreiber und Kunden verhindern. Relevante Arbeiten verbessern die Virtualisierung und Isolierung, arbeiten an Ressourcenverwaltung in Rechenzentren, adressieren Green Computing um ökologische Aspekte von Rechenzentren zu verbessern, betrachten und verbessern die Überwachung von Rechenzentren, und arbeiten an der Analyse von Zeitreihendaten. Populäre Ansätze für die Verwaltung von Rechenzentren sind Cloud Computing oder Höchstleistungsrechenzentren. Beide haben gemein, dass sie aus zentralen Verwaltungskomponenten bestehen, welche die Planung und Ressourcenzuteilung auf Basis von statischen Kriterien tätigen. Eine dynamische Ressourcenzuteilung ist komplexer und teurer, da die Planung mit Berücksichtigung von Auslastung eine Überwachung und die Verarbeitung zu einem aussagekräftigen Ressourcenbedarf für die Ressourcenverwaltungskomponenten erfordert. Diese Thesis präsentiert eine Lösung für die Überwachung und Auswertung, um eine verteilte, dynamische Ressourcenverteilung für hoch-skalierte Rechenzentren zu bauen. Der Entwurf und die Umsetzung der verteilten Überwachung für virtualisierte Knoten in geteilt genutzten Rechenzentren arbeitet ebenenübergreifend, nicht-intrusiv, und ist elastisch und robust. Das hier vorgestellte DisResc Monitoring betrachtet statische und dynamische Metriken, von physischer und virtueller Ebene, mit Berücksichtigung von Mandantenfähigkeit und definiert ein flexibles und skalierbares Kommunikationsmodell. Die DisResc Kommunikation benutzt einen verteilten Nachrichtenbus mit einem Abonnentenmodell, um vollständig verteilte, hierarchische oder zentrale Aufbauten zu ermöglichen. Der kvmtop Kollektor, als konzeptionelle Umsetzung, übermittelt umfassende statische und dynamische Metriken für virtuelle Maschinen auf einem KVM Hypervisor, inklusive Betriebskosten und mit Berücksichtigung von Überbuchung. Die Evaluation zeigt, dass dieser Ansatz zur Black-Box Überwachung akkurate Messungen produziert, gleichwertig mit Überwachung innerhalb der virtuellen Maschine. Ressourceninterferenzen durch Überbuchung und hohen Auslastungswerten werden akkurat vom Entwurf und der Umsetzung in kvmtop von der Überwachung erkannt. Der Entwurf und die Umsetzung der verteilten Auswertung wählt statistische Methoden und Wahrscheinlichkeitstheorie, um die Daten der Überwachung als verteilte Profiler Instanzen zu verarbeiten, direkt neben den Überwachungs-kollektoren auf jedem Knoten im Rechenzentrum. Der DisResc Profiler erfrägt und abonniert Ereignisse von DisResc Monitoring Instanzen, um sequentiell den fortlaufenden Zeitreihenstrom zu verarbeiten. Die Auslastungswerte werden ausgerichtet an statischen Hardwareeigenschaften, diskretisiert zu Zuständen, und transformiert als Markovketten. Die Übergangsmatrizen der Markovketten werden erzeugt für das übergeordnete Profil, für jede Periode im Periodenbaum fester Größe, und für jede der automatisch erkannten Phasen. Die Dimension des Periodenbaums wird konfiguriert durch Vorverarbeitungsschritte wie Methoden aus der Signalverarbeitung. Die Phasenerkennung nutzt die bereits aufgezeichneten Wahrscheinlichkeiten, um Muster anhand der Wahrscheinlichkeiten von Sequenzen von Zuständen zu unterscheiden. Die prototypische Implementierung TSProfiler stellt Werkzeuge zur Verfügung um Profile zu erzeugen, Auslastungswerte anhand von Profilen zu simulieren, und um Wahrscheinlichkeiten zukünftiger Zustände zu berechnen. Die Werkzeuge von TSProfiler werden benutzt um den Auswertungsansatz zu evaluieren. Eine n-step-ahead Vorhersage auf bestehenden Datensätzen berechnet den Fehler anhand der Vorhersage und des tatsächlichen Auslastungswertes. Der Vorhersagefehler ist signifikant geringer als die Nutzung des Mittelwerts über die Datensätze. Die Genauigkeit und die Berechnungskomplexität hängen von den Parametern der Auswertung ab, wie die Anzahl an Zuständen, die Wahl des Modus (gesamte Übergangsmatrix, mit Periodenbaum, mit Phasenerkennung), und der Anzahl an Vorhersageschritten. Das Profil wird verteilt über das DisResc Kommunikationsmodell, und beinhaltet hardwareunabhängige Repräsentationen der CPU-, Disk- und Netzwerk-Auslastungen. Das präsentierte DisResc Monitoring und DisResc Profiling stellen notwendige Informationen als Eingabe für eine dynamische Ressourcenverwaltung bereit. Der verteilte, nicht-intrusive Ansatz zur Überwachung der virtuellen Umgebungen, und die direkte Verarbeitung des Stroms, erlauben den Einsatz der Komponenten als unabhängige Instanzen, dezentral in hoch-skalierten Rechenzentren. Die Auswertung komprimiert die rohen Überwachungsdaten und produziert eine aussagekräftige Repräsentation, welche direkt nutzbar für Entscheidungen zur Ressourcenverwaltung ist. Überwachung und Auswertung sind entworfen, um minimale Ressourcenanforderungen zu haben, das resultierende Profil ist leichtgewichtig. Verglichen mit bestehenden, zentralen Überwachungs- und Auswertungs-Werkzeugen, befolgt der vorgestellte Ansatz der Thesis einen verteilten Ansatz um horizontale Skalierbarkeit zu erhalten.
Databáze: OpenAIRE