Finding Causal Relationships Among Metrics In A Cloud-Native Environment

Autor: Rishi Nandan, Suresh
Jazyk: angličtina
Rok vydání: 2023
Předmět:
Druh dokumentu: Text
Popis: Automatic Root Cause Analysis (RCA) systems aim to streamline the process of identifying the underlying cause of software failures in complex cloud-native environments. These systems employ graph-like structures to represent causal relationships between different components of a software application. These relationships are typically learned through performance and resource utilization metrics of the microservices in the system. To accomplish this objective, numerous RCA systems utilize statistical algorithms, specifically those falling under the category of causal discovery. These algorithms have demonstrated their utility not only in RCA systems but also in a wide range of other domains and applications. Nonetheless, there exists a research gap in the exploration of the feasibility and efficacy of multivariate time series causal discovery algorithms for deriving causal graphs within a microservice framework. By harnessing metric time series data from Prometheus and applying these algorithms, we aim to shed light on their performance in a cloudnative environment. Furthermore, we have introduced an adaptation in the form of an ensemble causal discovery algorithm. Our experimentation with this ensemble approach, conducted on datasets with known causal relationships, unequivocally demonstrates its potential in enhancing the precision of detected causal connections. Notably, our ultimate objective was to ascertain reliable causal relationships within Ericsson’s cloud-native system ’X,’ where the ground truth is unavailable. The ensemble causal discovery approach triumphs over the limitations of employing individual causal discovery algorithms, significantly augmenting confidence in the unveiled causal relationships. As a practical illustration of the utility of the ensemble causal discovery techniques, we have delved into the domain of anomaly detection. By leveraging causal graphs within our study, we have successfully applied this technique to anomaly detection within the Ericsson system.
System för automatisk rotorsaksanalys (RCA) syftar till att effektivisera process för att identifiera den underliggande orsaken till programvarufel i komplexa molnbaserade miljöer. Dessa system använder grafliknande strukturer att representera orsakssamband mellan olika komponenter i en mjukvaruapplikation. Dessa relationer lär man sig vanligtvis genom prestanda och resursutnyttjande mätvärden för mikrotjänsterna i systemet. För att uppnå detta mål använder många RCAsystem statistiska algoritmer, särskilt de som faller under kategorin orsaksupptäckt. Dessa algoritmer har visat att de inte är användbara endast i RCA-system men även inom en lång rad andra domäner och applikationer. Icke desto mindre finns det en forskningslucka i utforskningen av genomförbarhet och effektivitet av orsaksupptäckt av multivariat tidsserie algoritmer för att härleda kausala grafer inom ett mikrotjänstramverk. Genom att utnyttja metriska tidsseriedata från Prometheus och tillämpa Dessa algoritmer strävar vi efter att belysa deras prestanda i ett moln- inhemsk miljö. Dessutom har vi infört en anpassning i formen av en ensemble kausal upptäcktsalgoritm. Vårt experiment med denna ensemblemetod, utförd på datauppsättningar med kända orsakssamband relationer, visar otvetydigt sin potential för att förbättra precisionen hos upptäckta orsakssamband. Särskilt vår ultimata Målet var att fastställa tillförlitliga orsakssamband inom Ericssons molnbaserade systemet ’X’, där grundsanningen inte är tillgänglig. De ensemble kausal discovery approach segrar över begränsningarna av att använda individuella kausala upptäcktsalgoritmer, avsevärt öka förtroendet för de avslöjade orsakssambanden. Som en praktisk illustration av nyttan av ensemblens kausal upptäcktstekniker har vi fördjupat oss i anomalidomänen upptäckt. Genom att utnyttja kausala grafer inom vår studie har vi framgångsrikt tillämpat denna teknik för att detektera anomali inom Ericsson system
Databáze: Networked Digital Library of Theses & Dissertations