Deteção de pontos negros em sistemas de ETL
Autor: | Dias, Nuno Miguel Monteiro Soares |
---|---|
Přispěvatelé: | Belo, Orlando, Universidade do Minho |
Jazyk: | portugalština |
Rok vydání: | 2017 |
Předmět: | |
Zdroj: | Repositório Científico de Acesso Aberto de Portugal Repositório Científico de Acesso Aberto de Portugal (RCAAP) instacron:RCAAP |
Popis: | Dissertação de mestrado em Computer Science Os sistemas de povoamento de data warehouses, vulgarmente designados por sistema de ETL – Extract-Transform-Load –, constituem a base de qualquer sistema de data warehousing. No entanto, poucas são as vezes em que a sua implementação ocorre de uma forma linear, metódica, seguindo um dado modelo de trabalho devidamente comprovado. Usualmente, estes sistemas estabelecem uma “ponte” entre os sistemas operacionais, muitas vezes de natureza diversa, e os sistemas de data warehousing, de forma a que seja possível assegurar o povoamento dos seus data warehouses, de uma forma regular e atual. Como tal, é muito normal terem que lidar com um volume de dados considerável e envolvendo processos de tratamento bastante complexos. Esses processos, que representam trabalho extra para o ETL, só são necessários devido à da elevada permeabilidade dos sistemas operacionais que facilitam a ocorrência de fenómenos de inconsistência e de omissão de valores. Para que tal não aconteça, as atuais técnicas e modelos de implementação baseados em processos típicos de “tentativa-erro” deverão ser abandonados desde início, dando lugar a uma arquitetura pensada com vista num melhor desempenho evitando, assim, situações em que um aumento no volume de dados do processo, tende a revelar um efeito “bola de neve” em termos do nível de performance do sistema. Neste trabalho de dissertação desenvolvemos uma técnica baseada em process mining que, recorrendo aos registos de execução detalhados de um processo ETL - logs -, permite descobrir todo o processo ETL a montante. Na posse dos dados relativos a cada passo de execução do processo ETL (tempo médio de execução, frequência absoluta, etc), podemos definir um modelo matemático que ilustra o “bem-estar”, ou seja, o desempenho do nosso sistema através da correlação de todas estas variáveis. Desta forma, ao torná-lo acessível aos administradores dos sistemas, introduzimos um novo paradigma no desenvolvimento e manutenção de processos ETL, mais preocupado com questões como a performance ou um conhecimento mais aprofundado do impacto das decisões arquiteturais que são tomadas, nomeadamente a nível da escolha de componentes para executar cada passo do nosso ETL. ETL – Extract – Transform – Load – systems is the common name for the systems behind the data warehouses’ populating process. In fact, they’re the core piece of any data warehousing system. However, most of the times its implementation does not occur in a regular way. Usually, these systems establish the “bridge” between the operational environment, most of the times a heterogeneous one, so that its populating process proceeds in a regular and up to date way. Therefore, it’s normal for these processes to cope with large volumes of data involving complex validation processes. These validation processes, that represent an extra effort for the ETL, are only necessary thanks to a high permeability of the operational systems, that facilitates the occurrence of value omissions or inconsistencies. In order to reverse the situation, the current adhoc technique must be abandoned from the very beginning, leaving place to a new one, much more pragmatic and performance oriented. This approach is going to avoid the “snowflake” effect regarding the decrease in performance that is usually notable as the volume of data increases. In this work, we introduced a new process mining based technique that, using the detailed execution records of an ETL process – the so-called logs, allows us to discover the nature of the ETL process behind these logs. In possession of detailed data concerning each step of our process (mean time, absolute frequency, etc), we can define a new mathematical model that illustrates the “well-being”, that is, the degree of performance of our system, by establishing the correlation between the collected variables. Thus, by making it accessible to the system admins, we’re introducing a new paradigm regarding the development and maintenance of ETL processes, much more concerned with issues like the performance or the knowledge behind the impact of our architectural decisions, mainly when we’re deciding about the components we’re going to use to execute each step of our ETL. |
Databáze: | OpenAIRE |
Externí odkaz: |