A atualização do valor crítico interfere na performance do procedimento Data Snooping?
Autor: | Maria Luisa Silva Bonimani |
---|---|
Přispěvatelé: | Rofatto, Vinicius Francisco, Matsuoka, Marcelo Tomio, Klein, Ivandro, x, x |
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | Repositório Institucional da UFU Universidade Federal de Uberlândia (UFU) instacron:UFU |
DOI: | 10.14393/ufu.di.2022.149 |
Popis: | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior Na era do Big Data detectar outlier no conjunto de dados se tornou uma das atividades mais importantes. Na Geodésia o Data Snooping é o procedimento mais utilizado para identificação de outliers. Para o controle da taxa de erro tipo I, isto é, falsos positivos, os valores críticos devem ser obtidos por meio do método Monte Carlo. No entanto, até agora os estudos foram realizados sem considerar a atualização do valor crítico no processo iterativo do Data Snooping. Uma vez que para realizar o controle efetivo da taxa de erro tipo I o valor crítico deve ser atualizado todas as vezes que uma observação for identificada como outlier e removida do conjunto de dados. Aqui investigamos se a atualização do valor crítico interfere na performance do procedimento Data Snooping e calculamos o valor crítico por meio dos métodos Monte Carlo, Rede Neural Artificial e correção Šidák. Para esse experimento consideramos uma rede fechada de nivelamento com correlação máxima entre os resíduos de 41,46%. Considerando níveis de significância menores ou iguais a 10% (α’ ≤ 10%), a atualização do valor crítico não apresenta diferenças significativas quando comparados com os valores críticos não atualizados, apresentando uma diferença máxima de ΔKSBPNN=0,0389 (α = 0,001), ΔKsid=0,0507(α = 0,001) e ΔKMC=0,0256 (α = 0,1) para o caso de uma exclusão e uma diferença máxima de ΔKSBPNN=0,1023 (α = 0,001), ΔKsid=0,1353 (α = 0,001) e ΔKMC=0,0773 (α = 0,001) para o caso de 2 exclusões. A atualização do valor crítico também não causa diferenças significativas nas taxas de correta identificação de outliers apresentando um ΔPCI máximo de < 0,5%. Desta forma, os experimentos mostraram que a atualização do valor crítico não causa efeitos significativos na performance do Data Snooping para níveis de significância menores ou iguais a 10% (α’ ≤ 10%). In the age of Big Data, detecting outlier in the data set has become one of the most important activities. In Geodesy, Data Snooping is the most widely used procedure for identifying outliers. To control the type I error rate, that is, false positives, critical values must be obtained using the Monte Carlo method. However, so far, studies have been conducted without considering the update of the critical value of the iterative process of Data Snooping. Since to effectively control the type I error rate the critical value must be updated every time an observation is identified as an outlier and removed from the data set. Here we investigate whether updating the critical value interferes with the performance of the Data Snooping procedure and calculate the critical value using the Monte Carlo, Artificial Neural Network and Šidák correction methods. For this experiment, we considered a closed leveling network with a maximum correlation between residuals of 41.46%. Considering significance levels less than or equal to 10% (α' ≤ 10%), updating the critical value does not show significant differences when compared to the non-updated critical values, presenting a maximum difference of ΔKSBPNN=0,0389 (α = 0,001), ΔKsid=0,0507(α = 0,001) e ΔKMC=0,0256 (α = 0,1) for the case of 1 exclusion, and a maximum difference of ΔKSBPNN=0,1023 (α = 0,001), ΔKsid=0,1353 (α = 0,001) e ΔKMC=0,0773 (α = 0,001) for the case of 2 exclusions. Updating the critical value also does not cause significant differences in the correct outlier identification rates showing a maximum ΔP_CI < 0,5%. In this way, the experiments showed that updating the critical value does not cause significant effects on the performance of Data Snooping for significance levels less than or equal to 10% (α' ≤ 10%). Dissertação (Mestrado) |
Databáze: | OpenAIRE |
Externí odkaz: |