Popis: |
Com a expansão das aplicações de BigData, garantir a segurança e confiabilidade dos dados armazenados tornou-se uma tarefa desafiadora. Tal desafio é especialmente preocupante quando se considera o monitoramento de infraestruturas críticas, em especial aquelas que contemplam ativos físicos monitorados por sensores e dispositivos IoT de coleta de dados. Uma alternativa consiste no uso de blockchains como mecanismo de auditoria de aplicações Big Data a partir da técnica off-chain, onde os pacotes de dados brutos são armazenados em um sistema de banco de dados convencional e apenas um resumo criptográfico dos dados é escrito no blockchain. Embora bastante aplicada na literatura recente sobre o tema, essa estratégia não permite a auditoria de dados em cenários de perda parcial de informações, onde pacotes de dados correspondentes a subconjuntos do pacote original precisam ser verificados. Este artigo propõe uma estratégia de auditoria de dados em aplicações Big Data que emprega hashes de similaridade para estender as funcionalidades do modelo off-chain. Usado em conjunto com resumos criptográficos e smart contracts, tais hashes permitem auditar pacotes de dados distintos em situações de possível perda parcial, possibilitando diferenciar uma situação não intencional de uma tentativa deliberada de fraude. Em nossos experimentos, avaliamos os algoritmos Minhash e Simhash, apontando resultados computacionais que indicam que o Minhash é bastante promissor para esse tipo de aplicação, e pode contribuir significativamente para a robustez de processos de auditoria em aplicações Big Data. |