Apoiando o processo de imputação com técnicas de aprendizado de máquina

Autor: Rodrigo Tavares de Souza, Rafael Castaneda Ribeiro, Claudia Ferlin, Ronaldo Ribeiro Goldschmidt, Luis Alfredo V. Carvalho, Jorge de Abreu Soares
Rok vydání: 2018
Zdroj: Anais do XXXIII Simpósio Brasileiro de Banco de Dados (SBBD 2018).
DOI: 10.5753/sbbd.2018.22240
Popis: A tarefa de imputação de dados é um importante desafio enfrentado pelos cientistas de dados. Nesse contexto, torna-se imperativo dispor-se de técnicas de imputação que melhorem a qualidade do dado preenchido. Valer-se tanto de técnicas de aprendizado de máquina quanto de variações do processo clássico de imputação pode tornar possível a melhora da qualidade dos dados imputados. Assim, este artigo tem por propósito avaliar o impacto da utilização do algoritmo dos k-vizinhos mais próximos frente ao uso da média no processo de imputação global bem como explorar o uso da técnica de imputação hot-deck com o algoritmo de agrupamento k-Means e a imputação com k-NN. Os resultados revelam interessante redução da margem de erro obtida na simulação em três bases de dados com diferentes características.
Databáze: OpenAIRE