Autor: |
Rodrigo Tavares de Souza, Rafael Castaneda Ribeiro, Claudia Ferlin, Ronaldo Ribeiro Goldschmidt, Luis Alfredo V. Carvalho, Jorge de Abreu Soares |
Rok vydání: |
2018 |
Zdroj: |
Anais do XXXIII Simpósio Brasileiro de Banco de Dados (SBBD 2018). |
DOI: |
10.5753/sbbd.2018.22240 |
Popis: |
A tarefa de imputação de dados é um importante desafio enfrentado pelos cientistas de dados. Nesse contexto, torna-se imperativo dispor-se de técnicas de imputação que melhorem a qualidade do dado preenchido. Valer-se tanto de técnicas de aprendizado de máquina quanto de variações do processo clássico de imputação pode tornar possível a melhora da qualidade dos dados imputados. Assim, este artigo tem por propósito avaliar o impacto da utilização do algoritmo dos k-vizinhos mais próximos frente ao uso da média no processo de imputação global bem como explorar o uso da técnica de imputação hot-deck com o algoritmo de agrupamento k-Means e a imputação com k-NN. Os resultados revelam interessante redução da margem de erro obtida na simulação em três bases de dados com diferentes características. |
Databáze: |
OpenAIRE |
Externí odkaz: |
|