Popis: |
Junções por similaridade de conjuntos são operações de grande importância nos sistemas modernos de bancos de dados, especialmente para os chamados armazens de dados, onde várias operações rotineiras como integração, limpeza e mineração de dados as utilizam com frequência. Algoritmos exatos, que retornam todos os pares similares possíveis de acordo com algum limiar de similaridade são computacionalmente caros, o que impõe lentidão a cargas de trabalho analíticas e destaca a necessidade de soluções paralelas para o problema. Trabalhos recentes apresentam algoritmos paralelos voltados para dispositivos de arquitetura many-core como as GPUs. Nesse artigo apresentamos um novo algoritmo para a etapa de filtragem do fgssjoin, um algoritmo paralelo conhecido, baseado em gpu, para a junção exata por similaridade de conjuntos. |