Data feature selection based on artificial bee colony algorithm

Autor: Mauricio Schiezaro
Přispěvatelé: Pedrini, Hélio, 1963, Marques, Fátima de Lourdes dos Santos Nunes, Leite, Neucimar Jerônimo, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, UNIVERSIDADE ESTADUAL DE CAMPINAS
Rok vydání: 2014
Předmět:
Zdroj: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
Popis: Orientador: Hélio Pedrini Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: O armazenamento, a busca, a recuperação e a análise de grandes quantidades de dados multimídia são tarefas desafiadoras. A classificação de dados em grandes repositórios requer técnicas eficientes de análise, uma vez que diversas características são normalmente geradas para uma melhor representação dos dados. A seleção de características visa descartar informações redundantes, irrelevantes ou ruídos nos dados. Uma seleção de características apropriada pode reduzir o custo computacional e melhorar a acurácia do processo de classificação. Exemplos de características comuns empregadas na classificação de imagens, por exemplo, incluem cor, textura, forma e estruturas de objetos presentes nas imagens. No caso de grandes coleções de imagens, vetores de características podem conter centenas ou milhares de características. Métodos de otimização podem ser utilizados no processo de seleção das melhores características para classificação de dados. Algoritmos bioinspirados, ou seja, baseados no comportamento de seres vivos na natureza, têm sido criados com o objetivo de solucionar problemas de otimização, tais como Algoritmos Genéticos, Inteligência de Enxames, Colônia de Formigas, entre outros. Este trabalho tem como objetivo investigar, desenvolver e analisar um novo método de seleção de características baseado no método de otimização Colônia Artificial de Abelhas, aplicado em diferentes tipos de dados. Várias bases foram empregadas para demonstrar a eficiência do método proposto em comparação a outros métodos utilizados na literatura. O método proposto obteve resultados promissores, sendo superiores ou competitivos com outras abordagens da literatura. Bases de dados contendo características e naturezas distintas foram utilizadas nos experimentos e o método proposto obteve bons resultados em todos os casos Abstract: Storage, search, retrieval and analysis of large amounts of multimedia data are challenging tasks. Classification of data in large repositories requires efficient techniques for analysis, since multiple features are commonly generated for better representation of the data. Feature selection aims at discarding redundant, irrelevant information or noise in the data. A selection of suitable features can reduce the computational cost and improve the accuracy of the classification process. Examples of common features used in image classification, for instance, include color, texture, shape and structures of objects present in the images. For large collections of images, feature vectors can contain hundreds or thousands of attributes. Optimization methods can be used in the process of feature selection to determine the most relevant subset of features from the data set. Several bioinspired algorithms, that is, based on the behavior of living beings of nature, have been proposed in the literature with the objective of solving optimization problems, such as Genetic Algorithm, Swarm Intelligence, Ant Colony, among others. The main objective of this work is to investigate, develop and analyze a feature selection method using the Artificial Bee Colony approach to classification of various types of data. Several data sets have been used to demonstrate the effectiveness of the proposed method against other relevant approaches available in the literature. The proposed method obtained promising results in comparison with other methods. Data sets from different areas were used in the experiments and the developed method achieved good results in all scenarios Mestrado Ciência da Computação Mestre em Ciência da Computação
Databáze: OpenAIRE