Construção e análise de rede neural convolucional com neurônios pulsados para classificação de imagens

Autor: Edvaldo Castro da Silva Junior
Přispěvatelé: Antonio Carlos Roque da Silva Filho, Ariadne de Andrade Costa, Nilton Liuji Kamiji
Rok vydání: 2022
Zdroj: Biblioteca Digital de Teses e Dissertações da USP
Universidade de São Paulo (USP)
instacron:USP
DOI: 10.11606/d.59.2022.tde-22112022-152337
Popis: O objetivo principal desta dissertação foi construir uma implementação da rede neural convolucional pulsada com neurônios integra-e-dispara proposta por Kheradpisheh et al. em 2018 para a tarefa de classificação de imagens e investigar as consequências de variações em alguns parâmetros de arquitetura da rede no seu desempenho. A rede em questão tem a seguinte arquitetura: (i) uma camada de entrada que recebe a imagem, aplica a ela um kernel de diferença de gaussianas e gera o trem de pulsos que codifica as características da imagem no domínio temporal; (ii) uma sequência de camadas de convolução e de pooling alternadas, constituídas de neurônios pulsados; e (iii) uma camada de pooling global utilizada na fase de classificação, cuja saída é usada para treinar um perceptron multicamadas. Estudos experimentais com redes neurais biológicas mostram que o processamento neural possui um forte componente estocástico, tornando a análise de modelos que incluem estocasticidade um estudo relevante para o entendimento da atividade cerebral. Assim, além dos estudos com a versão determinística da rede, também foram feitos experimentos com neurônios integra-e-dispara estocásticos. As camadas convolucionais foram treinadas segundo uma regra simples de plasticidade dependente do tempo de disparo (STDP, do inglês spike timing dependent plasticity), um mecanismo de aprendizado não supervisionado fisiológico que tende a fortalecer sinapses entre neurônios cujos disparos são temporal e causalmente correlacionados. As camadas de pooling adicionam invariância ao modelo, condensando informações em espaços menores. Por fim, o perceptron multicamadas informa a qual classe a imagem de entrada pertence. Para cada caso estudado, o comportamento e a exatidão da rede na tarefa de classificação foram registrados e analisados. Apesar dos resultados inferiores em comparação com redes neurais convolucionais pulsadas no estado da arte, a rede desenvolvida neste trabalho apresentou bom desempenho para três bancos de dados de imagens conhecidos. Isso indica que a rede desenvolvida é promissora e pode ter seu desempenho melhorado se configurada com um conjunto de parâmetros adequado e intuitivamente alcançável. The main objective of this dissertation was to construct an implementation of the convolutional spiking neural network with integrate-and-fire neurons proposed by Kheradipsheh et al. in 2018 for the task of image classification, and to investigate the consequences of variations in some network architecture parameters on its performance. The network has the following architecture: (i) the first layer receives the image, applies to it a difference of Gaussians kernel and generates a spike train which represents the characteristics of the image in the temporal domain; (ii) a cascade of alternate convolutional and pooling layers, composed of spiking neurons; and (iii) a global pooling layer used in the classification phase, whose output is used to train a multilayer perceptron. Experimental studies with biological neural networks show that neural processing has a strong stochastic component, and this makes the analysis of models that include stochasticity relevant for an understanding of brain activity. Thus, in addition to the studies with the deterministic version of the network, experiments with stochastic integrate-and-fire neurons were made. The convolutional layers were trained according to a simple spike timing dependent plasticity (STDP) rule, which is an unsupervised physiological learning mechanism that tends to strengthen synapses between neurons whose spikes are temporally and causally correlated. Pooling layers add invariance to the model, compressing data. Lastly, the multilayer perceptron indicates to which class the image belongs. For each studied case, the accuracy and behavior of the network were registered and analyzed. In spite of the inferior results compared to state-of-the-art convolutional spiking neural networks, the network developed in this work showed good accuracy for three known image datasets. This indicates that the developed network is promising and capable of better performance if configured with an adequate and intuitively achievable set of parameters.
Databáze: OpenAIRE