Analysis of the information compression problem in neural networks

Autor: Zarpellon, Fernando, 1990
Přispěvatelé: Attux, Romis Ribeiro de Faissol, 1978, Gazzoni, Wanessa Carla, Boccato, Levy, Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação, Programa de Pós-Graduação em Engenharia Elétrica, UNIVERSIDADE ESTADUAL DE CAMPINAS
Jazyk: portugalština
Rok vydání: 2022
Předmět:
Zdroj: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
Popis: Orientador: Romis Ribeiro de Faissol Attux Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação Resumo: A teoria de aprendizagem profunda por restrição de informação, IBDL (do inglês, Information Bottleneck theory of Deep Learning), afirma que uma rede neural artificial profunda (DNN), através dos conceitos da teoria da informação, pode ser interpretada como uma cadeia de Markov, e, através da desigualdade de processamento de informação (DPI) pode-se analisar a representação latente formada na rede ao longo do processo de treinamento, através da informação mútua destas camadas utilizando o plano de informação (IP). Esta tese tem como objetivo investigar a aplicação desta teoria em problemas de regressão, uma vez que a literatura presente até o momento se faz escassa em aplicações desta natureza. Para tal, estabelecemos uma tarefa de regressão formalizada através do problema de separação de fontes supervisionada, onde buscamos a reconstrução dos sinais de fonte. Para desenvolver a análise do problema é necessária a estimação das medidas de informação como entropia e informação mútua, este processo é realizado utilizando o estimador discreto, que se baseia na estimação através de distribuições de probabilidade obtidas por meio de histogramas (discretização – binning), um método simples, extremamente eficiente computacionalmente e que vem sendo utilizado com certa frequência pelos trabalhos da área. Através dos resultados observados nos planos de informação e das projeções latentes da rede, estabelecemos algumas relações sobre o fenômeno de compressão e expansão da informação mútua que descreve tais representações segundo a teoria IBDL. Além disto, analisamos o impacto das não-linearidades utilizadas em redes profundas na dinâmica de treinamento da rede e na formação destas representações. Os resultados indicam que as redes neurais quando aplicadas em problemas de regressão, seguem as relações estabelecidas pela DPI segundo a formulação do IBDL, bem como apresentaram convergem para os limites teóricos também estabelecidos na formulação do problema. Associamos esta convergência à forma como a rede neural opera em termos de capacidade de processamento, utilizando uma parcela ou a totalidade da capacidade disponível de sua estrutura: esse comportamento influencia na formação da representação latente criada durante o processo de treinamento em conjunto com as não linearidades utilizadas. Por fim, constatamos a viabilidade do estudo das redes neurais aplicadas a problemas de regressão utilizando os conceitos estabelecidos na literatura sobre a teoria IBDL, largamente aplicada a problemas de classificação até o presente momento. Dessa forma, este trabalho contribui para o enriquecimento da discussão a respeito da intepretação de redes neurais através da teoria da informação Abstract: The Information Bottleneck theory of Deep Learning (IBDL) states that a deep neural network (DNN), through the concepts of information theory, generates a successive Markov chain and through de data processing inequality (DPI) the training process of a neural networks and the latent representation formed can be analyzed through the information plane (IP). This thesis aims to investigate the application of the IBDL on regression problems. For this task we formalized the regression problem as a supervised source separation where the objective is to reconstruct one of the sources signals. To develop the analyses, it is necessary to quantify information measures as entropy and mutual information, for that we use the binning method for discretization of the continuous random variables, a simple and efficient method widely applied in the resent literature about this subject. Through the observed results in the information plane and the inner neurons projection we stablish some relationships about the phenomenon of compression and expansion of the mutual information that describes the latent representation of the deep networks, and the impact of nonlinearities commonly used in deep learning on the dynamics of network training. The results indicate that the neural networks follow the relationships stablished by the DPI as well converge to the theoretical limits. We associate this convergence to the way the neural network operates in terms of processing capacity, using a portion or all the available capacity, this behavior associated with the nonlinearities influences the formation of the latent representation created during the training process. Finally, we verify the feasibility of the extension and application of the IBDL method, widely applied in classification problems to regression problems Mestrado Engenharia de Computação Mestre em Engenharia Elétrica CNPQ 158180/2019-4
Databáze: OpenAIRE