Métodos auto-supervisionados para aprendizagem de representações visuais
Autor: | Silva, Thalles Santos, 1987 |
---|---|
Přispěvatelé: | Ramírez Rivera, Adín, 1986, Bittencourt, Luiz Fernando, 1981, Pedrini, Hélio, Valle, Eduardo, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, UNIVERSIDADE ESTADUAL DE CAMPINAS |
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
Popis: | Orientadores: Gerberth Adín Ramírez Rivera, Luiz Fernando Bittencourt Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Extrair informações semanticamente relevantes de um conjunto de dados de imagens não anotado é um dos mais complexos desafios da área de Visão Computacional. Nos últimos anos, métodos de aprendizado auto-supervisionados conseguiram reduzir drasticamente a grande lacuna outrora existente, entre representações obtidas de forma supervisionada e aquelas adquiridas de forma não supervisionada. Com o crescimento ininterrupto na captura e armazenamento de dados não estruturados, somando-se o alto custo associado à criação de conjuntos de dados anotados, aprender características a partir de dados não rotulados, possui o potencial de desbloquear uma série de problemas relevantes, com redução significativa de custos. Esta dissertação apresenta algoritmos de aprendizado de máquina capazes de extrair características de dados de imagens sem a necessidade de qualquer tipo de supervisão manual. Apresentamos um panorama geral do recente paradigma de aprendizado auto-supervisionado. Destacamos a recente evolução dos métodos, desde a otimização de tarefas denominadas "pretext" expandindo-se a um conjunto de métodos que utiliza funções de custo contendo componentes contrastivos e não contrastivos baseados em similaridade entre representações visuais. Como principais contribuições, apresentamos dois novos algoritmos de aprendizado de representações visuais auto-supervisionados. Primeiramente, apresentamos Consistent Assignment for Representation Learning (CARL), um método auto-supervisionado, que combina os benefícios de algoritmos clássicos de agrupamento com técnicas de auto-supervisão. CARL aprende representações de forma não supervisionada. Nossos experimentos demonstraram que tais representações podem ser utilizadas como ponto de partida para o aprendizado de novas tarefas, de maneira mais eficiente no que diz respeito à quantidade de dados. Nossos resultados se comparam a métodos atuais de última geração em vários conjuntos de dados, incluindo CIFAR10, CIFAR100 e STL10. Apresentamos um estudo aprofundado para investigar os pontos fortes e fracos do nosso método inicial. Baseado em nossas descobertas, desenvolvemos um novo algoritmo que rivaliza métodos atuais de aprendizado de representações não supervisionadas no ImageNet. Nossos métodos aprendem representações a partir de dados completamente livres de rótulos explícitos. Além disso, nossos experimentos demonstraram que as representações obtidas por nossos algoritmos reduzem a necessidade de grandes conjuntos de dados anotados no processo de aprendizado de novas tarefas. Em outras palavras, as representações apreendidas por Consistent Assignment of Random Partition Sets (CARP), são compactas e transferíveis em várias tarefas de visão computacional Abstract: Learning semantically meaningful features from unlabeled data has been one of the most challenging problems in Computer Vision (CV). Recently, Self-Supervised Learning (SSL) methods have managed to drastically reduce the gap between supervised and unsupervised pre-trained representations to learn downstream tasks. With the non-stopping growth of unstructured data and the high costs associated with creating annotated datasets, learning representations from unlabeled data can unlock a series of problems with significant cost reductions. In this context, this dissertation presents a series of algorithms to perform unsupervised representation learning from images completely free of human annotations. We perform a comprehensive overview of the recently popular field of SSL and highlight the evolution of self-supervised methods, from derivation and optimization of pretext tasks to a robust framework based on similarity optimization using contrastive and non-contrastive loss functions. As our main contribution, we present two novel algorithms for SSL of visual representations. First, we introduce Consistent Assignment for Representation Learning (CARL), a self-supervised method that combines the benefits of classic clustering algorithms, such as K-Means, with SSL methods based on similarity in the embeddings space. We demonstrate that representations learned by CARL, in an entirely label-free way, can be used to learn new downstream tasks in a data-efficient manner. CARL’s pre-trained representations perform equally well or better than current state-of-the-art (SOTA) methods on various representation learning benchmarks, including CIFAR10/100 and STL10. We conducted a thorough study to investigate the strengths and weaknesses of CARL and, based on our findings, we developed a new algorithm capable of rivaling unsupervised representation learning methods on the ImageNet-1M dataset. Consistent Assignment of Random Partition Sets (CARP) learns representations using a novel randomized clustering approach. We introduce a new pretext task based on random set partitions of prototypes. Our experiments demonstrate that CARP’s representations are compact and transferable across many vision tasks. Moreover, CARP’s representations perform equally well against contemporary representation learning methods while offering benefits such as small batch sizes and smaller memory footprint Mestrado Ciência da Computação Mestre em Ciência da Computação |
Databáze: | OpenAIRE |
Externí odkaz: |