Combining multiscale features in convolutional neural networks for image segmentation and border detection [recurso eletrônico]/Felipe Augusto Lima Reis ; orientador: Zenilton Kleber Gonçalves do Patrocínio Júnior
Autor: | Reis, Felipe Augusto Lima |
---|---|
Přispěvatelé: | Patrocínio Júnior, Zenilton Kleber Gonçalves do Orientador, Pontifícia Universidade Católica de Minas Gerais.Programa de Pós-Graduação em Informática Instituição |
Jazyk: | portugalština |
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | Biblioteca Digital de Teses e Dissertações da PUC_MINAS Pontifícia Universidade Católica de Minas Gerais (PUC MINAS) instacron:PUC_MINS |
Popis: | Dissertação (Mestrado) - Pontifícia Universidade Católica de Minas Gerais, Programa de Pós-Graduação em Informática. Bibliografia: f. 87-95 Identifying parts or objects in images is a effortless task for humans but a complex assignment for computers. Boundary detection and region segmentation have been extensively studied for over 50 years, with several approaches. Latterly, machine learning techniques have proven quite effective in solving these problems. Among them, those that use convolutional neural networks (CNN) stand out. The methods that exist today, despite the greater precision compared to some years ago, are still evolving and can be enhanced. A recent improvement, is to combine features generated in multiple network layers. Due to their architecture, CNNs produce different information along their layers, on a multiple scale, which, when combined, contribute to the final result with their own characteristics. Some works, aiming to increase performance, decided to train individual convolutional blocks to force this behavior. This option, however, increases the cost and time of training, once it does not take advantage of information previously generated by correlated problems. This relationship between problems enables the production of good results with a low number of training epochs, making these solutions suitable to proof of concepts, conditions with high cost or events with close deadlines. This work seeks to propose techniques to combine features resulting from different layers of convolutional neural networks to produce boundary detection and region segmentation, using previous results from well-know object detection / classification networks (transfer learning). Also evaluates the influence of the number of side-outputs, intermediate results and what trivial operations, such as average, maximum and sum, can be used in those tasks. The creation of simple or even trivial methods favors the use in different scenarios, once there is no attempt to solve the uniqueness of each problem. The networks developed here were tested for region segmentation and edge detection tasks, with performance comparable to the literature, despite its simplicity. In the edge detection task, the best developed network reached 0.780 ODS on the BSDS500 dataset, at 44.8 FPS. Keywords: machine learning; deep learning; convolutional neural networks; multi-scale learning; image segmentation; region segmentation; edge detection; border detection; contour detection; boundary detection; side-outputs merging techniques. Identificar partes ou objetos em imagens é uma tarefa fácil para humanos, porém um trabalho complexo para computadores. A detecção de bordas e a segmentação por região têm sido extensivamente estudadas há mais de 50 anos, com várias abordagens. Ultimamente, técnicas de aprendizado de máquina têm se mostrado bastante eficazes na solução desses problemas. Dentre elas, destacam-se aquelas que utilizam redes neurais convolucionais (CNNs). Os métodos existentes hoje, apesar da maior precisão em relação a alguns anos atrás, ainda estão evoluindo e podem ser aprimorados. Uma melhoria recente é combinar o conhecimento gerado em várias camadas da rede. Devido à sua arquitetura, as CNNs produzem informações diferentes ao longo de suas camadas, em múltipla escala, que, quando combinadas, contribuem, com características próprias para o resultado final. Alguns trabalhos, devido ao aumento de desempenho, decidiram pelo treinamento de individual de blocos convolucionais, para forçar esse comportamento. Essa opção, no entanto, aumenta o custo e o tempo do treinamento, uma vez que não aproveita as informações geradas anteriormente por problemas correlatos. Essa relação entre problemas possibilita a produção de bons resultados com um baixo número de épocas de treinamento, tornando essas soluções adequadas para a prova de conceitos, condições com alto custo ou eventos com prazos próximos. Este trabalho procura propor técnicas para combinar informações resultantes de diferentes camadas de redes neurais convolucionais para produzir detecção de bordas e segmentação de região, usando resultados anteriores de redes bem conhecidas de detecção / classificação de objetos (transfer learning). Também avalia a influência do número de saídas laterais, resultados intermediários e quais operações triviais, como média, máximo e soma, podem ser usadas nessas tarefas. A criação de métodos simples ou até triviais favorece o uso em diferentes cenários, uma vez que não há tentativa de solucionar peculiaridades de cada problema. As redes desenvolvidas aqui foram testadas em tarefas de segmentação de regiões e detecção de borda, com resultados comparáveis à literatura, apesar de sua simplicidade. Na tarefa de detecção de bordas, a melhor rede desenvolvida atingiu 0.780 ODS na base BSDS500, a 44.8 FPS. Palavras-chave: aprendizado de máquinas; aprendizado profundo; redes neurais convolucionais; aprendizado multiescala; segmentação de imagens; segmentação de regiões; detecção de bordas; detecção de limites; detecção de contornos; técnicas de fusão de saídas laterais. |
Databáze: | OpenAIRE |
Externí odkaz: |