Spatio-temporal representation based on autoencoder for video action recognition Representação espaço-temporal baseada em autoencoder para reconhecimento de ações em vídeos

Autor: Santos, Anderson Carlos Sousa e, 1990
Přispěvatelé: Pedrini, Hélio, 1963, Menotti, David, Prati, Ronaldo Cristiano, Spina, Thiago Vallin, Ferreira, Alexandre Mello, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, UNIVERSIDADE ESTADUAL DE CAMPINAS
Rok vydání: 2020
Předmět:
Zdroj: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
DOI: 10.47749/t/unicamp.2019.1089661
Popis: Orientador: Hélio Pedrini Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Devido aos avanços no desenvolvimento de câmeras com altas taxas de amostragem, baixo custo, tamanhos reduzidos e alta resolução, um rápido crescimento na aquisição e disseminação de vídeos tem impulsionado o desenvolvimento de diversas aplicações multimídia, como transmissão interativa, entretenimento, telemedicina, vigilância, entre outras. Para lidar com a enorme quantidade de dados e apoiar operadores humanos, torna-se necessário introduzir mecanismos automáticos para processar e compreender o conteúdo dos vídeos. Apesar dos recentes avanços na área de visão computacional, mais especificamente na análise de imagens por meio do uso de redes neurais profundas, o problema do reconhecimento de ações ainda é desafiador, uma vez que as relações espaço-temporais são difíceis de ser modeladas. Nesta tese, propomos e avaliamos uma nova representação de vídeo baseada em um autoencoder que emprega uma rede neural convolucional, a qual recebe uma sequência de vídeo na forma de quadros empilhados, codifica-a para uma representação latente e decodifica-a de volta para uma sequência de vídeo que se assemelhe ao máximo com a original. A arquitetura projetada do autoencoder impõe ao codificador a geração de uma imagem que resume toda a sequência do vídeo. Uma análise de diferentes funções de perda foi realizada para avaliar o impacto na imagem gerada e na reconstrução do vídeo. A transformação proposta permite alavancar modelos profundos baseados em imagens, além de sua visualização e compressão simples. Ao contrário de outras abordagens de vídeo para imagem, o método proposto fornece aprendizado de ponta-a-ponta com qualquer modelo de rede neural que espere uma imagem como entrada e pode ser adaptado a diferentes problemas de análise de vídeos. O uso de nossa representação foi demonstrado empregando-se uma abordagem de múltiplos canais, o que também inclui uma imagem RGB e uma pilha de imagens de fluxo óptico. Para combinar todos os canais, introduzimos a aplicação de uma abordagem com integral fuzzy, que generaliza outros operadores de fusão comuns para melhorar as pontuações individuais. Resultados experimentais utilizando os desafiadores conjuntos de dados UCF101 e HMDB51 validam a representação espaço-temporal baseada em autoencoder, pois demonstram que nosso método é capaz de superar um modelo de referência de dois canais e alcançar taxas de acurácia competitivas em comparação com outras abordagens disponíveis na literatura Abstract: Due to rapid advances in the development of cameras with high sampling rates, low cost, small size and high resolution, a fast growth in the acquisition and dissemination of videos has driven the development of diverse multimedia applications, for instance, interactive broadcasting, entertainment, telemedicine, surveillance, among others. To cope with the massive amount of data and support human operators, it is necessary to introduce automatic mechanisms to process and understand video content. Despite recent advances in computer vision, more specifically in image analysis through the use of deep neural networks, the problem of action recognition is still challenging, since spatio-temporal relationships are more difficult to model. In this thesis, we propose and evaluate a novel video representation based on a convolutional neural network autoencoder that inputs a video sequence as a stack of frames, encodes it to a latent representation and decodes back to a video that closely resembles the original. The specific designed architecture of the autoencoder imposes the encoder to produce an image that resumes the entire video sequence. An analysis of different loss functions was carried to evaluate the impact on the generated image and reconstruction of the video. The proposed transformation allows it to leverage image-based deep models in addition to its straightforward visualization and compression. Unlike other video-to-image approaches, it provides end-to-end learning with any neural network model that expects an image as input and can be adapted to different video analysis problems. We demonstrate the use of our representation using a multi-stream approach that also includes an RGB image and a stack of optical flow images. To combine all streams, we introduce the application of a fuzzy integral approach that generalizes other common fusion operators to improve on all individual scores. Experimental results on the challenging UCF101 and HMDB51 data sets validate the autoencoder-based spatio-temporal representation, demonstrating that our method is capable of surpassing a two-stream baseline and achieving competitive accuracy rates compared to other approaches available in the literature Doutorado Ciência da Computação Doutor em Ciência da Computação CAPES 1573334 CNPQ 141647/2017-5
Databáze: OpenAIRE