Avaliação de modelos baseados em atenção para classificação de violência em vídeos

Autor: Teixeira, Marcos Vinícius Adão, 1994
Přispěvatelé: Avila, Sandra Eliza Fontes de, 1982, Santos, Jefersson Alex dos, Costa, Paula Dornhofer Paro, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, UNIVERSIDADE ESTADUAL DE CAMPINAS
Rok vydání: 2020
Předmět:
Zdroj: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
Popis: Orientador: Sandra Eliza Fontes de Avila Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: O avanço tecnológico tem contribuído para o aumento no compartilhamento de vídeos na Internet. Geralmente, esse tipo de mídia tem como foco principal o entretenimento e vem sendo consumido sob demanda. Dado esse grande volume de informação, formas automáticas de identificação do tipo de conteúdo contido nos vídeos têm sido estudadas ao longo dos anos. Especificamente, a identificação de conteúdo sensível tem crescido e tem como finalidade detectar e sinalizar eventos sensíveis para diversas aplicações, como conteúdo violento, pornográfico, grotescos. Neste trabalho, focamos na classificação de violência em vídeos. Nessa linha, existem diversos trabalhos propostos na literatura com soluções variando de descritores locais a redes neurais profundas. A maioria das abordagens utiliza toda a representação do vídeo como entrada para extrair as features apropriadas para a classificação. No entanto, no mundo real, algumas cenas podem conter partes ruidosas e irrelevantes que podem confundir o algoritmo. Neste trabalho, investigamos a efetividade de modelos baseados em atenção para lidar com esse problema. Apesar do sucesso dos modelos de atenção em diferentes tarefas, como reconhecimento de fala, geração de legenda para imagens e tradução de texto, tais métodos ainda não foram explorados para o contexto de violência. Para realizar esse trabalho, levantamos da literatura alguns modelos baseados em atenção relacionados à tarefa de classificação de vídeos, adaptamos para nosso contexto de violência e comparamos com estratégias tradicionais. Utilizamos a rede EfficientNet, estado da arte para classificação de imagens, para extrair features para todas as abordagens utilizando como entrada os frames dos vídeos em RGB e o fluxo óptico. Além disso, também estendemos as implementações iniciais preparadas para trabalhar com features unimodais para multimodal, empregando a abordagem de fusão tardia. Após realizarmos um levantamento detalhado das bases de violência, escolhemos três bases para avaliar os métodos estudados: Hockey Fight, Media Eval 2015 e RWF-2000. Cada base de dados apresenta o conceito de violência de forma diferente, o que tornou a avaliação mais interessante e desafiadora. Conduzimos experimentos quantitativos, analisando a performance dos modelos baseados em atenção comparando-os com métodos tradicionais; e qualitativos, analisando as as pontuações de relevância produzidos pelos modelos de atenção. Os melhores resultados para cada base de dados foi obtido utilizando algum modelo baseado em atenção, demonstrando a efetividade da abordagem para o contexto de violência. Entretanto, nem todos os modelos de atenção produziram resultados melhores que abordagens tradicionais, não justificando a adição de um módulo a mais no modelo nesses casos. Por outro lado, os melhores modelos baseados em atenção atingiram melhores resultados que muitas abordagens mais caras propostas na literatura, ressaltando a vantagem da sua utilização. Destacamos que esse trabalho é o primeiro a explorar modelos baseados em atenção para a classificação de violência em vídeos Abstract: Technological advances have contributed to an increase in the sharing of videos online. Generally, this type of media is primarily focused on entertainment and has been consumed on demand. Given this large volume of information, automatic techniques of identifying the type of content contained in the videos have been studied over the years. Specifically, identifying sensitive content has grown and aims to detect and analyze sensitive events for various applications, such as violent, pornographic, grotesque content. In this work, we focus on the classification of violence in videos. In this vein, several works are proposed in the literature with solutions ranging from local descriptors to deep neural networks. Most approaches use the entire representation of the video as input to extract the appropriate features for classification. Most approaches use the entire representation of the video as input to extract the appropriate features for classification. However, in the real world, some scenes may contain noisy and irrelevant parts that confuse the algorithm. We investigated the effectiveness of attention-based models to deal with this problem. Despite the success of attention-based models in different tasks, such as speech recognition, image captioning, and machine translation, such methods have not yet been explored for the context of violence. To conduct this work, we searched in the literature some attention-based models related to video classification task, adapted to our context of violence and compared it with traditional strategies. We use the EfficientNet network, state-of-the-art for image classification, to extract features for all approaches using RGB video frames and Optical Flow as input. Also, we extended the initial implementations to work with multimodal features using the late fusion approach. After conducting a detailed survey of the violence datasets, we chose three datasets to evaluate the methods studied: Hockey Fights, MediaEval 2015, and RWF-2000. Each dataset presents a different concept of violence, which made the experiments more interesting and challenging. We conducted quantitative experiments, analyzed the performance of attention-based models, compared them with traditional methods, and qualitative, analyzing the relevance scores produced by the attention-based models. The best results for each database were obtained using some attention-based model, demonstrating the effectiveness of the approach for the context of violence. However, not all the attention-based model models have produced better results than traditional approaches, not justifying the adoption of an additional module to the model in these cases. On the other hand, the best attention-based models have achieved better results than many more expensive approaches proposed in the literature, highlighting the advantage of their use. We emphasize that this work is the first to explore attention-based models to classify violence in videos Mestrado Ciência da Computação Mestre em Ciência da Computação
Databáze: OpenAIRE