A three layer system for audio-visual quality assessment

Autor: Becerra Martinez, Helard Alberto
Přispěvatelé: Farias, Mylene Christine Queiroz de
Rok vydání: 2019
Předmět:
Zdroj: Repositório Institucional da UnB
Universidade de Brasília (UnB)
instacron:UNB
Popis: Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). As métricas objetivas de avaliação de qualidade de sinais tem o objetivo de prever a qualidade dos sinais percebida pelo ser humano. Uma das áreas de qualidade de maior interesse nos últimos anos é o desenvolvimento de métricas de qualidade para sinais áudio-visuais. A maioria das propostas nesta área estão baseadas na aferição da qualidade individual das componentes de áudio e vídeo. Porém, o modelamento da complexa interação existente entre as componentes de áudio e vídeo ainda é um grande desafio. Nesta tese, o objetivo é desenvolver uma métrica, baseado em ferramentas de aprendizado de máquina (Machine Learning - ML), para a aferição da qualidade de sinais áudio-visuais. A proposta utiliza como entrada um conjunto de características descritivas das componentes de áudio e vídeo e aplica Deep Autoencoders para gerar um novo conjunto de características descritivas que representa a interação entre as componentes de áudio e vídeo. O modelo está composto por várias fases, que realizam diferentes tarefas. Primeiramente, são extraídos um conjunto de características descritivas que descrevem características das componentes de áudio e vídeo. Na próxima fase, um autoencoder de duas camadas produz um novo conjunto de características descritivas. Em seguida, uma função de classificação mapeia as características descritivas em escores de qualidade audiovisual. Para garantir a precisão nos resultados, o modelo é treinado utilizando um conjunto de dados que representa todos os artefatos considerados no modelo. O modelo foi testado tanto com no banco de dados gerado neste trabalho, como em uma base de dados extensa e pública. Os resultados mostraram que esta abordagem obtém predições de qualidade, cujos valores estão altamente correlacionadas com os escores de qualidade obtidos em experimentos subjetivos. The development of models for quality prediction of both audio and video signals is a fairly mature field. But, although several multimodal models have been proposed, the area of audiovisual quality prediction is still an emerging area. In fact, despite the reasonable performance obtained by combination and parametric metrics, currently there is no reliable pixel-based audiovisual quality metric. The approach presented in this work is based on the assumption that autoencoders, fed with descriptive audio and video features, might produce a set of features that is able to describe the complex audio and video interactions. Based on this hypothesis, we propose a set of multimedia quality metrics: video, audio and audiovisual. The visual features are natural scene statistics (NSS) and spatial-temporal measures of the video component. Meanwhile, the audio features are obtained by computing the spectrogram representation of the audio component. The model is formed by a 2-layer framework that includes an autoencoder layer and a classification layer. These two layers are stacked and trained to build the autoencoder network model. The model is trained and tested using a large set of stimuli, containing representative audio and video artifacts. The model performed well when tested against the UnB-AV and the LiveNetflix-II databases.
Databáze: OpenAIRE