A three layer system for audio-visual quality assessment

Becerra Martinez, Helard Alberto

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Farias, Mylène Christine Queiroz de	-
dc.contributor.author	Becerra Martinez, Helard Alberto	-
dc.date.accessioned	2019-08-15T20:37:34Z	-
dc.date.available	2019-08-15T20:37:34Z	-
dc.date.issued	2019-08-15	-
dc.date.submitted	2019-02-11	-
dc.identifier.citation	BECERRA MARTINEZ, Helard Alberto. A three layer system for audio-visual quality assessment. 2019. xiii, 141 f., il. Tese (Doutorado em Informática)—Universidade de Brasília, Brasília, 2019.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/35306	-
dc.description	Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.	pt_BR
dc.description.abstract	As métricas objetivas de avaliação de qualidade de sinais tem o objetivo de prever a qualidade dos sinais percebida pelo ser humano. Uma das áreas de qualidade de maior interesse nos últimos anos é o desenvolvimento de métricas de qualidade para sinais áudio-visuais. A maioria das propostas nesta área estão baseadas na aferição da qualidade individual das componentes de áudio e vídeo. Porém, o modelamento da complexa interação existente entre as componentes de áudio e vídeo ainda é um grande desafio. Nesta tese, o objetivo é desenvolver uma métrica, baseado em ferramentas de aprendizado de máquina (Machine Learning - ML), para a aferição da qualidade de sinais áudio-visuais. A proposta utiliza como entrada um conjunto de características descritivas das componentes de áudio e vídeo e aplica Deep Autoencoders para gerar um novo conjunto de características descritivas que representa a interação entre as componentes de áudio e vídeo. O modelo está composto por várias fases, que realizam diferentes tarefas. Primeiramente, são extraídos um conjunto de características descritivas que descrevem características das componentes de áudio e vídeo. Na próxima fase, um autoencoder de duas camadas produz um novo conjunto de características descritivas. Em seguida, uma função de classificação mapeia as características descritivas em escores de qualidade audiovisual. Para garantir a precisão nos resultados, o modelo é treinado utilizando um conjunto de dados que representa todos os artefatos considerados no modelo. O modelo foi testado tanto com no banco de dados gerado neste trabalho, como em uma base de dados extensa e pública. Os resultados mostraram que esta abordagem obtém predições de qualidade, cujos valores estão altamente correlacionadas com os escores de qualidade obtidos em experimentos subjetivos.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).	pt_BR
dc.language.iso	Inglês	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	A three layer system for audio-visual quality assessment	pt_BR
dc.type	Tese	pt_BR
dc.subject.keyword	Qualidade audiovisual	pt_BR
dc.subject.keyword	Sistemas multimídia	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	The development of models for quality prediction of both audio and video signals is a fairly mature field. But, although several multimodal models have been proposed, the area of audiovisual quality prediction is still an emerging area. In fact, despite the reasonable performance obtained by combination and parametric metrics, currently there is no reliable pixel-based audiovisual quality metric. The approach presented in this work is based on the assumption that autoencoders, fed with descriptive audio and video features, might produce a set of features that is able to describe the complex audio and video interactions. Based on this hypothesis, we propose a set of multimedia quality metrics: video, audio and audiovisual. The visual features are natural scene statistics (NSS) and spatial-temporal measures of the video component. Meanwhile, the audio features are obtained by computing the spectrogram representation of the audio component. The model is formed by a 2-layer framework that includes an autoencoder layer and a classification layer. These two layers are stacked and trained to build the autoencoder network model. The model is trained and tested using a large set of stimuli, containing representative audio and video artifacts. The model performed well when tested against the UnB-AV and the LiveNetflix-II databases.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado