Campo DC | Valor | Idioma |
dc.contributor.advisor | Farias, Mylène Christine Queiroz de | - |
dc.contributor.author | Becerra Martinez, Helard Alberto | - |
dc.date.accessioned | 2019-08-15T20:37:34Z | - |
dc.date.available | 2019-08-15T20:37:34Z | - |
dc.date.issued | 2019-08-15 | - |
dc.date.submitted | 2019-02-11 | - |
dc.identifier.citation | BECERRA MARTINEZ, Helard Alberto. A three layer system for audio-visual quality assessment. 2019. xiii, 141 f., il. Tese (Doutorado em Informática)—Universidade de Brasília, Brasília, 2019. | pt_BR |
dc.identifier.uri | http://repositorio.unb.br/handle/10482/35306 | - |
dc.description | Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019. | pt_BR |
dc.description.abstract | As métricas objetivas de avaliação de qualidade de sinais tem o objetivo de prever a qualidade
dos sinais percebida pelo ser humano. Uma das áreas de qualidade de maior interesse
nos últimos anos é o desenvolvimento de métricas de qualidade para sinais áudio-visuais.
A maioria das propostas nesta área estão baseadas na aferição da qualidade individual
das componentes de áudio e vídeo. Porém, o modelamento da complexa interação existente
entre as componentes de áudio e vídeo ainda é um grande desafio. Nesta tese, o
objetivo é desenvolver uma métrica, baseado em ferramentas de aprendizado de máquina
(Machine Learning - ML), para a aferição da qualidade de sinais áudio-visuais. A proposta
utiliza como entrada um conjunto de características descritivas das componentes
de áudio e vídeo e aplica Deep Autoencoders para gerar um novo conjunto de características
descritivas que representa a interação entre as componentes de áudio e vídeo. O
modelo está composto por várias fases, que realizam diferentes tarefas. Primeiramente,
são extraídos um conjunto de características descritivas que descrevem características das
componentes de áudio e vídeo. Na próxima fase, um autoencoder de duas camadas produz
um novo conjunto de características descritivas. Em seguida, uma função de classificação
mapeia as características descritivas em escores de qualidade audiovisual. Para garantir
a precisão nos resultados, o modelo é treinado utilizando um conjunto de dados que representa
todos os artefatos considerados no modelo. O modelo foi testado tanto com no
banco de dados gerado neste trabalho, como em uma base de dados extensa e pública. Os
resultados mostraram que esta abordagem obtém predições de qualidade, cujos valores
estão altamente correlacionadas com os escores de qualidade obtidos em experimentos
subjetivos. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | Inglês | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | A three layer system for audio-visual quality assessment | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | Qualidade audiovisual | pt_BR |
dc.subject.keyword | Sistemas multimídia | pt_BR |
dc.subject.keyword | Aprendizagem de máquina | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The development of models for quality prediction of both audio and video signals is a
fairly mature field. But, although several multimodal models have been proposed, the
area of audiovisual quality prediction is still an emerging area. In fact, despite the reasonable
performance obtained by combination and parametric metrics, currently there is
no reliable pixel-based audiovisual quality metric. The approach presented in this work
is based on the assumption that autoencoders, fed with descriptive audio and video features,
might produce a set of features that is able to describe the complex audio and video
interactions. Based on this hypothesis, we propose a set of multimedia quality metrics:
video, audio and audiovisual. The visual features are natural scene statistics (NSS) and
spatial-temporal measures of the video component. Meanwhile, the audio features are obtained
by computing the spectrogram representation of the audio component. The model
is formed by a 2-layer framework that includes an autoencoder layer and a classification
layer. These two layers are stacked and trained to build the autoencoder network model.
The model is trained and tested using a large set of stimuli, containing representative
audio and video artifacts. The model performed well when tested against the UnB-AV
and the LiveNetflix-II databases. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|