http://repositorio.unb.br/handle/10482/49787
Arquivo | Tamanho | Formato | |
---|---|---|---|
AloisioDouradoNeto_TESE.pdf | 122,55 MB | Adobe PDF | Visualizar/Abrir |
Título: | Towards complete 3D indoor scene understanding from a single point-of-view |
Autor(es): | Dourado Neto, Aloisio |
Orientador(es): | Campos, Teófilo Emídio de |
Assunto: | Visão computacional Imagem tridimensional Complementação semântica de cenas Redes neurais convolucionais |
Data de publicação: | 13-Ago-2024 |
Data de defesa: | 11-Out-2022 |
Referência: | DOURADO NETO, Aloísio.Towards complete 3D indoor scene understanding from a single point-of-view. 2022. 175 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2022. |
Resumo: | A nossa percepção visual é a habilidade de interpretar e inferir informações sobre o ambiente que nos cerca usando a luz refletida que entra em nossos olhos através da córnea e atinge a retina. Por meio do nosso sistema de visão binocular, nós podemos naturalmente realizar tarefas como identificar o tipo de ambiente no qual nos encontramos, estimar a distância dos objetos na cena e ainda identificar quais objetos são estes. Para os humanos, realizar inferências como estas sobre cenas em 3D é algo natural. Entretanto, em Visão Computacional, este é ainda um problema muito desafiador e com muito espaço para melhorias, para o qual existem inúmeras aplicações, incluindo robótica, segurança, computação assistiva, realidade aumentada e reprodução de áudio espacial imersivo. Visando contribuir para o alcance de uma compreensão automática de cenas mais efetiva e abrangente, nesta tese, nós elegemos como foco a tarefa de Complementação Semântica de Cenas (em inglês Semantic Scene Completion), por ser uma das mais completas tarefas relacionadas à compreensão de cenas, já que visa inferir a geometria completa do campo de visão da cena e os rótulos semânticos de cada um dos voxels do espaço 3D sob análise, incluindo regiões oclusas. A entrada para esta tarefa é uma imagem RGB-D, que consiste em uma imagem RGB regular adicionada de um quarto canal contendo um mapa de profundidade da cena. Tal imagem geralmente é obtida por meio de sensores de luz estruturada como o Microsoft Kinect, mas pode também ser obtida por câmeras estereoscópicas associadas a um algoritmo de estimação de profundidade. As redes profundas já atingiram os níveis de acurácia humana em uma série de tarefas da visão computacional. Entretanto, este não é o caso dos modelos de compreensão semântica de cenas. Nós identificamos quatro principais deficiências nas soluções atuais: • a parte RGB e outros modos das imagens RGB-D não são completamente explorados; • algumas técnicas de treinamento amplamente utilizadas em 2D têm sido negligenciadas em 3D; • nenhum dos trabalhos anteriores que identificamos exploraram o uso de dados não rotulados por meio de treinamento semi-supervisionado; • as soluções atuais são limitadas ao campo de visão restrito dos sensores de profundidade. Assim sendo, o objetivo geral deste trabalho é propor, implementar e avaliar novas ferramentas e modelos que possam elevar o nível das soluções em Complementação Semântica de Cenas, no sentido de uma compreensão ampla da cena. Nossos objetivos específicos são: 1. avaliar os benefícios das técnicas de adaptação domínio e treinamento semi- supervisionado no contexto de segmentação de imagens em 2D, visando posteriormente explorar o uso de dados não rotulados em 3D; 2. aplicar as tendências atuais dos protocolos de treinamento de redes 2D profundas, nas redes 3D de Complementação Semântica de Cenas; 3. propor e avaliar um novo modelo de rede 3D que utilize a informação RGB presente nas imagens RGB-D e supere os problemas de esparsidade de dados ao projetar dados em 2D para 3D; 4. propor e avaliar uma rede neural multimodal para explorar os múltiplos modos da imagem RGB-D; 5. propor e avaliar os benefícios do uso de dados não rotulados no treinamento semisupervisionado de redes 3D. 6. propor e avaliar uma solução para a realização de complementação semântica de cenas em 3D usando datasets RGB-D convencionais para treinamento. Os primeiros trabalhos de Visão Computacional remontam aos anos 70. Entretanto, dado o baixo poder computacional das máquinas da época, as tarefas possíveis de serem realizadas eram muito simples e os resultados eram pobres. Os primeiros resultados promissores começaram a surgir a partir do ano 2000, com o aumento do poder computacional, com um salto representativo em 2012, com a disponibilização de grandes bases de dados de imagens para treinamento. No Capítulo 2 detalhamos este histórico da evolução do campo da Inteligência Artificial e da Visão Computacional, desde os seus pioneiros até as grandes redes convolucionais profundas atuais. Neste capítulo, também apresentamos conceitos importantes relativos à visão 3D, estimação de profundidade e codificação de volumes, importantes para a compreensão de cenas. A capacidade de realização de inferências sobre cenas em 3D é considerada um dos problemas fundamentais da Visão Computacional e a tarefa de Segmentação Semântica de Cenas é uma das mais ambiciosas, no sentido de uma compreensão completa da cena. No Capítulo 3, referente aos trabalhos anteriores, apresentamos a bibliografia estreitamente relacionada com o nosso trabalho, com destaque para o trabalho seminal em Segmentação Semântica de Cenas que introduziu uma série de inovações, que são usadas até hoje, tais como: o uso de convoluções 3D dilatadas para ampliar o campo receptivo e ampliar a captura de contexto; a codificação F-TSDF para destacar as regiões de maior interesse da cena; e SUNCG, um dataset sintético de cenas 3D, muito útil no treinamento das redes. Além disso, o capítulo ainda apresenta trabalhos relativos à compreensão de cenas panorâmicas e os datasets utilizados neste trabalho. Considerando que o estado da arte atual para este problema utiliza redes neurais totalmente convolucionais (em inglês Fully Convolutional Network - FCN), que normalmente requerem quantidades elevadas de dados para treinamento, e considerando também a dificuldade de obtenção de dados totalmente rotulados em 3D, antes de entrar no problema de Complementação Semântica em 3D propriamente dito, no Capítulo 4, nós exploramos alternativas para contornar este dificuldade em um problema mais simples: segmentação semântica em 2D. Em 2D, nós exploramos o uso de Transferência de Aprendizado (Transfer Learning) e Adaptação de Domínio (Domain Adaptation) na tarefa de segmentação de pele. Tais conceitos foram adaptados para 3D e amplamente explorados posteriormente na tarefa de complementação semântica de cenas. Tendo em vista que as soluções anteriores de complementação semântica de cenas não exploravam completamente a informação presente na parte RGB da imagem de entrada, no Capítulo 5 nós endereçamos o problema da esparsidade ao projetar os dados RGB para 3D, por meio de uma maneira completamente nova de explorar a informação RGB presente na imagem RGB-D. A solução consiste em extrair as bordas da imagem RGB e projetá-las para 3D. Por ser uma informação binária, o volume 3D correspondente às bordas projetadas pode ser submetido ao algoritmo F-TSDF, para eliminar o problema de esparsidade. A rede 3D pode então fazer a fusão do volume proveniente do mapa de profundidade com o volume proveniente das cores. A Utilização das bordas da imagem RGB, permite detectar objetos que não seriam detectáveis nas soluções anteriores baseadas exclusivamente no mapa de profundidade, a exemplo de quadros planos ou TVs de tela plana colocados em paredes. Esta solução recebeu o nome de EdgeNet e atingiu resultados promissores na época de seu lançamento. Posteriormente, nós avançamos no uso dos dados RGB por meio das probabilidades a priori extraídas a partir de uma de rede segmentação semântica 2D. No capítulo 6, nós apresentamos SPAwN, uma solução multi-multimodal, leve e direta que que explora a segmentação semântica 2D de uma forma completamente nova. Nos trabalhos anteriores que exploravam a segmentação semântica 2D, devido ao alto consumo de memória, o procedimento comum era projetar não a saída final da rede, o que consumiria muitos recursos, mas sim, projetar as features internas da rede 2D. Outras soluções que usavam a saída da rede, eram obrigadas a aplicar algum tipo de codificação no volume projetado para reduzir seu tamanho. Ambas as soluções tinham como efeito colateral a redução do potencial semântico advindo da rede 2D. A nossa solução consiste em alimentar uma rede de segmentação 2D bimodal com dois modos da imagem RGB-D de entrada: RGB e as normais de superfície. Após isso, nós submetemos a saída da rede 2D a uma função Softmax para obter as probabilidades a priori que são projetadas para um volume 3D de baixa resolução. O terceiro modo de entrada, o mapa de profundidade, é projetado para um volume 3D de alta resolução que é codificado com F-TSDF. Os dados a priori foram usados como guia semântico enquanto o volume proveniente do mapa de profundidade fornece a base estrutural da cena. SPAwN também introduziu o uso de data augmentation aplicado diretamente aos volumes 3D. Nós completamos nossas contribuições relativas à melhoria da qualidade das inferências no Capítulo 7, combinado a técnica de Adaptação de Domínio explorada nos estágios iniciais da nossa pesquisa com a nossa rede 3D multi-modal atingindo resultados impressionantes. Em relação à cobertura da cena, que hoje é restrita ao campo de visão limitado de sensores RGB-D convencionais, como o Microsoft Kinect, no Capítulo 8, nós propusemos uma abordagem para estendê-la para 360◦ usando imagens RGB panorâmicas e mapas de profundidade obtidos a partir de sofisticados sensores de 360◦ ou a partir de câmeras panorâmicas de baixo custo, montadas em uma configuração estereoscópica. Os resultados promissores obtidos com a abordagem proposta foram usados com sucesso em um sistema de reprodução de áudio espacial imersivo. Nossos estudos preliminares em 2D foram publicados na 34th SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI 2021). Nossas contribuições no domínio 3D foram publicadas em 3 conferências de visão computacional de alto nível: International Conference on Pattern Recognition (ICPR 2020); IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2022); e Conference on Computer Vision Theory and Applications (VISAPP 2020); O sistema de reprodução de áudio espacial imersivo usando a nossa solução 3D em 360◦ foi publicado na revista Virtual Reality Journal (VIRE). |
Abstract: | While reasoning about scenes in 3D is a natural task for humans, it remains a challenging problem in Computer Vision, despite the great advances we have seen in the last few decades. Automatic understanding of the complete 3D geometry of an indoor scene and the semantics of each occupied 3D voxel many applications, such as robotics, surveillance, assistive computing, augmented reality, and immersive spatial audio reproduction. With this research project, we intend to contribute to enhancing the current computational results on scene understanding, both in accuracy and coverage. We focus on the task of Semantic Scene Completion, one of the most complete tasks related to scene understanding, as it aims to infer the complete 3D geometry and the semantic labels of each voxel in a scene, including occluded regions. In this thesis, we formulate and access a series of hypotheses to improve current Before getting into the problem of 3D SSC, we explored Domain Adaptation methods to address problems related to the scarcity of labeled training data in image segmentation tasks in 2D to further apply to 3D. In the 3D SSC domain, we introduced and evaluated a completely new way to explore the RGB information provided in the RGB-D input and complement the depth information. We showed that this leads to an enhancement in the segmentation of hard-to-detect objects in the scene. We further advanced in the use of RGB data by using semantic priors from the 2D image as semantic guidance to the 3D segmentation and completion in a multi-modal data-augmented 3D FCN. We complete the contributions related to quality improvement by combining a Domain Adaptation technique accessed in the earlier stages of the research to our multi-modal network with impressive results. Regarding the scene coverage, which today is restricted to the limited field of view of regular RGB-D sensors like Microsoft Kinect, we complete our contributions with a new approach to extend the current methods to 360◦ using panoramic RGB images and corresponding depth maps from 360-degree sensors or stereo 3D 360-degree cameras. |
Unidade Acadêmica: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Informações adicionais: | Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. |
Programa de pós-graduação: | Programa de Pós-Graduação em Informática |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Agência financiadora: | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.