Unsupervised domain adaptation for real world person re-identification

Pereira, Tiago de Carvalho Gallo

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/44278

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_TiagodeCarvalhoGalloPereira.pdf		10,88 MB	Adobe PDF	Visualizar/Abrir

Título:	Unsupervised domain adaptation for real world person re-identification
Autor(es):	Pereira, Tiago de Carvalho Gallo
Orientador(es):	Campos, Teófilo Emídio de
Assunto:	Visão computacional Aprendizado profundo Aprendizado de métricas Adaptação de domínio
Data de publicação:	15-Jul-2022
Data de defesa:	11-Mar-2022
Referência:	PEREIRA, Tiago de Carvalho Gallo. Unsupervised domain adaptation for real world person re-identification. 2022. xv, 79 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2022.
Resumo:	Os avanços da tecnologia e a globalização da industrialização democratizaram o acesso a equipamentos de alta qualidade. Câmeras de segurança seguem essa tendência e se um dia elas foram consideradas um equipamento de luxo utilizado apenas por grandes empreendimentos ou condomínios, hoje não é mais assim. Qualquer pequeno comércio ou residência já possuem um conjuto de câmeras para monitorar os seus arredores. No entanto, as câmeras por si só não conseguem prover um monitoramento inteligente, elas apenas geram dados que podem ser analisados, em tempo real ou posteriormente. Uma vez que alocar pessoas para monitorar as câmeras em tempo real é custoso, algoritmos de visão computacional são a solução para extrair informações em tempo real dos dados coletados. Métodos de visão computacional como re-identificação de pessoas, reconhecimento de ações suspeitas e reconhecimento facial são fundamentais para auxiliar nesse monitoramento inteligente de ambientes. Em específico, a re-identificação de pessoas é um método que visa indicar se duas imagens são da mesma pessoa ou não. Dessa forma, esse é um método extremamente valioso para grandes empreendimentos como shoppings ou aeroportos, pois ele permite manter um histórico da movimentação de cada pessoa dentro da área monitorada. Caso houvesse alguma ocorrência de segurança, o responsável pelo monitoramento do ambiente não precisaria rever os vídeos de todas as câmeras para entender o ocorrido, ele poderia apenas verificar a movimentação do infrator. A grande maioria dos métodos propostos para esses algoritmos não visa a utilização desses em ambientes reais, mas sim em otimizar os resultados em bases de dados criadas para fazer benchmarks. Logo, quando esses algoritmos são utilizados em situações reais, eles apresentam performance muito inferiores às apresentadas nos testes. Há três caminhos possíveis para resolver essa diferença de performance: a) criar uma base de dados do ambiente real e especializar o algoritmo nessa base de dados, b) criar algortimos robustos a variações de ambiente ou c) criar métodos que adaptem esses algoritmos para novos ambientes de forma automatizada. Independente do caminho escolhido para solucionar esse problema, o insumo necessário para criar tal solução são imagens de pessoas passando em frente a câmeras de segurança.
Abstract:	In the world where big data reigns and there is plenty of hardware prepared to gather a huge amount of non structured data, data acquisition is no longer a problem. Surveillance cameras are ubiquitous and they capture huge numbers of people walking across different scenes. However, extracting value from this data is challenging, specially for tasks that involve human images, such as face recognition and person re-identification. Annotation of this kind of data is a challenging and expensive task. In this work we propose Unsupervised Domain Adaptation (UDA) methods for person Re-Identification (Re-ID) that rely on target domain samples to model the marginal distribution of the data. To deal with the lack of target domain labels, UDA methods leverage information from labelled source samples and unlabelled target samples. Firstly, we propose a baseline method that may use Resnet-50 or AlignedReID++ as backbone, trained using a Triplet loss with batch hard. The domain adaptation is done in two phases: 1) using a GAN generated intermediate dataset that leverages from the source domain labels and approximate the source samples appearance to be similar to the target domain samples, and 2) using pseudo-labels generated with an unsupervised learning strategy. Next, we realised that the quality of the clusters clearly plays a major role in the method’s performance, however this point has been overlooked by the majority of methods, including our first approach. Therefore, we propose a multi-step pseudo-label refinement method to select the best possible clusters and keep improving them so that these clusters become closer to the class divisions without knowledge of the class labels. Our refinement method includes a cluster selection strategy and a camera-based normalisation method which reduces the within-domain variations caused by the use of multiple cameras in person Re-ID. This allows our method to reach state-of-the-art UDA results on DukeMTMC → Market1501 (source → target). We surpass state-of-the-art for UDA Re-ID by 1.6% on Market1501 → DukeMTMC datasets, which is a more challenging adaptation setup because the target domain (DukeMTMC) has eight distinct cameras. Furthermore, the camera-based normalisation method causes a significant reduction in the number of iterations required for training convergence. Our results show that domain adaptation techniques really improve the model performance when applied in the target domain. Also, these techniques unlock the person Re-ID use for real world problems, once they may be automated to adapt a model for new unseen scenarios while maintaining its original performance. Num mundo dominado pelo Big Data a aquisição de dados não é mais um problema, pois há inúmeros equipamentos preparados para captar uma grande quantidade de dados não estruturados. Câmeras de segurança são onipresentes e capturam várias imagens de pessoas andando pelos mais diversos cenários. No entanto, extrair valor de dados não estruturados é desafiador, especialmente para tarefas que envolvem imagens de pessoas. A anotação desses dados é um processo extremamente complexo e caro, portanto a criação de bases de dados específicas para cada ambiente não é vista com bons olhos. A criação de algoritmos robustos a variações de ambiente seria a solução ideal, no entanto as pesquisas desse tema apontam que ainda estamos muito distantes de alcançar tal feito. Logo, técnicas de adaptação de domínio que permitam adaptar os algoritmos para novos cenários de forma automatizada têm sido muito estudadas tanto na academia quanto na indústria. Nesse trabalho, propomos técnicas não supervisionadas de adaptação de domínio para a re-identificação de pessoas, visando reduzir a lacuna de performance entre a pesquisa de re-identificação de pessoas e as aplicações reais. Essas técnicas buscam modelar a distribuição dos dados do domínio alvo (ambiente de aplicação), utilizando apenas imagens provenientes desse novo cenário, sem ter acesso as anotações dessas imagens. Para lidar com essa falta de anotações no domínio alvo, os métodos de adaptação de domínio também utilizam imagens e anotações de um domínio fonte (base de dados anotada) para auxiliar no aprendizado dos algoritmos. Os métodos de re-identificação de pessoas utilizados nesse trabalho usam redes neurais convolucionais para extrair features das imagens das pessoas. O treinamento dessas redes neurais é realizado de forma que as features extraídas das imagens pertençam a um espaço vetorial Euclidiano, onde features provenientes de imagens de uma mesma pessoa estão próximas e features provenientes de imagens de pessoas distintas estão distantes. Ao treinar a rede neural em uma base de dados, ela aprende características específicas daquela base de dados para resolver o problema em questão, por isso ao aplicar essas redes em novas bases a performance decai. No caso específico da re-identificação de pessoas, uma das principais características que a rede neural precisa ter é a capacidade de diferenciar o que é o fundo da imagem do que é uma pessoa. Por exemplo, uma base de dados pode ter várias imagens que apresentam grama no fundo, logo a rede neural aprende a diferenciar grama de pessoas. Ao aplicar essa rede neural em um ambiente onde o fundo das imagens apresenta paredes, essa rede pode ter problemas de diferenciar o que é informação de parede do que é informação de pessoas. O reflexo disso na reidentificação de pessoas é que o espaço Euclidiano da saída da rede tenderá a agrupar features de imagens proveninete da mesma câmera, ao invés de features provenientes de imagens da mesma pessoa. Em nossa primeira abordagem, propomos um método agnostico a arquitetura de redes neurais utilizada como base. Portanto, utilizamos a arquitetura clássica Resnet-50 e a arquitetura AlignedReID++ proposta por Luo et al. em nossos experimentos para analisar como diferentes arquiteturas se comportam frente ao nosso método. Em ambos os casos realizamos o treinamento utilizando a função de custo Triplet com a estratégia batch hard para gerarmos esse espaço vetorial Euclidiano com a features de saída das redes neurais. A adaptação de domínio proposta é feita em duas etapas: • 1) Uma GAN (rede neural especializada em gerar imagens) é utilizada para alterar a aparência das imagens do domínio fonte de forma que elas se aparentem com as imagens do domínio alvo. Desta forma criamos um domínio intermediário que contém as anotações do domínio fonte e imagens com aparências próximas as do domínio alvo; • 2) Métodos de clusterização não supervisionados são utilizados para gerar pseudo anotações (clusters) no domínio alvo. A partir dessas pseudo anotações somos capazes de retreinar a nossa rede neural nas imagens reais do domínio alvo. Com essa primeira abordagem conseguimos melhorar a performance dos algoritmos ao aplicarmos em novos domínios. No entanto, não nos atentamos a qualidade das pseudo anotações (clusters) gerada. Portanto, não fomos capazes de extrair todo o potencial do método e atingirmos resultados que se aproximassem do estado da arte. Ao percebermos que a qualidade dos clusters são cruciais para a performance do método, por mais que esse fator tenha sido subestimado pela maioria dos métodos existentes. Nós propomos um novo método para refinar as pseudo anotações utilizando múltiplas etapas, que consistem em selecionar os melhores clusters possíveis e continuar melhorando a qualidade deles para que eles se aproximem da real anotação dos dados. Nosso método de refinamento consiste em uma estratégia de seleção de clusters e em uma normalização guiada pelas câmeras que reduz a variância intra-domínio causada pelo uso de múltiplas câmeras na re-identificação de pessoas. Esse novo método elevou nossos resultados a um novo patamar, com ele alcançamos o estado da arte da adaptação de domínio não supervisionada para re-identificação de pessoas nas bases de dados DukeMTMC → Market1501 (fonte → alvo). Para as bases de dados Market1501 → DukeMTMC nós ultrapassamos o estado da arte em 1.6%, essa combinação de bases de dados representa um desafio maior de adaptação, pois o domínio alvo (DukeMTMC) conta com oito câmeras distintas. Além do mais, nossa normalização guiada por câmeras gera uma redução significante na quantidade de iterações necessárias para atingir a convergência durante o treinamento. Nossos resultados mostram que as técnicas de adaptação de domínio são capazes de melhorar significativamente a performance dos modelos quando aplicados no domínio alvo. Ademais, essas técnicas permitem que a re-identificação de pessoas possa ser usada em casos reais, pois elas automatizam o processo de adaptação do modelo para novos cenários enquanto mantém a performance muito próxima a do original do modelo.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022.
Programa de pós-graduação:	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas