GeMGF : Generic Multimodal Gradient-Based Meta Framework

Enamoto, Liriam Michi

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/49811

Arquivos associados a este item:

Arquivo	Tamanho	Formato
LiriamMichiEnamoto_TESE.pdf	2,53 MB	Adobe PDF	Visualizar/Abrir

Título:	GeMGF : Generic Multimodal Gradient-Based Meta Framework
Outros títulos:	GeMGF : Meta Framework Multimodal baseado em Gradiente
Autor(es):	Enamoto, Liriam Michi
Orientador(es):	Weigang, Li
Assunto:	Multimodalidade Framework Meta-aprendizagem Aprendizagem profunda
Data de publicação:	13-Ago-2024
Data de defesa:	13-Abr-2023
Referência:	ENAMOTO, Liriam Michi. GeMGF - Generic Multimodal Gradient-Based Meta Framework. 2023. 118 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2023.
Resumo:	O surgimento do Transformer, um modelo pré-treinado utilizando dados em larga escala, e as suas recentes novas versões têm revolucionado as pesquisas de Machine Learning em linguagem de processamento natural e visão computacional. Os excelentes resultados obtidos pelos modelos baseados em Transformer dependem de dados rotulados de altaqualidade e de um domínio específico em estudo. No entanto, devido à diversidade de situações em que esses modelos são utilizados, é desafiador criar modelos que aprendam a partir de um conjunto limitado de dados. O modelo pode apresentar falta de generalização, vieses de linguagem e falta de imparcialidade causados pelos modelos pré-trainados o que pode levar a resultados inesperados em aplicações do mundo real. Este problema não resolvido nos levou à pesquisar sobre Multimodal Few-Shot Learning. Foi efetuada uma revisão sistemática abrangente na literatura em que 138 trabalhos publicados após 2019 sobre Multimodal Few-Shot Learning foram selecionados. Selecionamos 19 artigos finais divididos em dois grupos. O primeiro grupo é representado pelos modelos que utilizam um grande conjunto de dados para o treinamento (Teacher Network) e transfere o conhecimento adquirido para executar a tarefa principal (Student Network). Neste grupo, podemos citar como exemplo o Transformer. O segundo grupo utiliza diversos métodos: (i) aprendizado baseado em otimização; (ii) Graph Neural Network (GNN); (iii) Generative Adversarial Network (GAN); (iv) Zero-Shot Learning (ZSL). Uma análise detalhada sobre a metodologia, vantagens e desvantagens das abordagens de Multimodal Few-Shot Learning em cada um dos 19 artigos nos permitiu identificar os problemas ainda não endereçados. As lacunas encontradas na revisão sistemática nos levou a desenvolver o Generic Multimodal Gradient-Based Meta Framework (GeMGF). Para compensar a falta de dados, utilizamos dados multimodais em que informações suplementares e complementares de uma modalidade podem auxiliar na representação dos dados. Os dados multimodais são extraídos utilizando modelos de deep leaning e então representados em um espaço vetorial unificado. Abordamos o problema do aprendizado com poucos dados através de duas perspectivas: modelo e dados. Considerando a perspectiva do modelo, o algoritmo pode ter dificuldade de generalização no aprendizado supervisionado caso os dados nunca vistos utilizados no conjunto de teste não estiverem contidos no conjunto de treinamento. Este problema foi endereçado por meio do meta-learning em dois níveis de aprendizado: baselearner e o meta-learner. Considerando a perspectiva dos dados, a falta de dados de treinamento foi compensado pelo aprendizado multimodal em que informações complementares de uma modalidade podem ajudar na representação dos dados. O principal objetivo do aprendizado multimodal é criar uma abstração da representação unificada das diferentes modalidades. A representação de dados multimodais apresenta alguns desafios dada a heterogeneidade da estrutura, tamanho e dimensão dos dados das diversas modalidades. Neste processo, a escolha do tipo de fusão multimodal é importante para permitir o alinhamento ou fusão entre os dados heterogêneos de cada modalidade. Entrando em mais detalhes sobre a perspectiva do modelo, o GeMGF é composto pelo base-learner e o meta-learner. O base-learner é repensável pela extração e representação dos dados multimodais, composto por quatro sub-modelos: (i) image embedding (submodelo 1); (ii) text embedding (sub-modelo 2); (iii) multimodal embedding (sub-modelo 3); e (iv) Multimodal Few-Shot Learning) (sub-modelo 4). O Residual Neural Network (ResNet) foi utilizado para a extração de imagens por ser adaptável conforme a disponibilidade de recurso computacional. Utilizamos o ResNet30, contendo apenas 30 identity blocks. O Bidirectional Long Short-Term Memory (BiLSTM) foi utilizado para a extração de textos por permitir capturar o contexto do time step do passado e do futuro em textos longos. Após a extração dos dados, o modelo aprende o alinhamento entre imagem e texto integrando os dados em um mesmo espaço vetorial para reduzir o gap semântico entre as modalidades. Utilizamos a fusão a nível de decisão em que os dados de cada modalidade são extraídos separadamente e cada modalidade possui um classificador específico. Então o Prototypical Network e o Relation Network são utilizados para aprender a relação entre o protótipo de cada classe e os dados do query set. O meta-learner é responsável por atualizar periodicamente os parâmetros do baselearner por meio do Reptile — um meta-learner baseado em otimização. O Reptile e o Few-Shot Learning (FSL) auxiliam a otimizar o aprendizado do framework, mesmo utilizando poucos dados para o treinamento. A configuração do GeMGF como um todo reduz a dependência de um dataset rotulado com grande volume de dados. Adicionalmente ao framework multimodal, criamos a versão unimodal para avaliar a sua flexibilidade e adaptabilidade em diferentes cenários. O framework foi validado por meio de dez conjuntos de dados de diversas áreas: textos curtos do Twitter, textos longos da área jurídica, textos com caracteres alfabéticos (inglês e português) e não-alfabéticos (japonês), imagens da área médica e dados multimodais. O framework unimodal para texto foi validado por meio de oito conjunto de dados, sendo cinco conjuntos de dados reais de diversas áreas (EN-T, Tweet250, JP-T, Livedoor e DEC6). Utilizamos também três conjuntos de dados benchmark para comparação (20NG, Oxford-102 e CUB-200-2011). Por meio dos experimentos, analisamos a dependência do framework da qualidade, quantidade, idioma do texto e distribuição dos dados entre as classes. O framework unimodal superou o modelo baseline em sete conjunto de dados (EN-T, Tweet250, JP-T, Livedoor, DEC6, CUB-200-2011 e Oxford-102), sendo que o GeMGF unimodal superou tanto o modelo baseline como o Transformer BERT com os conjunto de dados CUB-200-2011 e Tweet250. O framework unimodal para texto alcançou resultados excelentes com dados textuais em japonês, superando o modelo Transformer BERT em 58,30% com 90,90% menos parâmetros. Este excelente resultado sugere que a rica representação dos caracteres em japonês (kanji) auxiliou a criar um protótipo de classe de qualidade, porém é necessário uma investigação mais aprofundada para analisar o resultado. O framework unimodal para imagem foi validado por meio de dois conjuntos de dados da área médica (COVID19 e Malaria) e dois conjunto de dados benchmark (Oxford-102 e CUB-200-2011). O GeMGF para imagem atingiu resultados similares ao modelo EfficientNet V2 somente com o conjunto de dados COVID19. O EfficientNet V2 se beneficiou do conhecimento adquirido no pré-treinamento utilizando ImageNet que possui 1,2 milhões de imagens de 1000 classes diferentes, inclusive flores e pássaros contidos nos conjuntos de dados Oxford-102 e CUB-200-2011. O framework multimodal superou em 1,43% o modelo estado-da-arte de Munjal et al. 2023 com CUB-200-2011, e superou em 1,93% o modelo de Pahde et al. 2021 com Oxford102. O resultado do framework multimodal foi 34,68% superior ao framework unimodal para imagem com CUB-200-2011, e 13,96% superior com Oxford-102. Os resultados sugerem que a combinação de dados textuais e imagens podem auxiliar no aprendizado e na melhoria da performance do framework como um todo. Para analisar o impacto de quatro componentes do GeMGF, efetuamos as seguintes ablation analyses: (i) Relation Network; (ii) image embedding (sub-modelo 1); (iii) text embedding (sub-modelo 2); e (iv) tipo de fusão multimodal. O Relation Network foi o componente de maior impacto e foi validado por meio da substituição pela distância euclidiana. O framework obteve uma acuária 109,90% superior com o Relation Network quando comparado à distância euclidiana com CUB-200-2011 e 97,54% superior com Oxford-102. O resultado sugere que o Relation Network auxilia o modelo a aprender a relação entre o protótipo da classe e os dados do query set de forma mais eficiente. O tipo de fusão multimodal foi o segundo componente de maior impacto. Ao substituir a fusão a nível de decisão pela fusão a nível de características, a acurácia do framework diminuiu em 41,63% com CUB-200-2011 e 43,56% com Oxford-102. O resultado sugere que a escolha da fusão multimodal é um dos fatores chaves no aprendizado multimodal. O terceiro componente de maior impacto no GeMGF foram os dados textuais, validados por meio do congelamento das camadas treináveis do text embedding (sub-modelo 2). Observou-se uma diminuição na acurácia de 45,10% com CUB-200-2011 e 36,92% com Oxford-201. O componente de menor impacto no framework multimodal foram os dados de imagens, validados por meio do congelamento das camadas treináveis do image embedding (submodelo 1). Observou-se um decréscimo na acurácia de 5,15% com CUB-200-2011 e 7,46% com Oxford-201. Esse baixo impacto pode ser explicado pela arquitetura compacta do image embedding (sub-modelo 1) composto pelo ResNet30 contendo somente três milhões de parâmetros. A arquitetura deste sub-modelo poderia ser melhorado aumentando a profundidade do ResNet e utilizando conhecimento externo por meio de pré-trinamento, porém esta mudança acarretaria em um aumento no custo computacional. O impacto ambiental causado pelo treinamento de modelos complexos tem chamado a atenção da comunidade acadêmica devido ao aumento das emissões de carbono proveniente de data centers. Muitos modelos de machine learning são treinados em serviços na nuvem, incluindo o nosso framework que foi treinado no Google Colab. Consideramos a preocupação de criar modelos pequenos e compactos bastante relevante, pois o treinamento desses modelos coletivamente podem contribuir para o aumento das emissões de carbono. Efetuamos a medição do consumo de recurso computacional do GeMGF por meio de dois fatores: o número de parâmetros treináveis e a quantidade de operações de ponto flutuante (FLOP). O GeMGF multimodal utiliza 14 milhões de parâmetros 99,8% a menos que o Multimodal Transformer. As principais contribuições desta pesquisa são: (i) um novo framework FSL multimodal que reduz a degradação do modelo quando treinado com poucos dados; (ii) GeMGF é treinado sem utilizar o conhecimento externo evitando vieses de linguagem e a falta de imparcialidade; (iii) GeMGF possui extratores de dados multimodais independentes e flexíveis que podem contribuir para aumentar a sua aplicabilidade; e (iv) o GeMGF unimodal para texto pode ser adaptado para idiomas alfabéticos e não-alfabéticos com ótimos resultados. Como trabalhos futuros, pretendemos melhorar o modelo nos seguintes aspectos: (i) fornecer transparência e confiabilidade nos resultados por meio de Explainable Model; e (ii) aprofundar a análise do modelo utilizando multi-idiomas, especialmente idiomas asiáticos.
Abstract:	The emergence of Transformer — a model pre-trained over a large-scale dataset — and the recent new versions have revolutionized research in Machine Learning, especially in Natural Language Processing (NLP) and Computer Vision. The excellent results of Tranformer-based models depend on labeled and high-quality domain specific data. However, due to the diversity of contexts in which these models are used, it is challenging to create models that learn from limited data. The model may suffer from a lack of generalization, language bias, and fairness issues caused by large pre-trained models, resulting in unexpected outcomes in real-world applications. This open problem leads to research in multimodal Few-Shot Learning (FSL). In this thesis, we devised the Generic Multimodal Gradient-Based Meta Framework (GeMGF). To compensate for the scarcity of data, we use multimodal data in which supplementary and complementary information of one modality can help the data representation. The multimodal data are extracted using deep learning models and represented in a unified vector space. The framework uses the Prototypical Network and Relation Network in the FSL. The Reptile — an optimization-based meta-learner — helps avoid model degradation with unseen data. In addition to the multimodal framework, we created the unimodal version to evaluate the flexibility and adaptability of the framework in different scenarios. The framework was evaluated using ten datasets from various domains and characteristics, including short texts from Twitter, legal domain long text, text with alphabetic (English and Portuguese) and non-alphabetic (Japanese) languages, medical domain images, and multimodal benchmark datasets. Our multimodal framework was evaluated using CUB-200-2011 and Oxford-102 datasets, outperforming the state-of-the-art model of Munjal et al. [1] by 1.43% with CUB-200-2011 and Pahde et al. [2] by 1.93% with Oxford-102. The result of the multimodal framework with CUB-200-2011 was 34.68% higher than the unimodal framework for image and 13.96% higher with Oxford-102. The results suggest that text and image data jointly helped the framework learn rich information and improve overall performance. The multimodal GeMGF is a simple and compact framework using only 14 million parameters, 99.8% less than the Multimodal Trans former. The unimodal framework for text achieved excellent results with the Japanese dataset, outperforming Transformer BERT by 58.30% with 90.90% fewer parameters. These results suggest that our framework achieved better performance with a significant computational cost reduction. The main contributions of our research are: (i) a novel multimodal FSL framework, GeMGF is developed to reduce the model degradation trained over a few data; (ii) GeMGF is trained without external knowledge avoiding language bias and fairness issues; (iii) GeMGF has independent and flexible feature extractors that enhance its applicability; and (iv) the unimodal framework for text can be adapted to process alphabetic and nonalphabetic languages with high performance.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas