Deep Active Learning Approaches to the task of Named Entity Recognition

Silva Neto, José Reinaldo da Cunha Santos Aroso Vieira da

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/42729

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2021_JoséReinaldodaCunhaSantosArosoVieiradaSilvaNeto.pdf		896,44 kB	Adobe PDF	Visualizar/Abrir

Título:	Deep Active Learning Approaches to the task of Named Entity Recognition
Autor(es):	Silva Neto, José Reinaldo da Cunha Santos Aroso Vieira da
Orientador(es):	Faleiros, Thiago de Paulo
Assunto:	Aprendizagem ativa Auto-aprendizagem Classificação sequencial Redes neurais profundas Reconhecimento de entidades nomeadas
Data de publicação:	11-Jan-2022
Data de defesa:	4-Nov-2021
Referência:	SILVA NETO, José Reinaldo da Cunha S. A. V. da. Deep Active Learning Approaches to the task of Named Entity Recognition. 2021. 83 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2021.
Resumo:	Introdução Redes neurais profundas são o atual estado da arte para uma grande variedade de desafios em áreas como processamento de linguagem natural e visão computacional, mas necessitam de uma grande quantidade de dados rotulados para serem treinadas para atingir tais resultados. Algoritmos de aprendizagem ativa baseados em redes neurais profundas foram projetados para reduzir a quantidade de dados rotulados que são necessários para treinar estes modelos. Nesta dissertação, nós investigamos a literatura de aprendizagem ativa, buscando pontos a serem trabalhados. Da nossa investigação da literatura, identificamos que os trabalhos atuais utilizam conjuntos de validação para a realização de early stopping do treinamento do modelo durante a execução do algoritmo de aprendizagem ativa. Em cenários onde possuimos poucos dados rotulados, especialmente no começo da execução do algortimo de aprendizagem ativa, não é desejável utilizar dados rotulados para a criação de um conjunto de validação que não será efetivamente utilizado para o treinamento do modelo. Desta forma, um dos objetivos deste trabalho é apresentar uma possível solução para substituir a técnica de early stopping com conjunto de validação. Uma segunda motivação para este trabalho é reduzir o custo de anotação manual de dados durante o algoritmo de aprendizagem ativa. Para isto, iremos investigar a possibilidade de utilizar o modelo treinado para realizar rotulação automática de alguns dados não rotulados. Trabalhos atuais da literatura propuseram soluções de rotulação automática a nível de sentenças, onde sentenças completas são selecionadas para serem rotuladas pelo modelo. Nesta dissertação iremos avaliar também a auto rotulação a nível de palavras, que permite que o modelo e o humano rotulem palavras de uma mesma sentença. Dadas as motivações apresentadas, propusemos 4 hipóteses de pesquisa como possíveis soluções. A primeira hipótese propõe uma estratégia de early stopping que não utiliza o v conjunto de validação. A segunda e terceira hipóteses são relacionadas à investigação da rotulação automática a nível de sentenças. A quarta hipótese é relacionada à investigação da rotulação automática a nível de palavras. As hipóteses propostas são: 1. Nós propomos a estratégia DUTE para a realização de early stopping sem a utilização de um conjunto de validação. Nós esperamos que a estratégia DUTE proposta seja competitiva com técnicas tradicionais de early stopping mas sem utilizar dados de validação. 2. Nós propomos um algoritmo de aprendizagem ativa com auto rotulação a nível de sentenças que é robusto à escolha do conjunto inicial de dados rotulados. Nós hipotetizamos que nosso algoritmo proposto terá um desempenho superior ao da literatura, tanto em desempenho do modelo treinado quanto em qualidade dos dados rotulados automaticamente. 3. Nós propomos substituir a técnica de auto rotulação tradicional, por técnicas de selftraining mais sofisticadas da literatura semi supervisionada. Nós hipotetizamos que a utilização de técnicas mais sofisticadas de self-training irá melhorar o desempenho do modelo treinado. 4. Nós propomos a utilização de auto rotulação somente nas palavras para as quais o modelo possui grande confiança nas suas predições, ao invés de rotular sentenças completas. Nós esperamos que ao identificarmos palavras que podem ser rotuladas pelo modelo de forma segura em uma sentença selecionada para o humano anotar, é possível reduzir de forma significativa o custo de anotação manual do algoritmo de aprendizagem ativa. Nós propomos um experimento para cada hipótese. Os quatro experimentos são descritos a seguir. Experimento 1 O primeiro experimento compara o impacto de diferentes técnicas de early stopping em um algoritmo de aprendizagem ativa baseada em redes neurais. Nós comparamos técnicas de early stopping tradicionais baseadas em métricas que utilizam o conjunto de validação (e.g. f1-score, loss) e a técnica batch gradient disparity proposta na literatura com a nossa estratégia DUTE. Dos resultados apresentados, identificamos que nossa técnica utiliza mais épocas de treinamento quando comparada às técnicas tradicionais. No entanto, a estratégia DUTE possui melhor desempenho quando comparada à técnica batch gradient disparity, que também não utiliza dados de validação. Desta forma, demonstramos que a vi nossa estratégia proposta pode ser utilizada em cenários de poucos recursos onde dados rotulados são escassos e a criação de um conjunto de validação é indesejável. Experimento 2 No segundo experimento, nós propomos um algoritmo de aprendizagem ativa com rotulação automática a nível de sentenças que é robusto à escolha do conjunto inicial de dados rotulados. Nosso algoritmo possui duas diferenças significativas, quando comparado ao algoritmo da literatura. A primeira diferença é que os dados rotulados pelo humano são separados dos dados rotulados pelo modelo. Isto nos permite dar um peso menor para os dados rotulados automaticamente durante o treinamento do modelo, pois estes podem ser ruidosos. A segunda diferença é que os dados rotulados de forma automática são devolvidos ao conjunto de dados não rotulados após o treinamento do modelo, permitindo a reanotação destes dados. O experimento 2 consiste, então, na comparação entre o algoritmo da literatura e o nosso algoritmo proposto, ambos com auto rotulação a nível de sentenças. Para demonstrar a sensibilidade do algoritmo da literatura ao conjunto inicial de dados rotulados, nós esperamos que uma porcentagem do conjunto de treinamento seja rotulado de forma manual antes de permitir a auto rotulação pelo modelo. Nós realizamos testes com a auto rotulação iniciando com 1%, 5%, 10% e 15% do conjunto de treinamento rotulado. Os resultados do experimento mostraram que tanto o desempenho do modelo final quanto a qualidade dos dados rotulados automaticamente crescem de acordo com o tamanho do conjunto inicial de dados rotulados manualmente. Também observamos que o nosso algoritmo proposto é robusto à escolha do conjunto inicial de dados rotulados. Ele é capaz de treinar um modelo com desempenho superior aos modelos treinados pelo algoritmo da literatura, e de rotular menos dados de forma incorreta. Experimento 3 No terceiro experimento, nós investigamos o impacto de diferentes técnicas de self-training no nosso algoritmo proposto no experimento 2. Nós avaliamos três técnicas de selftraining da literatura semi-supervisionada, sendo elas: (1) cross-view training[14], (2) virtual adversarial training[40], e (3) word dropout[14]. Dos resultados obtidos, nós pudemos observar que nenhuma das técnicas obteve resultados consistentemente superiores à baseline que é o algoritmo de aprendizagem ativa sem self-training. Algumas técnicas como a cross-view training e a virtual adversarial training obtém resultados melhores em iterações iniciais do algoritmo quando comparadas à baseline, mas acabam obtendo resultados piores nas iterações finais. vii Experimento 4 O quarto experimento investiga a possibilidade de realizar a auto-rotulação a nível de palavras. A auto-rotulação a nível de sentenças, utilizada nos experimentos anteriores, identificava sentenças não rotuladas que poderiam ser completamente anotadas pelo modelo de forma confiável. Neste experimento, nós iremos identificar as palavras, dentro das sentenças selecionadas para rotulação manual, que podem ser rotuladas pelo modelo de forma segura. Desta forma, o humano não precisa rotular todas as palavras das sentenças selecionadas pelo algoritmo de aprendizagem ativa, pois algumas das palavras serão rotuladas de forma automática. A baseline para comparação será o algoritmo de aprendizagem ativa sem rotulação automática. Os resultados do experimento 4 demonstraram que a solução de auto rotulação a nível de palavras foi capaz de treinar um modelo com desempenho similar ao treinado pela baseline mas com uma redução significativa na quantidade de dados rotulados manualmente. Mais especificamente, para os datasets CoNLL2003, OntoNotes5.0 e Aposentadoria, a redução foi de 29, 24%, 14, 37%, e 3, 95%, respectivamente. Conclusão Dos quatro experimentos realizados percebemos que a estratégia DUTE é uma solução viável para substituir técnicas de early stopping em algoritmo de aprendizagem ativa. Das desvantagens desta estratégia, podemos citar que ela não é capaz de identificar overfitting do modelo, uma vez que ela foi projetada para acelerar a simulação do algoritmo de aprendizagem ativa. Desta forma, a definição dos parâmetros do modelo neural e do treinamento supervisionado (e.g. épocas de treinamento máximo) devem ser escolhidos de forma cautelosa. O segundo experimento mostrou que nosso algoritmo de aprendizagem ativa com rotulação automática a nível de sentenças é mais robusto à escolha do conjunto inicial de dados rotulados, quando comparado ao algoritmo da literatura. Ao contrário do esperado, nosso algoritmo proposto não é capaz de melhorar significadamente o desempenho do modelo com menos dados rotulados, como mostrado no Experimento 3. Mesmo técnicas mais sofisticadas de self-training, não foram capazes de melhorar o desempenho do modelo treinado ao utilizar os dados não rotulados. O quarto experimento, no entanto, nos mostra que é possível utilizar rotulação automática a nível de palavras para reduzir de forma significativa o custo de anotação manual. O algoritmo proposto foi capaz de treinar um modelo neural ao seu pico de desempenho utilizando até 29, 24% menos dados rotulados manualmente quando comparado ao algoritmo de aprendizagem ativa sem auto rotulação. viii Trabalhos futuros Grande parte dos trabalhos atuais da literatura em aprendizagem ativa estudam funções de sampling, estratégias para selecionar os dados mais interessantes do conjunto de dados não rotulados. Estes trabalhos focam em acelerar a convergência dos algoritmos de aprendizagem ativa, treinando modelos ao seu pico de desempenho com a menor quantidade de dados rotulados possível. No entanto, algoritmos de aprendizagem ativa possuem uma série de questões práticas de implementação ainda não resolvidas. Um dos problemas mais sérios é a seleção dos hyperparâmetros do modelo e do treinamento supervisionado. No início do algoritmo de aprendizagem ativa normalmente não há dados de validação para identificar estes parâmetros. Desta forma, áreas de pesquisa como autoML e tuning de parâmetros de forma não supervisionada estão fortemente relacionadas à implementação de algoritmos de aprendizagem ativa em cenários reais. Outra direção de pesquisa é a busca por métricas capazes de identificar overfitting do modelo, sem a utilização de dados de validação. Desta forma seria possível realizar o early stopping do treinamento do modelo de forma confiável, sem a necessidade de um conjunto de validação. Podem ser realizados, também, outros experimentos com auto rotulação a nível de palavras. Uma possibilidade é estender a técnica de refinamento de predições para uma versão iterativa, capaz de reduzir a quantidade de tokens incorretos.
Abstract:	Deep neural networks are the current state-of-the-art for a variety of challenging tasks in fields such as natural language processing and computer vision, but they rely on big labeled datasets to be trained to achieve such results. Deep active learning algorithms have been designed to reduce the amount of labeled data to train these models. This dissertation identifies shortcomings of the current works from the literature on deep active learning algorithms applied to the task of named entity recognition, and proposes potential solutions to them. In particular, current works from the literature rely on validation sets to apply early stopping of the model training during the active learning process. In low resource scenarios, however, separating labeled samples in order to create a validation set is undesirable. Therefore, we propose the Dynamic Update of Training Epochs (DUTE) strategy that acts as an unsupervised early stopping technique. Experimental results suggest that the proposed DUTE strategy is capable of maintaining the trained model’s performance, when compared to traditional early stopping techniques, while not relying on validation sets. We also investigate self-labeling as a viable option to further reduce the annotation costs in active learning scenarios. In particular, we experiment with sentence-level and token-level self-labeling strategies. It was observed that despite significant efforts, sentence-level self-labeling did not incur a significant improvement over previous works from the literature. However, token-level self-labeling has shown promising results by training models that achieve similar performance to the current state-of-the-art works on deep active learning from the literature while requiring significantly less hand annotated data. More specifically, experiments performed on the CoNLL2003 dataset have shown that the proposed token-level self-labeling strategy trained a neural model to near peak performance using 29.24% less hand annotated data.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas