BERT self-learning approach with limited labels for document classification of a Brazilian Army’s administrative documentary set

Joaquim, Carlos Eduardo de Lima

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/44785

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2022_CarlosEduardodeLimaJoaquim.pdf		2,86 MB	Adobe PDF	Visualizar/Abrir

Título:	BERT self-learning approach with limited labels for document classification of a Brazilian Army’s administrative documentary set
Autor(es):	Joaquim, Carlos Eduardo de Lima
Orientador(es):	Faleiros, Thiago de Paulo
Assunto:	Aprendizado semissupervisionado Processamento de linguagem natural (Computação) Autoaprendizado Exército brasileiro
Data de publicação:	12-Set-2022
Data de defesa:	29-Abr-2022
Referência:	JOAQUIM, Carlos Eduardo de Lima. BERT self-learning approach with limited labels for document classification of a Brazilian Army’s administrative documentary set. 2022. xvi, 68 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2022.
Resumo:	O considerável aumento na velocidade de produção documental e, consequentemente, no volume de dados não estruturados armazenados nas instalações do Exército Brasileiro, especificamente na forma de documentos administrativos, acrescido da necessidade de consciência situacional por parte dos Comandos, além da observação da legislação arquivística vigente, impõe a execução de processos capazes de classificar documentos. Neste diapasão, o Processamento de Linguagem Natural (NLP) surge como um importante recurso na persecução dos objetivos relativos à classificação documental, mostrandose meio adequado para o desenvolvimento de pesquisa que vise à classificação de documentos considerando a realidade da produção documental atual, onde sobeja considerável número de amostras documentais não rotuladas. Observado o fato de que os mais poderosos modelos NLP desenvolvidos baseiam-se em técnicas de aprendizado supervisionado, as quais exigem considerável número de amostras rotuladas, resta o desafio de encontrar modelo capaz de classificar conjunto de dados de uma Organização Militar (OM), parcialmente rotulado, de acordo com o Modelo de Requisitos para Sistemas Informatizados de Gestão Arquivística de Documentos (e-ARQ Brasil), alcançando performance equivalente ao nível humano. Objetivou-se desenvolver, durante a condução da presente pesquisa, a expansão do modelo BERT, com a substituição do estágio supervisionado de ajuste fino por um método de autoaprendizagem, realizando-se a mensuração da performance resultante para porcentagens específicas do conjunto de dados, inicialmente compreendidas entre 3% e 30% do total de amostras rotuladas. Os resultados obtidos permitiram vislumbrar a aplicabilidade do método proposto nas bases de dados de documentos do Exército Brasileiro. Concomitantemente, no estudo de caso em tela, foi possível verificar performance compatível com as necessidades existentes, sendo o método proposto capaz de classificar de forma equivalente à capacidade humana, apresentando melhores resultados que os experimento de referência, com ganhos maiores à medida em que o número de amostras rotuladas disponíveis decresce.
Abstract:	The remarkable acceleration in the production speed of documents and, consequently, in the volume of unstructured data stored at the Brazilian Army facilities, specifically in the form of administrative documents, plus the need of situational awareness by the Commanders, in addition to the observation of the archival legislation, requires processes that enable the capacity of classifying documents. In this sense, Natural Language Processing (NLP) stands as an important asset in the pursuit of objectives related to document classification, proving to be an adequate means for developing research that aims to classify documents considering the reality of current document production, where there is a considerable number of unlabeled document samples. Given the fact that the most powerful NLP models are based on supervised learning techniques, which require a considerable number of labeled samples, the challenge remains to find a model capable of classifying a partially labeled set of data from a Military Organization (OM), according to the Requirements Model for Computerized Document Management Systems (e-ARQ Brazil), reaching a human-level performance. It was intended to develop, during the course of this research, the expansion of the BERT model, with the substitution of the supervised fine-tuning stage by a self-learning method, analyzing the resulting performance for specific percentages of the dataset, initially ranging from 3% to 30% of the total labeled samples. The achieved results allowed us to perceive that the proposed method is applicable to the Brazilian Army’s document databases. Concomitantly, in the case study in question, it was possible to verify that the performance of the proposed method is compatible with the existing needs, being able to perform classifications equivalent to the human capacity, presenting better results than the experiments of reference, with greater gains as the number of available labeled samples decreases.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2022.
Programa de pós-graduação:	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas