Reconhecimento de entidades nomeadas para conteúdo publicado em diários oficiais com base em uma abordagem de supervisão fraca

Mota, Lucélia Vieira

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/49827

Arquivos associados a este item:

Arquivo	Tamanho	Formato
LuceliaVieiraMota_DISSERT.pdf	3,87 MB	Adobe PDF	Visualizar/Abrir

Título:	Reconhecimento de entidades nomeadas para conteúdo publicado em diários oficiais com base em uma abordagem de supervisão fraca
Autor(es):	Mota, Lucélia Vieira
Orientador(es):	Faleiros, Thiago de Paulo
Assunto:	Entidades nomeadas - reconhecimento Diários Oficiais Entidades nomeadas - extração Processamento de linguagem natural (Computação)
Data de publicação:	13-Ago-2024
Data de defesa:	14-Dez-2023
Referência:	MOTA, Lucélia Vieira. Reconhecimento de entidades nomeadas para conteúdo publicado em diários oficiais com base em uma abordagem de supervisão fraca. 2023. 95 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2023.
Resumo:	O Reconhecimento de Entidade Nomeada em português é uma tarefa desafiadora, especialmente em textos formais e oficiais, como Licitações e Contratação Pública. A anotação manual desses textos é cara, demorada e requer conhecimento específico no domínio. Este estudo propõe a criação de um corpus anotado de Licitação e Contratação Pública utilizando métodos de supervisão fraca (SF). Estes métodos empregam técnicas de aprendizado de máquina semi-supervisionados para extrair entidades nomeadas de textos não anotados. A aplicação dos métodos fracamente supervisionados, combinando o uso de anotações fracas e funções de rótulo de conhecimentos heurísticos, correspondência de palavras e modelos de aprendizado de máquina pré-treinados desempenham um papel crucial na tarefa de NER, especialmente em cenários nos quais grandes quantidades de dados anotados não estão disponíveis, são caros de obter ou são impraticáveis de rotular manualmente. Assim, adotou-se uma metodologia que possibilitou a geração de um corpus de Licitação e Contratação Pública e a validação desse corpus com um corpus formal anotado manualmente. Para validação deste estudo foram realizados experimentos com modelos CRF, Bi-LSTM-CNN e SF para NER. Os resultados do modelo Bi-LSTM, treinado com os dados provenientes da supervisão fraca, demonstraram um desempenho significativo, atingindo um F1 Score médio de 84,3%, contra apenas 0,756% da base ouro. Notavelmente, o destaque foi para o treinamento do Bi-LSTM-CNN com os dados gerados pela supervisão fraca do ato extrato de contrato, alcançando um impressionante F1 Score de 96%, superando os 95% obtidos com os dados da base ouro. No entanto, o cenário mais desafiador foi observado no contexto do extrato de convênio, onde a aplicação das FR de supervisão fraca resultou em um F1 Score de apenas 47%, em comparação com os 66,9% alcançados pelo CRF sobre a base ouro, acredita-se que esses resultados foram afetados devido a pouca quantidade exemplos no corpus. Os resultados obtidos demonstram que a combinação de NER e SF produz um corpus de alta qualidade com menos esforço que a anotação manual. Assim, é possível afirmar que o mecanismo de programação do de dados da SF é uma ferramenta promissora para a geração de corpora anotados em português, especialmente em domínios específicos como Licitação e Contratação Pública. Ela acelera o desenvolvimento de ferramentas de NER, reduzindo o tempo e o custo da anotação manual. Este estudo pode ser aplicado para melhoria da ferramenta de NER para o português, desenvolvimento de sistemas de informação para o setor público e extração de informação de documentos de Licitação e Contratação Pública.
Abstract:	Named Entity Recognition in Portuguese is a challenging task, especially in formal and official texts, such as Bidding and Public Procurement. Manual annotation of these texts is expensive, time-consuming, and requires specific domain knowledge. This study proposes the creation of an annotated corpus of Bidding and Public Procurement using weak supervision methods (WS). These methods employ semi-supervised machine learning techniques to extract named entities from unlabeled texts. The application of weakly supervised methods, combining the use of weak annotations and label functions of heuristic knowledge, word matching, and machine learning, plays a crucial role in the NER task, especially in scenarios where large amounts of annotated data are not available, are expensive to obtain, or are impractical to label manually. Thus, a methodology was adopted that enabled the generation of a corpus of Bidding and Public Procurement and the validation of this corpus with a manually annotated gold standard corpus. To validate this study, experiments were conducted with CRF, Bi-LSTM-CNN e WS para NER. The results of the Bi-LSTM-CNN model, trained with weak supervision data, showed significant performance, achieving an average F1 Score of 84.3%, compared to only 0.756% of the gold standard base. Notably, the highlight was the training of the Bi-LSTM-CNN with weak supervision data for the contract extract act, achieving an impressive F1 Score of 96%, surpassing the 95% obtained with the gold standard data. However, the most challenging scenario was observed in the context of the covenant extract, where the application of weak supervision functions resulted in an F1 Score of only 47%, compared to the 66.9% achieved by CRF on the gold standard base, it is believed that these results were affected due to the small number of examples in the corpus. The results obtained demonstrate that the combination of NER and WS produces a high-quality corpus with less effort than manual annotation. Thus, it can be stated that WS data programming is a promising tool for generating annotated corpora in Portuguese, especially in specific domains such as Bidding and Public Procurement. It accelerates the development of NER tools, reducing the time and cost of manual annotation. This study can be applied to improve NER tools for Portuguese, develop information systems for the public sector, and extract information from Bidding and Public Procurement documents.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas