http://repositorio.unb.br/handle/10482/52049
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
2024_PauloCelioSoaresDaSilvaJunior_DISSERT.pdf | 2,94 MB | Adobe PDF | Visualizar/Abrir |
Título : | Classificação de petições iniciais no Conselho Nacional do Ministério Público |
Autor : | Silva Júnior, Paulo Célio Soares da |
Orientador(es):: | Faleiros, Thiago de Paulo |
Assunto:: | Processamento de linguagem natural (Computação) Ministério Público Aprendizado profundo |
Fecha de publicación : | 14-abr-2025 |
Data de defesa:: | 20-dic-2024 |
Citación : | SILVA JÚNIOR, Paulo Célio Soares da. Classificação de petições iniciais no Conselho Nacional do Ministério Público. 2024. 98 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024. |
Resumen : | Este trabalho propõe a aplicação de técnicas de Processamento de Linguagem Natural, utilizando modelos de linguagem baseados em BERT, para melhorar a classificação de petições iniciais do Conselho Nacional do Ministério Público (CNMP). Os modelos BERTimbau e Albertina PT-BR demonstraram desempenho superior aos algoritmos tradicionais de aprendizado de máquina, evidenciando a eficácia do ajuste fino desses modelos para a tarefa de classificação conforme as classes processuais definidas no artigo 37 do Regimento Interno do CNMP. A pesquisa integrou estratégias de pré-processamento, como digitalização e limpeza textual, além de técnicas de sumarização abstrativa com RAG e LLM, que contribuíram significativamente para o desempenho dos classificadores. Também foi explorada a técnica de Data Augmentation para balanceamento de dados, a qual mostrou impacto positivo nos classificadores tradicionais, especialmente no SVM combinado com vetorização por embeddings, e aprimorou o desempenho do modelo Albertina PT-BR. Os resultados indicam que o ajuste fino de modelos BERT é uma alternativa eficaz para a classificação de petições iniciais, superando abordagens tradicionais de aprendizado de máquina. A pesquisa demonstrou eficácia e inovação na classificação de textos no contexto do Ministério Público brasileiro. |
Abstract: | This work proposes the application of Natural Language Processing techniques, using BERT-based language models, to improve the classification of initial petitions by the National Council of the Public Ministry (CNMP). The BERTimbau and Albertina-PTBR models demonstrated superior performance compared to traditional machine learning algorithms, highlighting the effectiveness of fine-tuning these models for the classification task according to the procedural classes defined in Article 37 of the CNMP’s Internal Regulations. The research integrated preprocessing strategies, such as digitization and text cleaning, as well as abstractive summarization techniques with RAG and LLM, which significantly contributed to the classifiers’ performance. The Data Augmentation technique for data balancing was also explored, showing a positive impact on traditional classifiers, especially SVM combined with embeddings vectorization, and improved the performance of the Albertina PT-BR model. The results indicate that fine-tuning BERT models is an effective alternative for classifying initial petitions, surpassing traditional machine learning approaches. The research demonstrated effectiveness and innovation in text classification within the context of the Brazilian Public Ministry. |
metadata.dc.description.unidade: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Descripción : | Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Brasília, 2024. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional |
Licença:: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Aparece en las colecciones: | Teses, dissertações e produtos pós-doutorado |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.