Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio2.unb.br/jspui/handle/10482/47825
Arquivos associados a este item:
Arquivo TamanhoFormato 
WagnerMirandaCosta_DISSERT.pdf5,32 MBAdobe PDFVisualizar/Abrir
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorPedrosa, Glauco Vitorpt_BR
dc.contributor.authorCosta, Wagner Mirandapt_BR
dc.date.accessioned2024-02-21T21:36:21Z-
dc.date.available2024-02-21T21:36:21Z-
dc.date.issued2024-02-21-
dc.date.submitted2023-12-21-
dc.identifier.citationCOSTA, Wagner Miranda. Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU. 2023. xiv, 55 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023.pt_BR
dc.identifier.urihttp://repositorio2.unb.br/jspui/handle/10482/47825-
dc.descriptionDissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.pt_BR
dc.description.abstractJurisprudência se refere ao conjunto de decisões reiteradas sobre determinado assunto, constituindo uma espécie de precedente judicial. No âmbito do Tribunal de Contas da União (TCU), órgão responsável por exercer o controle externo da Administração Pública Federal, a jurisprudência representa as interpretações consolidadas das normas aplicáveis à fiscalização financeira e operacional das contas públicas dos órgãos e entidades da União. Uma vez que a elaboração da jurisprudência é definida a partir de um agrupamento de acórdãos similares, é relevante desenvolver ferramentas automatizadas que auxiliem os especialistas responsáveis por esta atividade. Porém, essa é uma tarefa desafiadora para a área da computação, devido às especificidades do vocabulário presente nos textos dos acórdãos e ao volume massivo de dados a serem processados. Sendo assim, é necessário desenvolver abordagens escaláveis, eficazes e eficientes, e que possuam baixo custo computacional. Este trabalho apresenta o estudo e implementação de algumas abordagens para a representação desses documentos textuais, tanto em nível de palavra quanto em nível de conceito. Como contribuição, foi proposta uma nova abordagem denominada BoC-Th (Bag of Concepts with Thesaurus), que gera histogramas ponderados de conceitos definidos a partir da distância das palavras do documento ao seu respectivo termo similar dentro de um tesauro. Esta abordagem permite enfatizar palavras com maior significado no contexto, gerando, assim, vetores mais discriminativos. Realizaram-se avaliações experimentais comparando a abordagem proposta com as abordagens tradicionais para representação de documentos. O método proposto obteve resultados superiores entre as técnicas avaliadas para recuperação de documentos jurisprudenciais. O BoC-Th aumentou a precisão média em comparação às abordagens tradicionais, incluindo a versão original BoC (Bag of Concepts), ao mesmo tempo que foi mais rápido que as representações tradicionais BoW, BM25 e TF-IDF. A abordagem proposta contribuiu para enriquecer uma área com características peculiares, fornecendo um recurso para recuperação de informações textuais de forma mais precisa e rápida do que outras técnicas baseadas em processamento de linguagem natural.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).pt_BR
dc.language.isoporpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleSimilaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCUpt_BR
dc.typeDissertaçãopt_BR
dc.subject.keywordProcessamento de linguagem natural (Computação)pt_BR
dc.subject.keywordRecuperação da informaçãopt_BR
dc.subject.keywordRepresentação vetorial de documentospt_BR
dc.subject.keywordJurisprudênciapt_BR
dc.subject.keywordWord EmbeddingsTribunal de Contas da União (TCU)pt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1Jurisprudence refers to the set of repeated decisions on a given subject, constituting a type of judicial precedent. Within the scope of the Federal Audit Court (TCU), the body responsible for exercising external control of the Federal Public Administration, jurisprudence represents the consolidated interpretations of the rules applicable to the financial and operational supervision of the public accounts of the Union’s bodies and entities. Since the elaboration of jurisprudence is defined based on a grouping of similar rulings, it is important to develop automated tools that assist the specialists responsible for this activity. However, this is a challenging task for the area of computing, due to the specificities of the vocabulary present in the texts of the rulings and the massive volume of data to be processed. Therefore, it is necessary to develop scalable, effective and efficient approaches that have low computational cost. This work presents the study and implementation of some approaches for representing these textual documents, both at the word level and at the concept level. As a contribution, a new approach called BoC-Th (Bag of Concepts with Thesaurus) was proposed, which generates weighted histograms of concepts defined based on the distance of the words in the document to their respective similar term within a thesaurus. This approach allows us to emphasize words with greater meaning in the context, thus generating more discriminative vectors. Experimental evaluations were carried out comparing the proposed approach with traditional approaches for document representation. The proposed method obtained superior results among the techniques evaluated for recovering jurisprudential documents. BoC-Th increased average accuracy compared to traditional approaches, including the original BoC (Bag of Concepts), while also being faster than traditional BoW, BM25, and TF-IDF representations. The proposed approach contributed to enriching an area with peculiar characteristics, providing a resource for retrieving textual information more accurately and quickly than other techniques based on natural language processing.pt_BR
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Computação Aplicada, Mestrado Profissionalpt_BR
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro simples do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.