Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/19890
Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2015_LucasBorgesMonteiro.pdf2,44 MBAdobe PDFVisualizar/Abrir
Título: Ligação de entidades : uma nova abordagem para ligação de conceitos concretos com entidades Wiki utilizando modelos de espaço vetorial
Autor(es): Monteiro, Lucas Borges
Orientador(es): Weigang, Li
Assunto: Modelo vetorial
Wikipédia
Ligação de Entidades (LE) - (Informática)
Data de publicação: 7-Abr-2016
Referência: MONTEIRO, Lucas Borges. Ligação de entidades: uma nova abordagem para ligação de conceitos concretos com entidades Wiki utilizando modelos de espaço vetorial. 2015. [98] f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2015.
Resumo: Ligação de Entidades (LE) é um importante tópico de pesquisa com diversas aplicações web. Apesar do crescente interesse o foco ainda tem sido a identificação de nomes próprios, isto é, pessoas, organizações, lugares, unidades de medida, etc. O principal desafio aqui é encontrar conceitos concretos (sentenças sem classe de entidade pré-definida) em textos da web conectando-os às respectivas páginas da Wikipédia. Este trabalho apresenta uma nova abordagem para ligar conceitos concretos obtidos de textos em Inglês com entidades Wiki, neste trabalho representadas por páginas da Wikipédia, utilizando classificação gramatical (part-of-speech) para detectar conceitos concretos e Modelos de Espaço Vetorial (MEV) para realizar a desambiguação das entidades Wiki selecionadas da base. A solução, denominada UnBWiki VSM, foi implementada em Java, por meio da IDE Eclipse, com banco de dados MySQL onde a base de entidades foi armazenada. O framework proposto foi ajustado para trabalhar com uma base de Wikilinks, referências para páginas da Wikipédia extraídas de diferentes páginas da web, contendo por volta de 2,8 milhões de entidades e 18 milhões de palavras, e obteve recall 34,2% superior ao obtido pela metodologia existente que utilizou os mesmos dados/entidades. Como estudo de caso, textos sobre a História da Família Real Britânica extraídos da web foram analisados manualmente, e o recall de 73,5% obtido pela ferramenta UnBWiki VSM foi ainda maior do que o verificado na comparação com o estado da arte.
Abstract: Entity Linking (EL) is an important research topic with several web applications. Despite the growing interest the focus also has been on the identification of proper names, i.e, people, organizations, places, units of measure, and others. The main challenge here is to find concrete concepts (sentences without predefined entity class) on web texts by linking them to their respective pages of Wikipedia. This paper presents a new approach to connect concrete concepts taken from texts in English with Wiki entities, in this work represented by the Wikipedia pages, using classification part-of-speech to detect concrete concepts and Vector Space Models (VSM) to perform the disambiguation of entities selected from Wiki base. The solution, called UnBWiki VSM, was implemented in Java using the Eclipse IDE with MySQL database where the base of entities was stored. The proposed framework was adjusted to work with a Wikilinks database, references to Wikipedia pages drawn from different web pages, containing approximately 2.8 million entities and 18 million words, and obtained recall 34.2% higher than the existing methodology that used the same data/entities. As a case study, Royal Family History texts extracted from the web were analyzed manually, and the recall of 73.5% obtained by UnBWiki VSM tool was greater than that observed in comparison with the state of the art.
Unidade Acadêmica: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Informações adicionais: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015.
Programa de pós-graduação: Programa de Pós-Graduação em Informática
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
DOI: http://dx.doi.org/10.26512/2015.08.D.19890
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.