Campo DC | Valor | Idioma |
dc.contributor.advisor | Mendonça, Fábio Lúcio Lopes de | pt_BR |
dc.contributor.author | Almeida, Lucas Coelho de | pt_BR |
dc.date.accessioned | 2024-02-28T21:21:46Z | - |
dc.date.available | 2024-02-28T21:21:46Z | - |
dc.date.issued | 2024-02-28 | - |
dc.date.submitted | 2022-12-16 | - |
dc.identifier.citation | ALMEIDA, Lucas Coelho de. Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet. 2022. xii, 114 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2022. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/47942 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2022. | pt_BR |
dc.description.abstract | A digitalização das relações e da informação têm aumentado a capacidade do ser humano de
produzir dados de forma exponencial. Contudo, na mesma taxa em que novos dados são criados, é
cada vez mais necessário também compreender e garimpar grandes bases de dados, inclusive sem
qualquer estrutura ou formatação e com propósitos diversos. Nesse contexto, o uso de técnicas
de indexação de dados usando motores de busca (do inglês Search Engines) e de interpretação
de conjuntos de dados com o objetivo de classificá-los e categorizá-los se mostra indispensável
para cenários de Big Data e Data Lake, em que a informação pode vir de diversas fontes com
características técnicas e semânticas diferentes, exigindo classificações multi-classe e técnicas
de processamento de linguagem natural, comumente designadas por técnicas de NLP (do inglês
Natural Language Processing).
Adicionalmente, é preciso entender se as ferramentas de classificação têm viés e se os resultados são úteis e condizentes com o esperado, especialmente em contextos de investigação de
crimes digitais. Esse é o problema da transparência da tomada de decisão, ou seja, da clara e/ou
legível representação dos parâmetros que levaram a máquina a uma determinada decisão/classificação. Um sistema de investigação ideal, portanto, deveria ser capaz de indexar grandes bases de
dados, entender a semântica e ser passível de adaptação/aprendizagem para atuar em diferentes
cenários, e ao final do processo, ainda fornecer resultados enriquecidos com os parâmetros que
levaram a máquina a tomar determinadas decisões para posterior auditoria da transparência no
processo.
Portanto, esta dissertação tem como objetivo propor uma arquitetura fim a fim de um motor de
busca que indexe e use interpretações metasemânticas baseadas em técnicas de processamento de
linguagem natural em dados oriundos de páginas Web, de forma a prover, também, exemplos de
parâmetros similares às classificações derivadas das amostras. O prefixo ”meta” no termo ”metasemântica” se refere a um conjunto de técnicas de classificação, predição e enriquecimento de
dados aplicados para emular o processo de indexação semântica, porém preservando a auditabilidade do processo. Para efeito de validação da proposta, foram criadas amostras de páginas Web
e utilizou-se bases de dados oficiais para treinamentos de instâncias de aprendizado de máquina
para simulação de contextos reais de aplicação do projeto.
Como resultado, a validação mostra como o motor de busca proposto permite o armazenamento e processamento de dados sem formatação originários de páginas Web e aumenta a velocidade e objetividade com que investigações passam a ser realizadas e auditadas em contextos de
processamento de linguagem natural, especialmente relevantes para contextos de crimes digitais. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet | pt_BR |
dc.title.alternative | Proposal for a metasemantic search engine as a tool for investigating data obtained via the internet | en |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Motores de busca | pt_BR |
dc.subject.keyword | Recuperação de dados (Computação) | pt_BR |
dc.subject.keyword | Processamento de linguagem natural (Computação) | pt_BR |
dc.subject.keyword | Análise de dados | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | The digitization of relationships and information has increased human beings’ ability to produce
data exponentially. However, at the same rate at which new data is created, it is increasingly necessary to understand and mine large databases, even without any structure or formatting and with
different purposes. In this context, the use of data indexing techniques using search engines and
the interpretation of datasets with the aim of classifying and categorizing them proves to be indispensable for scenarios of Big Data and Data Lake, where information can come from different
sources with different technical and semantic characteristics, requiring multi-class classifications
and natural language processing techniques, commonly known as NLP techniques, called Natural
Language Processing techniques.
Additionally, it is necessary to understand whether the classification tools are biased and
whether the results are useful and consistent with expectations, especially in cybercrime investigation contexts. This is the problem of decision-making transparency, that is, the clear and/or
legible representation of the parameters that led the machine to a certain decision/classification.
An ideal research system, therefore, should be able to index large databases, understand the semantics and be subject to adaptation/learning to act in different scenarios, and at the end of the
process, still provide results enriched with the parameters that led to machine to make certain
decisions for subsequent auditing of transparency in the process.
Therefore, this dissertation aims to propose an end-to-end architecture of a search engine that
indexes and uses metasemantic interpretations based on natural language processing techniques
on data from Web pages, in order to also provide examples of parameters similar to the classifications derived from the samples. The ”meta” prefix in the term ”metasemantics” refers to a set
of classification, prediction and data enrichment techniques applied to emulate the semantic indexing process, while preserving the auditability of the process. For the purpose of validating the
proposal, samples of Web pages were created and official databases were used to train instances
of machine learning to simulate real contexts of application of the project.
As a result, the validation shows how the proposed search engine allows the storage and
processing of plain data originating from Web pages and increases the speed and objectivity
with which investigations are carried out and audited in language processing contexts natural,
especially relevant to cybercrime contexts. | pt_BR |
dc.description.unidade | Faculdade de Tecnologia (FT) | pt_BR |
dc.description.unidade | Departamento de Engenharia Elétrica (FT ENE) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|