Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores

Rocha, Nathaly Cristine Leite

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/48940

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2023_NathalyCristineLeiteRocha_DISSERT.pdf		2,62 MB	Adobe PDF	Visualizar/Abrir

Título:	Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores
Autor(es):	Rocha, Nathaly Cristine Leite
Orientador(es):	Martins, Dalton Lopes
Assunto:	Indexação Recuperação da informação Organização da informação
Data de publicação:	17-Jul-2024
Data de defesa:	21-Dez-2023
Referência:	ROCHA, Nathaly Cristine Leite. Indexação automática de documentos digitais: uma proposta a partir de marcações de leitores. 2023. 101 f., il. Dissertação (Mestrado em Ciência da Informação) — Universidade de Brasília, Brasília, 2023.
Resumo:	Lidar com a representação, organização e recuperação da informação em contexto digital representa um desafio ao mesmo tempo que possibilita a exploração de diferentes modos de atender as necessidades informacionais tão intrínsecas a todos os indivíduos em suas atividades cotidianas. A interação de leitores com textos transformou-se significativamente na era digital. A marcação de textos em meio digital tornou-se uma prática comum, permitindo aos leitores destacar trechos relevantes, fazer anotações e criar marcadores virtuais. Ferramentas como destaque de texto, sublinhado e anotações digitais proporcionam uma experiência de leitura interativa e personalizada. Além disso, a marcação em meio digital facilita a organização e revisão posterior, contribuindo para uma compreensão mais aprofundada dos conteúdos em um ambiente dinâmico e tecnologicamente avançado, também se caracterizando como potencial fonte de registros para organização e recuperação da informação, em específico no escopo deste trabalho, para indexação. Isto posto, o objetivo deste estudo é investigar de que maneira as anotações e outros registros feitos por usuários/leitores em documentos digitais podem ser usados para indexação automática de documentos digitais. Com a proposta de criar um fluxo de trabalho para indexação automática a partir de trechos grifados, o estudo se vale de métodos mistos utilizando aspectos tanto qualitativos como quantitativos para atender os objetivos geral e específicos. A coleta de dados se deu por questionário direcionado a pesquisadores da Ciência da Informação, criando um corpus de textos para analisar. Aplicou-se códigos computacionais escritos com a linguagem Python e o apoio das bibliotecas PyMuPDF, SciKit Learn e Natural Language Toolkit (NLTK) para extração de trechos, pré-processamento de dados e cálculos de frequência para determinação de termos indexadores. Como resultados, apresenta-se uma análise das estratégias de marcações dos respondentes da pesquisa aproximando-as de conceitos da Organização da Informação, mostrando convergências entre ambas. O processo de indexação apresentado como proposta foi considerado satisfatório no objetivo de gerar um conjunto de termos indexadores para o documento do corpus. Sendo assim, foi disponibilizado tanto o fluxo de trabalho como os códigos utilizados no processo.
Abstract:	Dealing with the representation, organization, and retrieval of information in a digital context poses a challenge while enabling the exploration of different ways to meet the information needs so intrinsic to individuals in their daily activities. The interaction of readers with texts has undergone significant transformations in the digital age. Text markup in digital environments has become a common practice, allowing readers to highlight relevant passages, make annotations, and create virtual bookmarks. Tools such as text highlighting, underlining, and digital annotations provide an interactive and personalized reading experience. Furthermore, digital text markup facilitates organization and subsequent review, contributing to a deeper understanding of content in a dynamic and technologically advanced environment, also serving as a potential source of records for information organization and retrieval, specifically within the scope of this work, for indexing. With that said, the objective of this study is to investigate how annotations and other user/reader records in digital documents can be used for the automatic indexing of digital documents. Proposing to create a workflow for automatic indexing from highlighted passages, the study employs mixed methods using both qualitative and quantitative aspects to address the general and specific objectives. Data collection was done through a form directed at Information Science researchers, creating a corpus of texts for analysis. Computational codes were applied using the Python language and the support of the PyMuPDF, SciKit Learn, and Natural Language Toolkit (NLTK) libraries for extracting passages, data preprocessing, and frequency calculations to determine indexing terms. As results, an analysis of the marking strategies of the research respondents is presented, aligning them with concepts of Information Organization and demonstrating convergences between the two. The proposed indexing process was considered satisfactory in generating a set of indexing terms for the corpus document. Therefore, both the workflow and the codes used in the process have been made available.
Unidade Acadêmica:	Faculdade de Ciência da Informação (FCI)
Informações adicionais:	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2023.
Programa de pós-graduação:	Programa de Pós-Graduação em Ciência da Informação
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Agência financiadora:	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas