Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores

Rocha, Nathaly Cristine Leite

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Martins, Dalton Lopes	-
dc.contributor.author	Rocha, Nathaly Cristine Leite	-
dc.date.accessioned	2024-07-17T12:16:20Z	-
dc.date.available	2024-07-17T12:16:20Z	-
dc.date.issued	2024-07-17	-
dc.date.submitted	2023-12-21	-
dc.identifier.citation	ROCHA, Nathaly Cristine Leite. Indexação automática de documentos digitais: uma proposta a partir de marcações de leitores. 2023. 101 f., il. Dissertação (Mestrado em Ciência da Informação) — Universidade de Brasília, Brasília, 2023.	pt_BR
dc.identifier.uri	http://repositorio2.unb.br/jspui/handle/10482/48940	-
dc.description	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2023.	pt_BR
dc.description.abstract	Lidar com a representação, organização e recuperação da informação em contexto digital representa um desafio ao mesmo tempo que possibilita a exploração de diferentes modos de atender as necessidades informacionais tão intrínsecas a todos os indivíduos em suas atividades cotidianas. A interação de leitores com textos transformou-se significativamente na era digital. A marcação de textos em meio digital tornou-se uma prática comum, permitindo aos leitores destacar trechos relevantes, fazer anotações e criar marcadores virtuais. Ferramentas como destaque de texto, sublinhado e anotações digitais proporcionam uma experiência de leitura interativa e personalizada. Além disso, a marcação em meio digital facilita a organização e revisão posterior, contribuindo para uma compreensão mais aprofundada dos conteúdos em um ambiente dinâmico e tecnologicamente avançado, também se caracterizando como potencial fonte de registros para organização e recuperação da informação, em específico no escopo deste trabalho, para indexação. Isto posto, o objetivo deste estudo é investigar de que maneira as anotações e outros registros feitos por usuários/leitores em documentos digitais podem ser usados para indexação automática de documentos digitais. Com a proposta de criar um fluxo de trabalho para indexação automática a partir de trechos grifados, o estudo se vale de métodos mistos utilizando aspectos tanto qualitativos como quantitativos para atender os objetivos geral e específicos. A coleta de dados se deu por questionário direcionado a pesquisadores da Ciência da Informação, criando um corpus de textos para analisar. Aplicou-se códigos computacionais escritos com a linguagem Python e o apoio das bibliotecas PyMuPDF, SciKit Learn e Natural Language Toolkit (NLTK) para extração de trechos, pré-processamento de dados e cálculos de frequência para determinação de termos indexadores. Como resultados, apresenta-se uma análise das estratégias de marcações dos respondentes da pesquisa aproximando-as de conceitos da Organização da Informação, mostrando convergências entre ambas. O processo de indexação apresentado como proposta foi considerado satisfatório no objetivo de gerar um conjunto de termos indexadores para o documento do corpus. Sendo assim, foi disponibilizado tanto o fluxo de trabalho como os códigos utilizados no processo.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Indexação	pt_BR
dc.subject.keyword	Recuperação da informação	pt_BR
dc.subject.keyword	Organização da informação	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	Dealing with the representation, organization, and retrieval of information in a digital context poses a challenge while enabling the exploration of different ways to meet the information needs so intrinsic to individuals in their daily activities. The interaction of readers with texts has undergone significant transformations in the digital age. Text markup in digital environments has become a common practice, allowing readers to highlight relevant passages, make annotations, and create virtual bookmarks. Tools such as text highlighting, underlining, and digital annotations provide an interactive and personalized reading experience. Furthermore, digital text markup facilitates organization and subsequent review, contributing to a deeper understanding of content in a dynamic and technologically advanced environment, also serving as a potential source of records for information organization and retrieval, specifically within the scope of this work, for indexing. With that said, the objective of this study is to investigate how annotations and other user/reader records in digital documents can be used for the automatic indexing of digital documents. Proposing to create a workflow for automatic indexing from highlighted passages, the study employs mixed methods using both qualitative and quantitative aspects to address the general and specific objectives. Data collection was done through a form directed at Information Science researchers, creating a corpus of texts for analysis. Computational codes were applied using the Python language and the support of the PyMuPDF, SciKit Learn, and Natural Language Toolkit (NLTK) libraries for extracting passages, data preprocessing, and frequency calculations to determine indexing terms. As results, an analysis of the marking strategies of the research respondents is presented, aligning them with concepts of Information Organization and demonstrating convergences between the two. The proposed indexing process was considered satisfactory in generating a set of indexing terms for the corpus document. Therefore, both the workflow and the codes used in the process have been made available.	pt_BR
dc.description.unidade	Faculdade de Ciência da Informação (FCI)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Ciência da Informação	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado