Campo DC | Valor | Idioma |
dc.contributor.advisor | Martins, Dalton Lopes | - |
dc.contributor.author | Rocha, Nathaly Cristine Leite | - |
dc.date.accessioned | 2024-07-17T12:16:20Z | - |
dc.date.available | 2024-07-17T12:16:20Z | - |
dc.date.issued | 2024-07-17 | - |
dc.date.submitted | 2023-12-21 | - |
dc.identifier.citation | ROCHA, Nathaly Cristine Leite. Indexação automática de documentos digitais: uma proposta a partir de marcações de leitores. 2023. 101 f., il. Dissertação (Mestrado em Ciência da Informação) — Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/48940 | - |
dc.description | Dissertação (mestrado) — Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2023. | pt_BR |
dc.description.abstract | Lidar com a representação, organização e recuperação da informação em contexto digital
representa um desafio ao mesmo tempo que possibilita a exploração de diferentes modos de
atender as necessidades informacionais tão intrínsecas a todos os indivíduos em suas atividades
cotidianas. A interação de leitores com textos transformou-se significativamente na era digital.
A marcação de textos em meio digital tornou-se uma prática comum, permitindo aos leitores
destacar trechos relevantes, fazer anotações e criar marcadores virtuais. Ferramentas como
destaque de texto, sublinhado e anotações digitais proporcionam uma experiência de leitura
interativa e personalizada. Além disso, a marcação em meio digital facilita a organização e
revisão posterior, contribuindo para uma compreensão mais aprofundada dos conteúdos em um
ambiente dinâmico e tecnologicamente avançado, também se caracterizando como potencial
fonte de registros para organização e recuperação da informação, em específico no escopo deste
trabalho, para indexação. Isto posto, o objetivo deste estudo é investigar de que maneira as
anotações e outros registros feitos por usuários/leitores em documentos digitais podem ser
usados para indexação automática de documentos digitais. Com a proposta de criar um fluxo
de trabalho para indexação automática a partir de trechos grifados, o estudo se vale de métodos
mistos utilizando aspectos tanto qualitativos como quantitativos para atender os objetivos geral
e específicos. A coleta de dados se deu por questionário direcionado a pesquisadores da Ciência
da Informação, criando um corpus de textos para analisar. Aplicou-se códigos computacionais
escritos com a linguagem Python e o apoio das bibliotecas PyMuPDF, SciKit Learn e Natural
Language Toolkit (NLTK) para extração de trechos, pré-processamento de dados e cálculos de
frequência para determinação de termos indexadores. Como resultados, apresenta-se uma
análise das estratégias de marcações dos respondentes da pesquisa aproximando-as de conceitos
da Organização da Informação, mostrando convergências entre ambas. O processo de
indexação apresentado como proposta foi considerado satisfatório no objetivo de gerar um
conjunto de termos indexadores para o documento do corpus. Sendo assim, foi disponibilizado
tanto o fluxo de trabalho como os códigos utilizados no processo. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Indexação automática de documentos digitais : uma proposta a partir de marcações de leitores | pt_BR |
dc.type | Dissertação | pt_BR |
dc.subject.keyword | Indexação | pt_BR |
dc.subject.keyword | Recuperação da informação | pt_BR |
dc.subject.keyword | Organização da informação | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | Dealing with the representation, organization, and retrieval of information in a digital context
poses a challenge while enabling the exploration of different ways to meet the information
needs so intrinsic to individuals in their daily activities. The interaction of readers with texts
has undergone significant transformations in the digital age. Text markup in digital
environments has become a common practice, allowing readers to highlight relevant passages,
make annotations, and create virtual bookmarks. Tools such as text highlighting, underlining,
and digital annotations provide an interactive and personalized reading experience.
Furthermore, digital text markup facilitates organization and subsequent review, contributing
to a deeper understanding of content in a dynamic and technologically advanced environment,
also serving as a potential source of records for information organization and retrieval,
specifically within the scope of this work, for indexing. With that said, the objective of this
study is to investigate how annotations and other user/reader records in digital documents can
be used for the automatic indexing of digital documents. Proposing to create a workflow for
automatic indexing from highlighted passages, the study employs mixed methods using both
qualitative and quantitative aspects to address the general and specific objectives. Data
collection was done through a form directed at Information Science researchers, creating a
corpus of texts for analysis. Computational codes were applied using the Python language and
the support of the PyMuPDF, SciKit Learn, and Natural Language Toolkit (NLTK) libraries for
extracting passages, data preprocessing, and frequency calculations to determine indexing
terms. As results, an analysis of the marking strategies of the research respondents is presented,
aligning them with concepts of Information Organization and demonstrating convergences
between the two. The proposed indexing process was considered satisfactory in generating a
set of indexing terms for the corpus document. Therefore, both the workflow and the codes used
in the process have been made available. | pt_BR |
dc.description.unidade | Faculdade de Ciência da Informação (FCI) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Ciência da Informação | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|