Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.unb.br/handle/10482/51833
Ficheros en este ítem:
Fichero Tamaño Formato  
SamuelGalvaoElias_TESE.pdf4,86 MBAdobe PDFVisualizar/Abrir
Título : Ampliando o potencial dos dados genômicos : um estudo sobre o enriquecimento de metadados e a classificação filogenética de sequências microbianas
Autor : Elias, Samuel Galvão
Orientador(es):: Vale, Helson Mário Martins do
Assunto:: Micologia
Fitopatologia
Filogenia
Bacillus subtilis
GenBank
Posicionamento filogenético
Fecha de publicación : 12-mar-2025
Citación : ELIAS, Samuel Galvão. Ampliando o Potencial dos Dados Genômicos: Um Estudo sobre o Enriquecimento de Metadados e a Classificação Filogenética de Sequências Microbianas. 2024. 115 f. Tese (Doutorado em Biologia Microbiana) — Universidade de Brasília, Brasília, 2024.
Resumen : A presente tese aborda dois desafios cruciais na análise de dados genômicos: a agregação e complementação de metadados e a classificação filogenética de sequências biológicas. Para resolver o primeiro desafio, desenvolvemos o GeneConnector, uma ferramenta que agrega e complementa metadados de registros do GenBank, explorando informações compartilhadas entre diferentes sequências de um mesmo espécime. A aplicação do GeneConnector ao banco de dados GOPHY demonstrou sua eficácia na recuperação de informações valiosas sobre a origem, coleta e processamento das amostras, com ganhos de informação de até 60%. Adicionalmente, introduzimos os scores Observed Completeness Score - OCS e Reachable Completeness Score - RCS para avaliar a completude dos metadados e o potencial de enriquecimento de informações. Para o segundo desafio, desenvolvemos o Classeq, uma ferramenta de classificação de sequências biológicas baseada em posicionamento filogenético, rápida, precisa, independente de alinhamentos múltiplos de sequências e capaz de classificar sequências de genes inteiros. Nossos testes com o Bacillus subtilis group demonstraram a alta sensibilidade e especificidade da ferramenta, classificando corretamente quase todas as sequências do grupo em seus respectivos clados. Adicionalmente, o Classeq oferece uma interface de usuário amigável e uma API para facilitar sua integração em fluxos de trabalho existentes. Em suma, o GeneConnector e o Classeq representam avanços significativos na análise de dados genômicos, com potencial para impulsionar pesquisas em diversas áreas. Ao abordar os desafios de agregação de metadados e classificação filogenética, essas ferramentas oferecem novas perspectivas para a interpretação e utilização de dados genômicos, abrindo caminho para descobertas e aplicações inovadoras.
Abstract: This thesis addresses two crucial challenges in genomic data analysis: metadata aggregation and complementation, and phylogenetic classification of biological sequences. To address the first challenge, we developed GeneConnector, a tool that aggregates and complements metadata from GenBank records by exploiting shared information among different sequences from the same specimen. The application of GeneConnector to the GOPHY database demonstrated its effectiveness in retrieving valuable information about the origin, collection, and processing of samples, with information gains of up to 60%. Additionally, we introduced the OCS (Observed Completeness Score) and RCS (Reachable Completeness Score) to assess metadata completeness and potential for information enrichment. For the second challenge, we developed Classeq, a tool for classifying biological sequences based on phylogenetic placement, which is fast, accurate, independent of multiple sequence alignments, and capable of classifying whole gene sequences. Our tests with the Bacillus subtilis group demonstrated the high sensitivity and specificity of the tool, correctly classifying almost all sequences of the group into their respective clades. Additionally, Classeq offers a user-friendly interface and an API to facilitate its integration into existing workflows. In summary, GeneConnector and Classeq represent significant advances in genomic data analysis, with the potential to drive research in various fields. By addressing the challenges of metadata aggregation and phylogenetic classification, these tools offer new perspectives for interpreting and utilizing genomic data, paving the way for innovative discoveries and applications.
metadata.dc.description.unidade: Instituto de Ciências Biológicas (IB)
Departamento de Biologia Celular (IB CEL)
metadata.dc.description.ppg: Programa de Pós-Graduação em Biologia Microbiana
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece en las colecciones: Teses, dissertações e produtos pós-doutorado

Mostrar el registro Dublin Core completo del ítem " class="statisticsLink btn btn-primary" href="/handle/10482/51833/statistics">



Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.