Skip navigation
Please use this identifier to cite or link to this item: http://repositorio2.unb.br/jspui/handle/10482/22888
Files in This Item:
File Description SizeFormat 
2016_IasminiVirgíniaOliveiraLima.pdf9,07 MBAdobe PDFView/Open
Title: Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
Authors: Lima, Iasmini Virgínia Oliveira
Orientador(es):: Holanda, Maristela Terto de
Assunto:: Banco de dados
Bioinformática
Armazenamento de dados
Issue Date: 13-Mar-2017
Citation: LIMA, Iasmini Virgínia Oliveira. Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL. 2016. xiv, 60 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2016.
Abstract: Projetos em Bioinformática são geralmente executados como workflows científicos. Os biólogos frequentemente podem executar o mesmo workflow diversas vezes com diferentes parâmetros. Estas execuções podem gerar um grande volume de arquivos com diferentes formatos, que precisam ser armazenados para futuras execuções. Dentre diversos sistemas de armazenamento de dados apresentados na literatura, novos modelos de bancos de dados têm sido definidos para armazenar grandes volumes de dados, os bancos de dados NoSQL (Not Only SQL), que surgiram da necessidade de uma alta escalabilidade e de um desempenho superior quando o volume de dados é muito grande. Nesse contexto, é proposta a análise do impacto da replicação de dados quando se utiliza bancos de dados NoSQL para o armazenamento dos diferentes formatos de arquivos resultantes da execução de workflows de Bioinformática. Foram executados três workflows de Bioinformática envolvendo diferentes formatos de dados, os quais foram utilizados para os testes nos bancos de dados NoSQL Cassandra e MongoDB, e em seguida é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram que os tempos de inserção e extração dos dados são mínimos comparados aos tempos de execução dos workflows e portanto, os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e gerenciamento de dados biológicos.
Abstract: Projects in bioinformatics are generally executed as scientific workflows. The biologists often perform the same workflow several times with different parameters. These executions can generate a large volume of files with different formats, which need to be stored for future executions. Among several data storage systems presented in the literature, new database models have been defined to store large volumes of data, the NoSQL databases (Not Only SQL), which arose from the need for high scalability and superior performance when the data volume is too large. In this context, it is proposed to analyze the impact of data replication when using NoSQL databases for the storage of the different file formats resulting from the execution of bioinformatics workflows. Three bioinformatics workflows involving different data formats were executed, which were used for testing the NoSQL Cassandra and MongoDB databases, and then an analysis of those executions and tests is presented. The results show that the data insertion and extraction times are minimal compared to the execution times of the workflows, and therefore, the NoSQL databases have proved to be a good option for the storage and management of biological data.
metadata.dc.description.unidade: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Description: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.
metadata.dc.description.ppg: Programa de Pós-Graduação em Informática
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
DOI: http://dx.doi.org/10.26512/2016.12.D.22888
Appears in Collections:Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/22888/statistics">



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.