Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio2.unb.br/jspui/handle/10482/32463
Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2018_LucasMacielVieira.pdf1,77 MBAdobe PDFVisualizar/Abrir
Título: Métodos baseados em aprendizagem de máquina para distinguir RNAs longos não-codificadores intergênicos de transcritos codificadores de proteínas
Autor(es): Vieira, Lucas Maciel
Orientador(es): Walter, Maria Emília Machado Telles
Assunto: Aprendizagem - computadores
Aprendizagem de máquina
RNAs não-codificadores
Data de publicação: 22-Ago-2018
Referência: VIEIRA, Lucas Maciel. Métodos baseados em aprendizagem de máquina para distinguir RNAs longos não-codificadores intergênicos de transcritos codificadores de proteínas. 2018. xiii, 63 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2018.
Resumo: Os RNAs não-codificadores (ncRNAs) constituem uma classe importante de moléculas produzidas nas células de organismos. Dentre eles, temos os ncRNAs longos (lncRNAs), uma classe de ncRNAs com predição díficil, pois podem estar sobrepostas a transcritos codificadores de proteínas (Protein Coding Transcripts - PCTs). Porém, existe uma classe de lncRNAs, os RNAs longos intergênicos (long non-condig RNAS - lincRNAS), que são lncRNAs que aparecem entre dois genes, que vêm sendo estudados devido a seus papéis regulatórios nos mecanismos celulares e sobretudo porque estão ligados a doenças como câncer. Apesar da importância destes lincRNAs, poucos métodos computacionais para distinção entre essa molécula e PCTs estão disponíveis. Além disso, os métodos existentes devem ser aplicados a organismos específicos, não podendo ser utilizados para distinguir lincRNAs de PCTs em espécies diferentes daquelas para as quais os modelos foram originalmente construídos. Na literatura, a predição de lncRNAs e lincRNAs vem sendo explorada com técnicas de Aprendizagem de Máquina. Neste contexto, este trabalho propõe dois métodos para discriminar lincRNAs de PCTs. O primeiro é um workflow para distinguir lincRNAs de PCTs em plantas, o qual utiliza ferramentas de bioinformática e Máquina de Vetores de Suporte, uma técnica de aprendizagem de máquina. O workflow foi aplicado em dois estudos de caso: cana-de-açúcar (Saccharum spp) e milho (Zea mays), tendo sido encontrados potenciais lincRNAs em ambos organismos. Além disso, um estudo de expressão diferencial de lincRNAs foi feito em cada estudo de caso, revelando possível interação desses lincRNAs com certos microorganismos que foram inoculados nas duas espécies de plantas. O segundo método propõe o uso de Ensemble para melhorar a capacidade de generalização e a robustez no método de distinguir de lincRNAs e PCTs. Este método foi aplicado em duas espécies, Homo sapiens (humano), montagem GRCh38, e Mus musculus (camundongo), montagem GRCm38. Os resultados mostram boas acurácias de 94% e 96% para humanos e camundongo, respectivamente. Deve-se notar que essas acurácias foram iguais ou melhores do que as acurácias de métodos existentes na literatura.
Abstract: Non-coding RNAs (ncRNAs) constitute an important set of transcripts produced in the cells of organisms. Among them, there is a large amount of a particular class of long ncRNAs (lncRNAs) that are difficult to predict, the so-called long intergenic ncRNAs (lincRNAs), which might play essential roles in gene regulation and other cellular processes, and they can be mistaken with transcripts that code proteins. Despite the importance of these lincRNAs, there is still a lack of biological knowledge, and also a few computational methods, most of them being specific to organisms, which usually can not be successfully applied to other species, different from those that they have been originally designed to. In literature, prediction of lncRNAs performed with machine learning techniques, and lincRNA prediction has been explored with supervised learrning methods. In this context, this work proposes two methods for discriminating lincRNAs from protein coding transcripts (PCTs). The first one is a workflow to distinguish lincRNAs from PCTs in plants, considering a pipeline that includes known bioinformatics tools together with machine learning techniques, here Support Vector Machine (SVM). We discuss two case studies that were able to identify novel lincRNAs, in sugarcane (Saccharum spp) and in maize (Zea mays). From the results, we also could identify differentially expressed lincRNAs in sugarcane and maize plants submitted to pathogenic and beneficial microorganisms. The second method is the distinction of lincRNAs from PCTs using ensemble, a method that improves generalizability and robustness. We applied this method in two species, Homo sapiens (human), assembly GRCh38, and Mus musculus (mouse), assembly GRCm38. The results show good accuracies of 94% and 96% for human and mouse, respectively, which are best or at least are comparable to the accuracies presented in related works.
Unidade Acadêmica: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Informações adicionais: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.
Programa de pós-graduação: Programa de Pós-Graduação em Informática
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.