Investigando o desempenho de métodos de Aprendizado de Máquina para predição de RNAs não-codificadores utilizando construção in silico de dados artificiais

Costa, Mirele Carolina Souza Ferreira

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Walter, Maria Emília Machado Telles	-
dc.contributor.author	Costa, Mirele Carolina Souza Ferreira	-
dc.date.accessioned	2021-05-04T02:04:18Z	-
dc.date.available	2021-05-04T02:04:18Z	-
dc.date.issued	2021-05-03	-
dc.date.submitted	2020-12-18	-
dc.identifier.citation	COSTA, Mirele Carolina Souza F. Investigando o desempenho de métodos de Aprendizado de Máquina para predição de RNAs não-codificadores utilizando construção in silico de dados artificiais. 2020. xviii, 94 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2020.	pt_BR
dc.identifier.uri	https://repositorio.unb.br/handle/10482/40790	-
dc.description	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.	pt_BR
dc.description.abstract	Métodos de aprendizado de máquina (AM) são frequentemente usados para predizer difer entes classes de RNAs não-codificadores (ncRNAs), como microRNAs ou snoRNAs. Nos métodos de AM que usam o paradigma de aprendizagem supervisionada, atributos ou características (em inglês, features) são extraídas dos dados de entrada e usados em um classificador, nas diferentes etapas desses métodos. No entanto, os métodos de AM não foram usados com tanto sucesso quanto se esperava para busca de homologia em ncR NAs. Neste contexto, é relevante medir o desempenho de métodos de AM para verificar seu poder de predição, tanto de sequências evolutivamente próximas quanto daquelas mais distantes. Uma avaliação sistemática de métodos de AM para predição de homologia re quer conjuntos de testes, grandes, controlados e conhecidos. Assim, devem ser criadas formas para construir grandes conjuntos de dados artificiais de forma que se aproxime o máximo possível dos ncRNAs reais. Nesta dissertação, inicialmente, descrevemos uma forma de gerar conjuntos arbitrariamente grandes e diversos de sequências de ncRNAs, com base em uma evolução artificial, das duas classes principais de snoRNAs, C/D box e H/ACA box snoRNAs. Em seguida, esses dados artificiais são usados para avaliar o poder de predição de snoRNAs, em um genoma de cordados, de três métodos supervisionados de AM - Máquina de Vetores de Suporte (em inglês, Support Vector Machine - SVM), Re des Neurais Artificiais (em inglês, Artificial Neural Networks - ANN) e Floresta Aleatória (em inglês, Random Forest - RF). Nossos resultados indicam que as abordagens de AM podem de fato ser competitivas para a busca de homologia em ncRNAs, dependendo do conhecimento de features biológicas, extraídas dos dados, que são a entrada desses méto dos de AM. Para a mutação de substituição, os classificadores SVM e ANN obtiveram excelentes desempenhos para conjuntos de dados com mutações de bases de 10%, 20%, 30% e 40% de diferença relativamente aos snoRNAs originais. No entanto, para conjuntos de dados com mutações de 50%, os classificadores não alcançaram um desempenho tão bom. Para H/ACA box, o desempenho dos classificadores de AM foram equivalentes, tanto utilizando um número maior de features biológicas conhecidas quanto um número reduzido delas. Para a mutação de inserção, quanto maior a porcentagem de mutação, menor o desempenho dos três classificadores - SVM, ANN e RF. Para os dois tipos de snoRNAs, os tamanhos das sequências mostraram ser características importantes para a predição correta. Além disso, os métodos de AM apresentaram resultados de predição melhores, quando comparados a métodos que usam diretamente as sequências primárias de ncRNAs, como BLAST.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).	pt_BR
dc.language.iso	Português	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Investigando o desempenho de métodos de Aprendizado de Máquina para predição de RNAs não-codificadores utilizando construção in silico de dados artificiais	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	PRNAs não-codificadores	pt_BR
dc.subject.keyword	RNAs nucleolares pequenos	pt_BR
dc.subject.keyword	Cordados - genoma	pt_BR
dc.subject.keyword	Aprendizado de máquina	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	Machine learning (ML) methods are often used to predict different classes of non-coding RNAs (ncRNAs), such as microRNAs or snoRNAs. In ML methods that use the super vised learning paradigm, attributes or features are extracted from the input data and used in a classifier, in the different steps of these methods. However, ML methods have not been used as successfully as expected to search for homology in ncRNAs. In this context, it is relevant to measure the performance of ML methods in order to verify their predictive power, both for evolutionary close sequences and those that are more distant. A system atic evaluation of ML methods for homology prediction requires large, controlled and known sets of tests. Thus, large sets of artificial data have to be created such that their stored sequences are as close as possible to real ncRNAs. In this dissertation, initially, we describe a way to generate arbitrarily large and diverse sets of ncRNA sequences, based on an artificial evolution, of the two main classes of snoRNAs, C/D box and H/ACA box. Then, these artificial data are used to evaluate the predictive power of snoRNAs, in a chordate genome, of three supervised methods of ML - Support Vector Machine (SVM), Artificial Neural Networks (ANN) and Random Forest (RF). Our results indicate that ML approaches can in fact be competitive to predict homology for ncRNAs, depending on the knowledge of biological features, extracted from the data, which are the input of these ML methods. For the substitution mutation, the SVM and ANN classifiers achieved excellent performances for data sets with base mutations of 10%, 20%, 30% and 40% distant from the original snoRNAs. However, for data sets with mutations of 50%, the classifiers did not perform so well. For H/ACA box, the performance of the ML classifiers were equiv alent, using a larger number of known biological features as well as a reduced number of them. For the insertion mutation, the higher the percentage of mutation, the lower the performance of the three classifiers - SVM, ANN and RF. For both types of snoRNAs, the size of the sequences proved to be an important characteristic for correct prediction. In addition, ML methods showed much better prediction results, when compared to methods that directly use primary ncRNA sequences, such as BLAST.	pt_BR
dc.contributor.email	carolinamirele@gmail.com	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado