Identificação de RNA não codificador utilizando redes neurais artificiais de treinamento não supervisionado

Silva, Tulio Conrado Campos da

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/10782

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2012_TulioConradoCamposdaSilva.pdf		4,48 MB	Adobe PDF	Visualizar/Abrir

Título:	Identificação de RNA não codificador utilizando redes neurais artificiais de treinamento não supervisionado
Autor(es):	Silva, Tulio Conrado Campos da
Orientador(es):	Berger, Pedro de Azevedo
Assunto:	Redes neurais (Computação) Inteligência artificial Biologia computacional
Data de publicação:	22-Jun-2012
Data de defesa:	9-Mar-2012
Referência:	SILVA, Tulio Conrado Campos da. Identificação de RNA não codificador utilizando redes neurais artificiais de treinamento não supervisionado. 2012. xvii, 115 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2012.
Resumo:	Experimentos diversos no campo da Biologia Molecular revelaram que alguns tipos de ácido ribonucléico (RNA) podem estar diretamente envolvidos na expressão gênica e do fenótipo, alem de sua já conhecida função na síntese de proteínas. De modo geral, RNAs podem ser divididos em duas classes: RNA mensageiro (mRNA), que são traduzidos para proteínas, e RNA não codificador (ncRNA), que exerce papéis celulares importantes além de codificação de proteínas. Nos últimos anos, vários métodos computacionais baseados em diferentes teorias e modelos foram propostas para distinguir mRNA de ncRNA. Dentre os métodos mais atuais, destacam-se o uso de gramáticas estocásticas livres de contexto, informações termodinâmicas, teorias probabilíticas e algoritmos de aprendizado de máquina, sendo esses últimos abordagens muitos maleáveis e de menor complexidade. Particularmente, os métodos por aprendizado de máquina que utilizam redes neurais artificiais de treinamento não supervisionado constituem uma promissora linha de pesquisa, por sua grande plasticidade e capacidade de classificação do conjunto de dados de ncRNAs por critérios bem estabelecidos. Essa ultima técnica e extensivamente abordada no presente trabalho, mais precisamente utilizando Mapa Auto Organiz avel (SOM), Learning Vector Quantization (LVQ) e as redes Teoria da Ressonância Adaptativa (ART), para o problema de distinguir ncRNAs de mRNAs em um dado transcriptoma. As acuracias obtidas para as duas abordagens, em teste, ou estudo de caso, realizado com pequenos ncRNAs de 4 organismos logeneticamente distantes atingiram 98%. Os critérios para classificação de ncRNA foram otimizados através da Análise de Componentes Principais (PCA), reduzindo o numero de suas variáveis em 32% sem reduzir a acurácia obtida no estudo de caso. _________________________________________________________________________________ ABSTRACT Several experiments conducted in the Molecular Biology eld have shown that some types of RNA may control gene expression and phenotype by themselves, besides their traditional role of allowing protein synthesis. Roughly speaking, RNA can be divided into two classes: messenger RNA (mRNA), that are translated into proteins, and non-coding RNA (ncRNA), which play several important cellular roles besides protein coding. In recent years, many computational methods based on deferent theories and models have been proposed to distinguish mRNA from ncRNA. Among the newest methods, it is noteworthy the use of stochastic context free grammars, thermodynamical information, probabilistic theories and machine learning algorithms, which are very adaptive and lowcomplexity approaches. Particularly, machine learning methods that uses non-supervised learning articial neural networks are a promising research eld, for they are highly plastic and are able to classify ncRNA data using well established criteria. The present work extensively approaches the latter technique, particularly Self-Organizing Maps (SOM), Learning Vector Quantization (LVQ) and Adaptive Resonance Theory (ART) algorithms for distinguishing ncRNA from coding RNA in a given transcriptome. A test case was developed using biological data from 4 phylogenetically distant organisms. Using this test case, the trained networks achieved 98% accuracy. The classication criteria used by the developed methods have been further optimized using Principal Components Analysis (PCA), reducing 32% of the number of extracted numerical variables without reducing the assessed accuracy.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas Departamento de Ciência da Computação, 2012.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas