Exploring relevant features of colorectal cancer from clinical and biological data : a bioinformatics approach

Vieira, Lucas Maciel

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.unb.br/handle/10482/49826

Ficheros en este ítem:

Fichero	Tamaño	Formato
LucasMacielVieira_TESE.pdf	10,48 MB	Adobe PDF	Visualizar/Abrir

Título :	Exploring relevant features of colorectal cancer from clinical and biological data : a bioinformatics approach
Autor :	Vieira, Lucas Maciel
Orientador(es)::	Walter, Maria Emília Machado Telles
Assunto::	RNAs não-codificadores MicroRNA RNA mensageiro RNA endógeno concorrente Aprendizagem de máquina Câncer colorretal
Fecha de publicación :	13-ago-2024
Data de defesa::	28-feb-2023
Citación :	VIEIRA, Lucas Maciel. Exploring relevant features of colorectal cancer from clinical and biological data: a bioinformatics approach. 2023. 104 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2023.
Resumen :	O câncer colorretal (CRC) é um dos tipos de câncer mais comuns e letais em todo o mundo, sendo o segundo câncer mais comum no Brasil [1]. O CRC é um câncer heterogêneo, que se instala na parte inferior do intestino grosso e pode ser classificado de acordo com seu campo anatômico, como câncer de cólon, de reto ou na junção retossigmoide. O tipo mais frequente de CRC é o adenocarcinoma, que corresponde a 90% dos casos. A maioria das mortes causadas por CRC acontece quando esse entra em estado de metástase. No entanto, se detectado em seus estágios iniciais, a sobrevida do paciente com CRC pode melhorar consideravelmente. Esta doença pode ser influenciada por diversos aspectos ambientais, tais como: hábitos alimentares, idade e peso. Normalmente, o tratamento recomendado para pacientes com CRC é a cirurgia para sua remoção e, depois, o uso de quimioterapia, porém o tratamento pode diferir de acordo com seu campo anatômico. O diagnóstico do CRC em um campo anatômico incorreto pode levar o médico a prescrever um tratamento não recomendado ao paciente, o que pode afetar a sua taxa de mortalidade. Para auxiliar o prognóstico, prevenção e tratamento de CRC, é fundamental entender os mecanismos moleculares e os indicadores clínicos que afetam o desenvolvimento do CRC. Quanto aos aspectos biológicos do CRC, podemos descrever o impacto dos RNAs codificadores e não-codificadores nos mecanismos subjacentes à doença. Em específico, podemos destacar três moléculas: RNAs longos não codificadores (em inglês, long non-coding RNAs - lncRNAs), micro RNAs (miRNAs) e RNAs mensageiros (em inglês, messenger RNAs - mRNAs). Nos eucariotos, os mRNAs maduros são formados a partir do prémRNA que, por sua vez, é produzido a partir do processo de transcrição passar por um processo conhecido como excisão (em inglês, splicing), que remove algumas regiões (íntrons) do pré-mRNA e liga outras regiões (exons), formando assim o mRNA maduro. O processo de splicing possibilita gerar mais de uma proteína a partir de um único gene, em um processo conhecido como excisão alternativa (em inglês, alternative splicing. Por sua vez, as proteínas coordenam quase todos os processos vitais no organismo, sendo utilizadas em reações metabólicas e afetando diversos processos biológicos, como o desenvolvimento de doenças. Os miRNAs desempenham um papel essencial na expressão gênica, mais especificamente, ligando-se aos mRNAs e iniciando os processos de inibição ou degradação de seu alvo. Por sua vez, os lncRNAs não estão diretamente presentes neste processo de regulação da expressão de mRNA, mas desempenham papéis essenciais no organismo, como a alteração das funções de outras moléculas e, assim, afetam a expressão de proteínas indiretamente, o que pode contribuir para o surgimento e supressão de doenças. Considerando o papel específico de cada uma das moléculas descritas no desenvolvimento de doenças, estudos recentes destacaram a importância de um mecanismo conhecido como redes de RNAs endógenos concorrentes (em inglês, competing endogenous RNAs - ceRNAs), nos quais os lncRNAs, os miRNAs e os mRNAs interagem entre si. Nesse mecanismo, os miRNAs, que se ligam aos mRNAs pelos binding sites, podem também se ligar aos ceRNAs, assim, regulando indiretamente a expressão dos mRNAs. A identificação de redes ceRNA relacionadas ao surgimento do CRC e seus mecanismos subjacentes podem auxiliar os médicos a entender melhor a doença e realizar um melhor prognóstico do paciente. Na literatura, podemos encontrar alguns estudos que usam abordagens baseadas em bioinformática para criar redes ceRNAs e auxiliar a identificação de biomarcadores para o câncer de cólon, reto e o câncer colorretal em geral. Embora alguns estudos tenham foco na construção de redes ceRNA, até onde sabemos, nosso estudo foi o primeiro a estabelecer redes ceRNAs específicas para: (i) cólon; (ii) reto; e (iii) junção retossigmóide, além de relacioná-los com mecanismos biológicos específicos, a fim de esclarecer as diferenças e fatores comuns entre essas diferentes localizações anatômicas. Por outro lado, alguns estudos sugerem o uso de métodos de aprendizagem de máquina e também o uso de características clínicas para predizer marcadores que podem ser usados para prognóstico de pacientes com CRC [9, 10, 11]. Especificamente, Gründner et al. [9] sugeriram um método que combina características biológicas e clínicas para predizer marcadores de prognóstico de pacientes com CRC na África do Sul. Esses estudos descreveram bons resultados obtidos a partir de modelos de predição. Tanto quanto saibamos, nosso estudo foi o primeiro que usou dados abertos e métodos de aprendizagem de máquina para predizer a reincidência de CRC e a sobrevivência do paciente usando marcadores biológicos extraídos de redes ceRNAs de câncer de cólon, de reto e na junção retossigmoide, combinados com características clínicas. Nesta tese, na primeira etapa, propusemos um pipeline utilizando dados de livre acesso de pacientes com CRC, extraídos do banco de dados The Cancer Genome Atlas (TCGA), para construir redes ceRNAs específicas para o CRC e marcadores biológicos que afetam o prognóstico do paciente. Nosso objetivo foi o de realizar uma análise para identificar moléculas que possam ser usadas como marcadores biológicos para os três sítios anatômicos do CRC, cólon, reto e junção retossigmoide. Para construir tais redes e propor os marcadores biológicos, a expressão de RNA e os dados clínicos dos pacientes com CRC foram coletados. Os perfis de expressão de RNA foram produzidos por meio de ferramentas de análise que utilizam técnicas de bioinformática. Em seguida, encontramos redes ceRNA específicas para cada campo anatômico, para as quais, como dados de saída, obtivemos as redes ceRNA e as moléculas nelas presentes. Após essa etapa, foi realizada uma análise funcional, onde identificamos potenciais vias metabólicas relacionadas ao surgimento de câncer, as quais têm participação das moléculas obtidas na etapa anterior. Finalmente, uma análise de sobrevida global para identificar o impacto dessas moléculas no prognóstico do paciente foi realizada, resultando em uma lista de potenciais marcadores biológicos. Nessa etapa, ficaram evidenciados diversos potenciais biomarcadores que afetam o prognóstico do paciente em câncer de cólon, de reto e na junção retossigmoide. Além disso, redes ceRNA específicas para cada campo anatômico foram construídas, e foram identificadas diferentes vias biológicas que destacam diferenças no comportamento do CRC nos diferentes campos anatômicos, reforçando assim, a importância de identificar corretamente o campo anatômico em que o tumor ocorre. Como resultados, geramos um grupo de potenciais biomarcadores biológicos que afetam o prognóstico do CRC, em particular, podemos destacar: hsa-miR-1271-5p, NRG1, hsa-miR-130a-3p, SNHG16 e hsa-miR-495-3p para câncer de cólon; E2F8 para câncer retal; e DMD e hsa-miR-130b-3p para câncer na junção retossigmoide. Com a lista de potenciais marcadores biológicos que podem afetar no prognóstico de CRC, prosseguimos para a segunda etapa desta tese, em que propusemos um pipeline para prever a reinicindiva do CRC e a sobrevida dos pacientes, utilizando métodos de aprendizagem de máquina supervisionados. Fatores clínicos, como idade e peso, assim como fatores biológicos, podem afetar o prognóstico e o surgimento do CRC. Para melhor entender os mecanismos do CRC e identificar o impacto, tanto dos fatores clínicos, quanto dos fatores biológicos em seu prognóstico, usamos as características clínicas do paciente combinadas com os marcadores biológicos encontrados no passo anterior, como características biológicas, para treinar nossos modelos. Para alcançar um maior desempenho na predição e na possibilidade de interpretação dos resultados propostos, avaliamos e comparamos os seguintes algoritmos de aprendizagem de máquina: Random Forest - RF, Logistic Regression - LR, Support Vector Machine - SVM, K-Nearest Neighbors - KNN, Decision Tree - DT e Adaptative Boosting - AB. Para encontrar a importância de cada característica durante a construção dos modelos de predição, primeiro foi realizada uma análise de seleção de características, para filtrar e classificar quais dessas características de fato tinham impacto no modelo de predição construído. Com essas características biológicas e clínicas relevantes selecionadas, construímos os modelos de aprendizagem de máquina e avaliamos seu desempenho. Finalmente, como resultado, geramos modelos de aprendizagem de máquina para prever a reincidência do CRC e a sobrevivência do paciente, e uma lista de potenciais características biológicas e clínicas relevantes para o prognóstico do paciente. Nesta etapa, identificamos diversos potenciais marcadores biológicos e clínicos como importantes na reincindiva do CRC e na sobrevida do paciente. Quanto à importância das características, identificamos: SNHG16, hsa-miR-130b-3p, hsa-miR-495-3p e KCNQ1OT1 como características biológicas; e idade, etnia, estágio patológico, quimioterapia, altura e peso, contagem positiva de linfonodos e contagem de linfonodos como características clínicas. Finalmente, usando LR e RF, alcançamos uma precisão de 90% e 82% para predição da sobrevivência do paciente e da reincidiva do CRC, respectivamente. Além disso, o uso dos seis algoritmos de apredizagem de máquina propostos mostrou um bom desempenho geral, em específico, o RF apresentou bons resultados, o que também foi destacado em outros estudos [9, 10, 11]. Por fim, a pesquisa desenvolvida neste tese mostrou que o uso de técnicas de bioinformática em conjunto com o uso de algoritmos de aprendizagem de máquina pode melhorar a interpretação dos mecanismos presentes no CRC. No entanto, devemos destacar alguns fatores limitantes com os quais nos deparamos, como a quantidade de dados disponíveis para pacientes com câncer de junção rectosigmoide e a especificidade regional dos dados clínicos dos pacientes, visto que o banco de dados utilizado continha informações principalmente de pacientes dos Estados Unidos. Perspectivas de uso dos métodos desenvolvidos nesta tese são, primeiro, os pipelines propostos poderiam fornecer aos médicos um entendimento melhor dos mecanismos subjacentes ao CRC em seus diferentes campos anatômicos. Além disso, nossos modelos poderiam ser usados para auxiliar na predição de prognóstico do paciente. Por fim, executar esses pipelines com dados de pacientes brasileiros poderia ajudar os médicos a entender melhor as características específicas no surgimento do CRC e prognóstico dos pacientes que vivem nas diferentes regiões do Brasil.
Abstract:	Colorectal cancer (CRC) is one of the most common and lethal types of cancer worldwide, being the second most common cancer in Brazil [1]. CRC is a heterogenous cancer that affects the lower part of the large bowel and can be classified according to its anatomical site as: colon, rectum, or rectosigmoid junction cancer. The most common type of CRC is adenocarcinoma, accounting for 90% of cases. Most CRC deaths are related to metastases and, if early detected, patient survival rates increase considerably. This disease can be impacted by many environmental factors, such as: eating habits, age, and weight. Treatment can differ depending on anatomical site and usually consists of surgery followed by chemotherapy. Inaccurate identification of the CRC anatomical site can lead to under or overtreatment, which can impact the patient’s likelihood of mortality. The understanding of the molecular mechanisms and external factors that affect CRC development and progression is crucial to improving CRC prognosis, prevention, and treatment. Considering the biological aspects of CRC, three types of coding and non-coding RNAs are of particular impact on the disease’s underlying mechanisms. Highlighting: long noncoding RNAs (lncRNAs), micro RNAs (miRNAs), and messenger RNAs (mRNAs). In eukaryotes, mature mRNAs are formed after the pre-mRNA generated from the transcription undergoes a process known as splicing, which removes some regions (introns) of the pre-mRNA, while binding others (exons), thus forming the mature mRNA. The splicing process can generate more than one protein from a single gene in a process known as alternative splicing. The generated proteins are then used to regulate the organism’s functions through use in metabolic reactions, by affecting many biological processes, such as disease development. MiRNAs play an essential role in gene expression, by binding to mRNAs and initiating the inhibition or degradation of their target. In contrast, lncRNAs are not directly portrayed in this mRNA expression regulation process but play essential roles, such as altering other molecules’ functions and therefore affecting protein expression and the development and suppression of disease. Given the specific role of each RNA described above in disease development, recent studies also highlight the importance of a mechanism known as competing endogenous RNA (ceRNA) networks, in which lncRNAs, miRNAs, and mRNAs interact. In this mechanism, in addition to binding to mRNAs, miRNAs can also bind to ceRNAs, which then act as modulators of miRNAs and therefore indirectly regulate mRNA expression. The identification of ceRNA networks related to CRC development and its underlying mechanisms can help doctors better understand the disease and patient’ prognosis. Some studies have been carried out using bioinformatic approaches to analyze and create ceRNA networks and to indicate potential prognosis biomarkers for colon, rectal, and CRC in general [2, 3, 4, 5, 6, 7, 8]. Although some studies were done with ceRNA network constructions in mind, to the best of my knowledge, this study is the first to establish specific ceRNA networks for: (i) colon; (ii) rectum; and (iii) rectosigmoid junction, and to relate them with specific biological mechanisms in order to identify differences and common factors between these sites. Other studies suggest the use of machine learning methods using clinical features to predict CRC patient prognosis [9, 10, 11]. Specifically, Gründner et al. [9] explored a method that combines biological and clinical features to predict prognosis characteristics for CRC patients from South Africa. These studies showed promising results in predicting CRC patient’ prognosis, but to the best of my knowledge, this study is to use open data and machine learning to predict CRC recurrence and patient survival by using biological markers extracted from the colon, rectal and rectosigmoid cancer ceRNA networks in combination with clinical features. In this thesis, I begin by proposing a pipeline using open-access data from patients with CRC extracted from The Cancer Genome Atlas (TCGA) to construct CRC-specific ceRNA networks and potential biological markers that affect patient prognosis. Through analysis, I aim to identify RNAs that can be used as biological markers for the three CRC anatomical sites: colon, rectum, and rectosigmoid junction. To construct these networks and propose the biological markers, I collected RNA raw expression and clinical data from CRC patients. Using bioinformatic analysis tools to assess RNA expression profiles and building a ceRNA network for each CRC anatomical site, generated output in the form of ceRNA networks and the RNAs present on them. Next, through a functional enrichment analysis I assessed the potential biological pathways activated by the molecules obtained in the previous step. Finally, an overall survival analysis to identify the impact of these RNAs on patient prognosis, produced a list of potential biological markers as output. Overall, the first pipeline of this thesis resulted in: the identification of several potential prognostic markers for colon, rectum, and rectosigmoid junction cancer; the construction of specific ceRNA networks for each anatomical site; and the identification of biological pathways that highlight differences in CRC behavior at distinct anatomical sites, thus reinforcing the importance of correct identification of tumor site. The output of this pipeline consisted in a group of potential biological markers involved in CRC prognosis namely, the following site-specific prognosis biomarkers are of note: hsa-miR-1271-5p, NRG1, hsa-miR-130a-3p, SNHG16, and hsa-miR-495-3p in the colon; E2F8 in the rectum; and DMD and hsa-miR-130b-3p in the rectosigmoid junction. After generating the list of potential biological markers related to CRC prognosis, I proceed to the second part of this thesis: the proposal of a pipeline to predict CRC recurrence and patient survival using supervised machine learning (ML) methods. Clinical factors such as age and weight, as well as biological factors, can affect CRC progression and prognosis. To better CRC mechanisms and to identify the impact of both clinical and biological factors in prognosis, I used patient clinical features combined with the previously found biological markers as biological features to train the ML models. To improve predictive performance and interpretability of the proposed findings I evaluated and compared the following ML algorithms: Random Forest (RF), Logistic Regression (LR), Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Decision Tree (DT), and Adaptative Boosting (AB). To establish the importance of each feature while building the models to predict CRC recurrence and patient survival, first, I performed a feature extraction analysis to filter and rank the actual impact of these features on the constructed prediction model. With the selected relevant biological and clinical features in hand, I then constructed the ML models and evaluated their performance. As output, this pipeline generated the ML models to predict CRC recurrence and patient survival along with a list of potential biological and clinical features relevant to patient prognosis. Overall, the second pipeline resulted in the identification of several potential biological and clinical markers as important in CRC recurrence and patient survival. For feature importance: SNHG16, hsa-miR-130b-3p, hsa-miR-495-3p, and KCNQ1OT1 stood out as biological features; and age, ethnicity, pathological stage, chemotherapy, height and weight, positive lymph node count and lymph node count as clinical features. Finally, LR and RF achieved a best accuracy of 90% and 82% for predicting patient survival and CRC recurrence respectively. Also, the six proposed ML algorithms showed good performance overall, specifically, LR and RF displayed good overall results, which is coherent with findings from other studies [9, 10, 11]. This study strongly suggests that the use of bioinformatic approaches should be concurrently used with ML algorithms to enhance interpretation of CRC mechanisms and patient prognosis. However, some limiting factors are noteworthy: the amount of available data, being that the number of available patients for certain anatomical sites was low; and that the data mainly consisted of patients from the USA. Following the proposed pipelines, doctors can better understand the underlying mechanisms of CRC at its anatomical sites, and also use our model to help predict patient prognosis. Finally, running these pipelines with Brazilian patient data could improve CRC data interpretation, especially in circumstances of diversity and inequality in a country’s demographic landscape, which can affect CRC prognosis.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Descripción :	Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Informática
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece en las colecciones:	Teses, dissertações e produtos pós-doutorado

Mostrar el registro Dublin Core completo del ítem " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/49826/statistics">