Skip navigation
Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/53207
Fichier(s) constituant ce document :
Fichier TailleFormat 
LindebergPessoaLeite_TESE.pdf4,41 MBAdobe PDFVoir/Ouvrir
Titre: A hierarchical domain adaptation method in neural language models - with application to taxonomy-aware linear B-cell epitope prediction
Autre(s) titre(s): Um método de adaptação de domínio hierárquica em modelos de liinguagem neural - com aplicação à predição de epítopos lineares de células B considerando a taxonomia
Auteur(s): Leite, Lindeberg Pessoa
Orientador(es):: Campos, Teófilo Emídio de
Coorientador(es):: Pinto, Felipe Campelo França
Assunto:: Epítopos lineares de célula B
Modelagem informada por taxonomia
Aprendizado de transferência
Date de publication: 24-nov-2025
Référence bibliographique: LEITE, Lindeberg Pessoa. A hierarchical domain adaptation method in neural language models - with application to taxonomy-aware linear B-cell epitope prediction. 2025. 296 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025.
Résumé: Considerando a Taxonomia A adaptação de domínio tem como objetivo permitir que classificadores treinados em um domínio de origem tenham um bom desempenho em um domínio-alvo. Tradicionalmente, métodos de adaptação consideram um domínio de origem único, no qual todas as observações assumem implicitamente o mesmo nível de relacionamento com o domínio-alvo. Entretanto, em cenários reais, a adaptação de domínio frequentemente envolve domínios de origem com estruturas internas, muitas vezes hierárquicas. Exemplos incluem ramificações filogenéticas em conjuntos de dados biológicos, evolução das línguas, estruturas temáticas interconectadas na literatura científica, identificação de linguagem ofensiva e verificação de fatos. Uma estratégia comum, porém simplista, é mesclar fontes heterogêneas em um único domínio. Essa abordagem negligencia as relações distintas entre fontes individuais e o domínio-alvo, além de introduzir ruídos que prejudicam a transferência. Criar um conjunto de dados unificado para uma coleção heterogênea pode eliminar informações críticas, resultando em efeitos negativos de transferência. Embora a adaptação de domínio com múltiplas fontes seja amplamente estudada, pouca pesquisa aborda explicitamente adaptações que consideram estruturas hierárquicas internas nos domínios de origem. Esta tese investiga as relações hierárquicas entre os domínios de origem por meio de uma adaptação de domínio hierárquica, que captura explicitamente dependências hierárquicas para aprimorar a generalização e precisão das predições no nível do domínio-alvo. O método proposto emprega uma Hierarchical Weighted Cross-Entropy Loss, que ajusta dinamicamente a contribuição relativa dos diferentes níveis hierárquicos, e corrige desbalanceamentos entre classes. Essa estratégia permite uma transferência de conhecimento mais robusta e adaptável, especialmente adequada para cenários com poucos dados rotulados e estruturas hierárquicas de vários níveis. Para contextualizar esta proposta, a tese revisa inicialmente a evolução dos modelos de linguagem: desde n-gramas e modelos ocultos de Markov (HMMs), passando por redes neurais recorrentes (RNNs, LSTMs e GRUs), até arquiteturas modernas baseadas em atenção, como Transformers. O surgimento de modelos pré-treinados, como BERT, GPT e RoBERTa, revolucionou o processamento de linguagem natural, enquanto sua adaptação para sequências biológicas resultou em modelos como ESM, ProtBERT, ProtT5, ProteinBERT e Ankh. Apesar dos avanços, persistem limitações relevantes, como o viés nos dados, especialmente em cenários com escassez de dados rotulados no domínio-alvo. Essas limitações reforçam a necessidade de métodos robustos de adaptação de domínio, particularmente em contextos com vários níveis hierárquicos. Este trabalho também apresenta conceitos fundamentais relacionados à adaptação de domínio, destacando métodos tradicionais baseados em discrepância, métodos adversariais, métodos de reconstrução e abordagens de normalização. Cada técnica busca reduzir a diferença entre domínios com graus variados de robustez, estabilidade e aplicabilidade. Adicionalmente, são abordados os regimes de supervisão, incluindo adaptação supervisionada, semi-supervisionada e não supervisionada. A tese também discute a adaptação de múltiplas fontes, destacando tanto benefícios quanto desafios dessa abordagem, como transferência negativa e maior custo computacional. Finalmente, é aprofundada a adaptação de domínio hierárquica, que aproveita explicitamente estruturas hierárquicas dos dados para realizar adaptações considerando o grau de importância de cada nível superior. Para validar a proposta, foi realizado um estudo de caso focado na predição de epítopos de células B lineares (LBCE), uma tarefa crítica na imunoinformática devido à importância de epítopos em diagnósticos, vacinas e imunoterapias. Inicialmente, uma abordagem de adaptação de domínio de fonte única foi aplicada à tarefa de predição de epítopos, validando a capacidade de transferência filogenética. Em seguida, a solução foi generalizada por meio do método de adaptação de domínio hierárquica proposto, que ajusta dinamicamente a contribuição dos exemplos de treinamento com base na estrutura hierarquica dos dados. Os resultados experimentais demonstraram ganhos de desempenho na tarefa de predição de epítopos lineares de células B. Na configuração de adaptação de domínio de fonte única (Single-Source Domain Adaptation), o método proposto EpitopeTransfer superou consistentemente três métodos estado da arte — BepiPred 3.0, EpiDope e EpitopeVec — além de duas baselines internas. A avaliação foi conduzida em um conjunto de 20 domínios-alvo, utilizando oito métricas distintas: AUC, F1-score, coeficiente de correlação de Matthews (MCC), acurácia balanceada (BACC), valor preditivo positivo (PPV), valor preditivo negativo (NPV), sensibilidade e especificidade. O EpitopeTransfer obteve AUC média de 0,690 ± 0,029, F1-score de 0,592 ± 0,060 e MCC de 0,258 ± 0,052, demonstrando superioridade substancial em relação aos concorrentes. Além disso, atingiu sensibilidade de 0,697 ± 0,068 e especificidade de 0,549 ± 0,072, evidenciando sua capacidade de generalizar tanto para regiões epítopos quanto não epítopos. Adicionalmente, ao aplicar a estratégia proposta de adaptação de domínio hierárquica (Hierarchical Domain Adaptation), observou-se desempenho consistentemente superior ao da baseline em 17 domínios-alvo distintos. O modelo generalizado alcançou AUC média de 0,698 ± 0,027, superando os 0,625 ± 0,033 da baseline. Também apresentou ganhos em F1-score (0,549 ± 0,053 vs. 0,454 ± 0,056) e MCC (0,249 ± 0,044 vs. 0,154 ± 0,039).
Abstract: Domain adaptation aims to enable classifiers trained on a source domain to perform effectively on a target domain. Single domain adaptation methods are typically designed to transfer knowledge from a single source domain, where all observations are implicitly assumed to bear the same level of relationship to the target domain. However, in real scenarios, domain adaptation frequently involves source domains with internal, often hierarchical, structures. For instance, this occurs in phylogenetic branching in biological datasets, the evolutionary progression of languages, interconnected thematic structures in scientific literature, offensive language identification, and fact-checking. A common yet simplistic strategy is to merge these sources into a single domain. However, this strategy neglects the distinct relationships between individual sources and the target domain and also noisy data in multi-level source domain. Creating a unified source dataset for this heterogeneous collection can eliminate the informative characteristics of individual domains and may result in negative transfer effects. Although multi-source domain adaptation is a well-studied approach for this type of problem, less research has been conducted when the source domains have hierarchical relationships. This thesis investigates the hierarchical relationships of source domains to enhance predictions at the target domain level. Specifically, the proposed method captures the hierarchical relationships and their relative importance across different levels, improving the adaptability of neural language models. By explicitly modeling these hierarchical dependencies, the method enhances the model’s ability to generalize throughout diverse hierarchical levels, ensuring more accurate predictions at the target level. To demonstrate its efficacy, the method is applied to a case study on epitope prediction, a critical problem in immunoinformatics. Experimental results reveal significant performance gains, which outperforms three state-of-the-art methods in identifying linear B-cell epitopes (LBCE), as evaluated across eight different metrics.
metadata.dc.description.unidade: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Description: Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.
metadata.dc.description.ppg: Programa de Pós-Graduação em Informática
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Collection(s) :Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/handle/10482/53207/statistics">



Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.