http://repositorio.unb.br/handle/10482/51119
Fichier | Description | Taille | Format | |
---|---|---|---|---|
2024_JoaoGabrielRodriguesReis_DISSERT.pdf | 1,17 MB | Adobe PDF | Voir/Ouvrir |
Titre: | Multiobjective bayesian optimization to enhance computational efficiency in neural network models |
Autre(s) titre(s): | Otimização bayesiana multiobjetivo para aperfeiçoar a eficiência computacional em modelos de redes neurais |
Auteur(s): | Reis, João Gabriel Rodrigues |
Orientador(es):: | Rodrigues, Guilherme Souza |
Assunto:: | Redes neurais artificiais Aprendizado de máquina Critério de informação Bayesiano |
Date de publication: | 9-déc-2024 |
Data de defesa:: | 13-jui-2024 |
Référence bibliographique: | REIS, João Gabriel Rodrigues. Multiobjective bayesian optimization to enhance computational efficiency in neural network models. 2024. 48 f., il. Dissertação (Mestrado em Estatística) — Universidade de Brasília, Brasília, 2024. |
Résumé: | Modelos de aprendizado de máquina, especialmente Redes Neurais Artificiais (RNAs), tornaram-se ferramentas indispensáveis em diversas áreas devido à sua capacidade de aprender com dados e fazer previsões ou tomar decisões. A grande flexibilidade dos modelos de RNA torna a escolha dos hiperpâmetros crucial para a obtenção do desempenho ideal. Entretanto, encontrar essa configuração pode ser uma tarefa desafiadora e computacionalmente intensiva. O ajuste de hiperparâmetros (hyperparameter tuning) é crucial para otimizar o desempenho de modelos de aprendizado de máquina. Diversas técnicas são empregadas para essa finalidade, sendo a Otimização Bayesiana (BO) uma das mais prevalentes. Contudo, essa abordagem tradicionalmente foca na maximização da precisão dos modelos, o que frequentemente resulta em modelos desnecessariamente complexos. Esse processo muitas vezes ignora o princípio da parcimônia, também conhecido como a navalha de Occam, que sugere a preferência por soluções mais simples quando desempenhos similares são possíveis. Na aplicação do princípio de parcimônia em modelos estatísticos clássicos, foram desenvolvidas várias métricas, como o AIC (Critério de Informação de Akaike) e o BIC (Critério de Informação Bayesiano). Essas métricas avaliam não apenas a precisão do modelo, mas também o número de parâmetros, buscando um equilíbrio entre complexidade e desempenho. No entanto, sua aplicabilidade é limitada em redes neurais artificiais (RNAs) devido à complexidade destes modelos. As RNAs frequentemente não possuem um conjunto único de pesos ótimos devido à sua alta capacidade de parametrização e às múltiplas soluções locais encontradas durante o treinamento. Essa característica torna desafiador determinar o número efetivo de parâmetros ou os graus de liberdade de uma RNA, o que é crucial para a aplicação do AIC e do BIC, comprometendo a validade dessas métricas para avaliar sua parcimônia. Uma abordagem adotada para contornar essa limitação foi utilizar o custo total de treinamento e avaliação da RNA como um indicativo de sua parcimônia, visando identificar o modelo mais eficiente, ou seja, que tenham alto poder preditivo sem comprometer excessivamente os recursos computacionais. Normalmente os algoritmos de BO focam em um único objetivo (predições mais acuradas), o que pode resultar em soluções com alto consumo de recursos. Alternativamente, a Otimização Bayesiana Multi Objetivo (MOBO) é uma generalização do BO que lida com múltiplos objetivos conflitantes, permitindo uma tunagem de hiperparâmetros que equilibra a precisão do modelo e o custo computacional. Este estudo investiga a eficácia da MOBO na redução dos custos computacionais totais, mantendo ao mesmo tempo a alta acurácia dos modelos, através de simulações que comparam o desempenho da MOBO com métodos tradicionais de BO e busca aleatória. A BO é uma técnica bastante popular para a tunagem de hiperparâmetros, pois é capaz de encontrar boas configurações com poucas avaliações da função objetivo. Isso é especialmente útil quando a avaliação da função é computacionalmente cara. A BO utiliza processos gaussianos para modelar a função objetivo, permitindo uma estimativa precisa das regiões promissoras no espaço de hiperparâmetros. Através do uso de funções de aquisição, a BO equilibra automaticamente a exploração de novas áreas do espaço de hiperparâmetros e a exploração de áreas já conhecidas que parecem promissoras. Isso ajuda a guiar a busca de maneira inteligente. Utilizando processos gaussianos e funções de aquisição adaptadas, a MOBO pode identificar soluções que oferecem um compromisso eficiente entre diferentes métricas de desempenho. Isso é particularmente vantajoso em cenários onde é necessário minimizar o consumo de recursos. Utilizando o HPOBench, uma plataforma que proporciona uma ampla gama de benchmarks específicos para otimização de hiperparâmetros, este estudo avalia a eficácia da tunagem de hiperparâmetros ao considerar simultaneamente duas funções-objetivo: acurácia e custo. Por meio de simulações, o desempenho de diversas implementações MOBO, BO e métodos de busca aleatória foram comparados. Os resultados obtidos demonstraram que o MOBO foi capaz de gerar modelos significativamente mais eficientes, reduzindo bastante o custo computacional sem sacrificar a precisão. |
Abstract: | The optimization of hyperparameters is a crucial step in enhancing the performance of machine learning models, particularly Artificial Neural Networks (ANNs). This dissertation explores the application of Multi-Objective Bayesian Optimization (MOBO) to improve computational efficiency in neural network predictions. Traditional Bayesian Optimization (BO) focuses on a single objective, often resulting in resource-intensive solutions. MOBO, however, addresses multiple conflicting objectives, allowing for a balanced trade-off between model accuracy and computational cost. In this study, we conducted simulations using a benchmark framework HPOBench (Schneider et al., 2021) to compare the performance of MOBO with traditional BO and random search algorithms. The results demonstrate that MOBO significantly reduces total computational cost while maintaining high model accuracy. |
metadata.dc.description.unidade: | Instituto de Ciências Exatas (IE) Departamento de Estatística (IE EST) |
Description: | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2024. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Estatística |
Licença:: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Agência financiadora: | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). |
Collection(s) : | Teses, dissertações e produtos pós-doutorado |
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.