Forecasting inflation in Brazil with machine learning methods : integrating shrinkage method for variable selection with Shapley value interpretation

Pereira, Felipe Gonçalves

Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/50957

Fichier(s) constituant ce document :

Fichier	Taille	Format
FelipeGoncalvesPereira_DISSERT.pdf	2,44 MB	Adobe PDF	Voir/Ouvrir

Titre:	Forecasting inflation in Brazil with machine learning methods : integrating shrinkage method for variable selection with Shapley value interpretation
Autre(s) titre(s):	Previsão de inflação no Brasil com métodos de aprendizado de máquina : integrando método de encolhimento para seleção de variáveis com interpretação por meio do valor de Shapley
Auteur(s):	Pereira, Felipe Gonçalves
Orientador(es)::	Souza, João Gabriel de Moraes
Assunto::	Inflação - previsão Inflação Aprendizagem de máquina Seleção de variáveis Inteligência Artificial Explicável (XAI)
Date de publication:	18-nov-2024
Data de defesa::	20-mai-2024
Référence bibliographique:	PEREIRA, Felipe Gonçalves. Forecasting inflation in Brazil with machine learning methods : integrating shrinkage method for variable selection with Shapley value interpretation. 2024. 109 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.
Résumé:	Esta dissertação busca identificar o modelo de apredizagem de máquina (ML) não linear mais eficaz na previsão do Índice de Preços ao Consumidor (IPCA) mensal usando um método de seleção prévio de variáveis baseado em modelo de encolhimento para escolher os preditores mais significantes. Além disso, o estudo visou analisar os resultados da previsão usando um método de inteligência artificial explicável (XAI) indepedente de modelo chamado Shapely Value, que pode fornecer informações sobre as previsões do modelo de ML não linear. Foi utilizado um conjunto de dados abrangendo o período de agosto de 2010 a janeiro de 2024, com 156 preditores. A partir dessa base de dados, foi realizada a seleção dos preditores mais significativos através de um loop que aplica a eliminação recursiva de variáveis (Recursive Feature Elimination - RFE) utilizando o modelo ElasticNet em cada mês do período de treinamento. Ao todo, foram realizadas 156 execuções do algoritmo de RFE, isolando os 30 preditores mais frequentes, aplicados aos modelos não lineares de ML. Os resultados das previsões evidenciaram o Gradient Boosting como o modelo mais eficaz, apresentando os melhores indicadores de acurácia e significância no teste de hipótese. A incorporação do Shapley Value aprimorou significativamente a interpretabilidade do modelo vencedor, oferencendo insights sobre as contribuições individuais de variáveis e mitigando a natureza de "caixa preta" dos modelos de ML. Os resultados evidenciaram a importância dos proxies para a variável-alvo nas previsões com contribuições significativas quando comparados com outros indicadores econômicos utilizados.
Abstract:	This dissertation seeks to identify the most effective non-linear machine learning (ML) model for forecasting the monthly Brazilian Consumer Price Index (IPCA). It employs a prior feature selection (variable selection) method based on a shrinkage model to choose the most significant predictors. Additionally, the study aims to analyze prediction results using a model-agnostic explainable artificial intelligence (XAI) method called Shapley Value, which provides insights into non-linear model predictions. A dataset covering the period from August 2010 to January 2024 was utilized, containing 156 predictors. From this database, the most significant predictors were selected through a recursive feature elimination (RFE) process using the ElasticNet model for each month of the training period. In total, 156 executions of the RFE algorithm were performed, isolating the 30 most frequent predictors to be applied to non-linear ML models. The prediction results indicated that Gradient Boosting was the most effective model, demonstrating the best accuracy and significance indicators in hypothesis testing. The incorporation of Shapley Value significantly enhanced the interpretability of the winning model, providing insights into the contributions of individual variables and mitigating the “black box” nature of ML models. The results highlighted the importance of proxies for the target variable in predictions, with significant contributions compared to other economic indicators used.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Description:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Collection(s) :	Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/50957/statistics">