http://repositorio.unb.br/handle/10482/44812
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2022_JonasArrudaNovaesNeto.pdf | 44,25 MB | Adobe PDF | Visualizar/Abrir |
Título: | Modelo preditivo de capacidade de pagamento para prospecção PF : atraindo e fidelizando clientes no cenário de Open Finance |
Autor(es): | Novaes Neto, Jonas Arruda |
Orientador(es): | Kimura, Herbert |
Coorientador(es): | Cajueiro, Daniel Oliveira |
Assunto: | Risco de crédito Capacidade de pagamento Aprendizado de máquina |
Data de publicação: | 14-Set-2022 |
Data de defesa: | 15-Jun-2022 |
Referência: | NOVAES NETO, Jonas Arruda. Modelo preditivo de capacidade de pagamento para prospecção PF: atraindo e fidelizando clientes no cenário de Open Finance. 2022. 128 f., il. Dissertação (Mestrado Profissional em Economia) — Universidade de Brasília, Brasília, 2022. |
Resumo: | As grandes instituições financeiras tradicionais estão direcionando suas estratégias para a expansão dos serviços financeiros no mundo digital, passando a concorrer nesse mercado com as fintechs e bancos digitais, empresas inovadoras, com menor custo operacional e que fazem uso intenso de tecnologia. A pandemia do coronavírus acelerou os hábitos digitais da população e aumentou a busca por créditos nos canais digitais, aumentando a concorrência entre as instituições, principalmente após a implantação do compartilhamento de dados através do Open Finance. Este trabalho teve como objetivo construir um modelo preditivo de capacidade de pagamento nos produtos comerciais para prospecção de pessoa física, com o uso de algoritmos supervisionados de aprendizagem de máquina para regressão. Para isso, utilizamos um conjunto de dados anonimizado proveniente de uma grande instituição financeira brasileira do segmento S1, contendo 350.953 registros e 61 variáveis, sendo que a variável dependente é o valor que a instituição deseja ofertar estrategicamente para esses clientes. Aplicamos quatro ferramentas para a seleção de variáveis (Boruta, FeatureWiz, SelectKBest e RFE) com diferentes parâmetros que resultaram em 39 variáveis únicas (Selecionadas), além de filtrar as 10 mais comuns entre todos os modelos (Top 10) e realizamos a otimização de hiperparâmetros com o RandomizedSearchCV e Optuna integrado com Neptuno para 18 estimadores (Linear Regression, Ridge, Lasso, ElasticNet, Huber Regressor, Passive Aggressive Regressor, Linear SVR, Nu SVR, K-Neighbors Regressor, PLS Regression, Decision Tree Regressor, Extra Trees Regressor, Random Florest Regressor, Gradient Boosting Regressor, Histogram Gradient Boosting Regressor, LightGBM Regressor, XGBoost Regressor e CatBoost Regressor ). Comparamos o resultado de 162 modelos construídos pela combinação do estimador (18 opções), seleção de variáveis (Todas variáveis, Selecionadas e Top 10) e otimização de hiperparâmetros (Sem otimização (Default), RandomizedSearchCV e Optuna), sendo escolhidos os melhores modelos na avaliação por diferentes métricas (MAE, MSE, MAPE, RMSE, MedAE, R2 , Variância Explicada e Erro Residual Máximo) aplicadas na base de Teste, Out-of-Time e Out-ofSample. Os que apresentaram melhor resultado foram o Gradiente Boosting Regressor Optuna e o LightGBM Regressor Optuna, ambos modelos considerados ”caixas preta” com complexa interpretação e explicação. Para extrair as regras do modelo de previsão, tornando-as interpretáveis utilizamos o LIME. Esse trabalho mostrou que diferentes técnicas de aprendizado de máquina, com excelente performance em relação aos modelos lineares tradicionais, podem ser aplicadas para a predição da capacidade de pagamento do cliente no ambiente bancário, altamente regulamentado. |
Abstract: | The large traditional financial institutions are directing their strategies towards the expansion of financial services in the digital world, starting to compete in this market with fintechs and digital banks, innovative companies, with lower operating costs and that make intense use of technology. The coronavirus pandemic accelerated the population’s digital habits and increased the search for credit on digital channels, increasing competition between institutions, especially after the implementation of data sharing through Open Finance. This work aimed to build a predictive model of ability to pay (affordability) in commercial products for prospecting individuals, using supervised machine learning algorithms for regression. For this, we used an anonymized dataset from a large Brazilian financial institution in the S1 segment, containing 350,953 records and 61 variables, with the dependent variable being the value that the institution wants to offer strategically to these customers. We applied four tools for the selection of variables (Boruta, FeatureWiz, SelectKBest and RFE) with different parameters that resulted in 39 unique (”selected”) variables, in addition to filtering the 10 most common among all models (”Top 10”) and we performed hyperparameter optimization with RandomizedSearchCV and Optuna integrated with Neptune for 18 estimators (Linear Regression, Ridge, Lasso, ElasticNet, Huber Regressor, Passive Aggressive Regressor, Linear SVR, Nu SVR, K-Neighbors Regressor, PLS Regression, Decision Tree Regressor, Extra Trees Regressor, Random Forest Regressor, Gradient Boosting Regressor, Histogram Gradient Boosting Regressor, LightGBM Regressor, XGBoost Regressor, and CatBoost Regressor). We compared the results of 162 models built by combining the estimator (18 options), variable selection (all variables, ”selected” and ”top 10”) and hyperparameter optimization (without optimization, RandomizedSearchCV and Optuna), and the best models were chosen. in the evaluation by different metrics (MAE, MSE, MAPE, RMSE, MedAE, R2 , Explained Variance and Maximum Residual Error) applied to the Test, Out-of-Time and Out-of-Sample basis. The ones that presented the best results were the Gradient Boosting Regressor (Optuna) and the LightGBM Regressor (Optuna), both models considered ”black boxes” with complex interpretation and explanation. To extract the rules from the prediction model, making them interpretable, we use LIME. This work showed that different machine learning techniques, with excellent performance compared to traditional linear models, can be applied to predict the customer’s ability to pay in the highly regulated banking environment. |
Informações adicionais: | Dissertação (mestrado) — Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Gestão de Políticas Públicas, Programa de Pós-graduação em Economia, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.