http://repositorio.unb.br/handle/10482/40609
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
2020_MarludaSilvaSantos.pdf | 820,18 kB | Adobe PDF | Visualizar/Abrir |
Título : | Modelos de aprendizagem de máquina para identificar o risco do trabalho escravo contemporâneo em cidades brasileiras |
Autor : | Santos, Marlu da Silva |
Orientador(es):: | Silva, Gladston Luiz da |
Assunto:: | Aprendizagem de máquina Regressão logística Gradient Boosting Mineração de dados Dados desbalanceados Escravidão contemporânea |
Fecha de publicación : | 22-abr-2021 |
Data de defesa:: | 2-dic-2020 |
Citación : | SANTOS, Marlu da Silva. Modelos de aprendizagem de máquina para identificar o risco do trabalho escravo contemporâneo em cidades brasileiras. 2020. xii, 53 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2020. |
Resumen : | O crime do trabalho escravo contemporâneo permeia por centenas de países e extinguir essa violação humana é um dever global. No Brasil, o trabalho escravo contemporâneo é caracterizado pelo código penal. Uma série de problemas são encontrados pelos agentes responsáveis pela inibição deste crime. As principais dificuldades estão relacionadas em: atender as denúncias que necessitam ser priorizadas; identificar ou antecipar aos crimes; medir o nível de erradicação do trabalho escravo; e recursos insuficientes para atender as ocorrências. A existência de um mecanismo para prever o nível de risco associado a cada cidade pode ser uma ferramenta importante para um passo na erradicação do trabalho escravo contemporâneo. Este estudo propõe o uso de modelos preditivos para identificar o risco da escravidão contemporânea em cidades brasileiras utilizando dados socioeconômicos, demográficos e registros de operações de resgate. Como existem muitas denúncias deste tipo de crime, identificar o grau do risco em cada cidade é uma ferramenta essencial para auxiliar no planejamento das fiscalizações. O estudo utiliza a técnica embedded com regularização Lasso (L1) para seleção de variáveis. Um método comparativo de técnicas para o tratamento de dados desbalanceados foi aplicado, os resultados mostraram que para o contexto do problema a técnica indicada é ROS. No total, 16 modelos são avaliados, formados por 8 diferentes conjuntos de dados e dois classificadores: LR e GBM. Os resultados indicam o modelo GBM com melhor performance, com acurácia de 77%, AUC 80% e G-mean 71%. Como validação do modelo um teste estatístico com reamostragem é aplicado utilizando Bootstrapping para 1000 iterações, cujos resultados apontam que o modelo se manteve robusto, visto que para um intervalo de confiança de 0.95, a acurácia ficou entre 87.5% e 87.8%. O melhor modelo foi validado com dados de fiscalização mais recentes, cujos resultados do levantamento revelaram estar coerentes com o teste estatístico do modelo, visto que de 96 novas ocorrências registradas para os anos de 2019 a junho de 2020, o modelo acertou 87,5% e errou 12,5%. |
Abstract: | Crime of contemporary slave labor pervades hundreds of countries and extinguishing this human violation is a global duty. In Brazil, contemporary slave labor is characterized by the penal code. A number of problems are encountered by the agents responsible for inhibiting this crime. The main difficulties are related to: attend to complaints that need to be prioritized; identify or anticipate crimes; measure the level of eradication of slave labor; and insufficient resources to deal with the occurrences. The existence of a mechanism to predict the level of risk associated with each city can be an important step towards the eradication of contemporary slave labor. This study proposes the use of predictive models to identify the risk of contemporary slavery in Brazilian cities using socioeconomic, demographic and rescue operation records. As there are many reports of this type of crime, identifying the degree of risk in each city is an essential tool to assist in planning inspections. The study uses the embedded technique with Lasso regularization (L1) to select variables. A comparative method of techniques for the treatment of unbalanced data was applied, the results showed that for the context of the problem the appropriate technique is ROS. In total, 16 models are evaluated, formed by 8 different data sets and two classifiers: LR and GBM. The results indicate the GBM model with the best performance, with accuracy of 77%, AUC 80% and G-mean 71%. As a validation of the model, a statistical test with resampling is applied using Bootstrapping for 1000 iterations, which results show that the model remained robust, seen that for a confidence interval of 0.95, the accuracy was between 87.5% and 87.8%. The best model was validated with more recent inspection data, the results of the validation revealed to be consistent with the statistical test of the model, since of 96 new occurrences registered for the years 2019 to June 2020, the model got 87,5% right and 12,5% wrong. |
metadata.dc.description.unidade: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
Descripción : | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020. |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional |
Licença:: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Aparece en las colecciones: | Teses, dissertações e produtos pós-doutorado |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.