http://repositorio.unb.br/handle/10482/33025
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
2018_LuanaLúciaAlvesdeAzevêdo.pdf | 4,4 MB | Adobe PDF | Visualizar/Abrir |
Título: | Métodos estatísticos em aprendizado de máquinas para problemas de classificação |
Autor(es): | Azevêdo, Luana Lúcia Alves de |
Orientador(es): | Silva, Cibele Queiroz da |
Coorientador(es): | Fokoué, Ernest |
Assunto: | Aprendizagem de máquina Validação cruzada Análise discriminante Florestas aleatórias Classificação de objetos Máquinas de vetores de suporte |
Data de publicação: | 9-Nov-2018 |
Data de defesa: | 29-Jun-2018 |
Referência: | AZEVÊDO, Luana Lúcia Alves de. Métodos estatísticos em aprendizado de máquinas para problemas de classificação. 2018. x, 131 f., il. Dissertação (Mestrado em Estatística)—Universidade de Brasília, Brasília, 2018. |
Resumo: | As técnicas de aprendizado de máquina são amplamente utilizadas em tarefas de classificação de dados. Neste trabalho, são apresentados três métodos de aprendizagem supervisionadas que são adequadas à classificação de indivíduos. Estes métodos foram aplicados a dois conjuntos de dados, com características distintas, e realizados estudos de simulação para comparações entre os resultados. O método RDA destacou-se por obter o melhor desempenho de classificação em dados massivos e caso de n n p. Por sua vez, as técnicas FA e SVM obtiveram o melhor desempenho quando aplicadas ao conjunto de dados em que nop. As técnicas de validação cruzada (VC) são úteis para a definição dos valores ótimos dos hiper-parâmetros dos modelos. Neste trabalho utilizou-se três técnicas de VC: Stratified Cross Validate (SCV), Leave-One-Out Cross Validation (LOOCV) e Shuffle and Split (SS). Para as comparações entre os resultados foram realizadas diversas análises, dentre elas, gráficos das curvas ROC, taxas de má classificação e EQMs. A avaliação final, utilizada para a escolha do melhor método de classificação, deu-se por meio do Erro Médio de Teste (Average Test Error - AVTE). As simulações e análises foram realizadas utilizando o software R. |
Abstract: | Machine learning techniques are widely used in data classification tasks. In this paper, we present three supervised learning methods that are suitable for the classification of individuals. These methods were applied to two sets of data, with different characteristics, and simulation studies were carried out to compare the results. The RDA method was distinguished by obtaining the best performance of classification in massive data and case of n n p. On the other hand, the techniques FA and SVM obtained the best performance when applied to the dataset where n o p. Cross-validation (VC) techniques are useful for defining the optimum values of the hyper-parameters of the models. In this work three VC techniques were used: Stratified Cross Validate (SCV), Leave-One-Out Cross Validation (LOOCV) and Shuffle and Split (SS). For the comparisons between the results, several analyzes were carried out, among them, graphs of ROC curves, misclassification rates and EQMs. The final evaluation, used to choose the best classification method, was done through the Average Test Error (AVTE). Simulations and analyzes were performed using software R. |
Unidade Acadêmica: | Instituto de Ciências Exatas (IE) Departamento de Estatística (IE EST) |
Informações adicionais: | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018. |
Programa de pós-graduação: | Programa de Pós-Graduação em Estatística |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.