Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/18555
Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2009_RodrigodeLaRocqueOrmonde.pdf812,28 kBAdobe PDFVisualizar/Abrir
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorLadeira, Marcelo-
dc.contributor.authorOrmonde, Rodrigo de La Rocque-
dc.date.accessioned2015-10-05T16:37:14Z-
dc.date.available2015-10-05T16:37:14Z-
dc.date.issued2015-10-05-
dc.date.submitted2009-
dc.identifier.citationORMONDE, Rodrigo de La Rocque. Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines. 2009. xii, 111 f., il.Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2009.en
dc.identifier.urihttp://repositorio.unb.br/handle/10482/18555-
dc.descriptionDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2009.en
dc.description.abstractNesta pesquisa é feita a extensão de um novo algoritmo de classificação, chamado de CAH+MDL, anteriormente desenvolvido para lidar apenas com problemas de classificação binários ou multiclasse, para tratar diretamente também problemas de classificação multilabel. Foi estudado então seu desempenho para a classificação de uma base de páginas Web em Português e Inglês, divididas em sete categorias multi-label. Este algoritmo é baseado no princípio da Minimum Description Length (MDL), utilizado juntamente com a Codificação Adaptativa de Huffman e foi anteriormente estudado para a classificação binária na detecção de SPAM, tendo apresentado bons resultados. Não foram encontradas citações na literatura, entretanto, de sua utilização para o caso multi-label, que é bem mais complexo. Para avaliar seu desempenho, os resultados são comparados com os resultados obtidos na classificação da mesma base de dados por uma SVM linear, que é o algoritmo que normalmente apresenta os melhores resultados na classificação de padrões e, especialmente, na classificação de textos. _______________________________________________________________________________ ABSTRACTen
dc.description.abstractIn this research, it is developed the extension of a new classification algorithm, called CAH+MDL, previously conceived to deal only with binary or multi-class classification problems, to treat directly multi-label classification problems. Its accuracy is then studied in the classification of a database comprised of Web sites in Portuguese and English, divided into seven multi-label categories. This algorithm is based on the principle of the Minimum Description Length (MDL), used together with the Huffman Adaptive Coding. It has already been studied for binary classification in SPAM detection and has presented good results, however, to the best of my knowledge, it had never been studied before for the multi-label case, which is much more complex. In order to evaluate its performance, its results are compared with the results obtained in the classification of the same database by a linear SVM, which is the algorithm that usually presents the best results in pattern classification and, specially, in text classification.en
dc.language.isoPortuguêsen
dc.rightsAcesso Abertoen
dc.titleClassificação automática de páginas Web Multi-label via MDL e Support Vector Machinesen
dc.typeDissertaçãoen
dc.subject.keywordAlgoritmos de computadoren
dc.subject.keywordPáginas web - classificação automáticaen
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.en
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Informáticapt_BR
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro simples do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.