Framework para classificação de TTP baseado em transformadas BERT

Alves, Paulo Magno de Melo Rodrigues

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Gonçalves, Vinícius Pereira	pt_BR
dc.contributor.author	Alves, Paulo Magno de Melo Rodrigues	pt_BR
dc.date.accessioned	2024-02-28T21:21:47Z	-
dc.date.available	2024-02-28T21:21:47Z	-
dc.date.issued	2024-02-28	-
dc.date.submitted	2023-06-27	-
dc.identifier.citation	ALVES, Paulo Magno de Melo Rodrigues. Framework para classificação de TTP baseado em transformadas BERT. 2023. viii, 61 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2023.	pt_BR
dc.identifier.uri	http://repositorio2.unb.br/jspui/handle/10482/47950	-
dc.description	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2023.	pt_BR
dc.description.abstract	Informações relativas às Táticas Técnicas e Procedimentos (TTP) observados em um ataque são importantes para os profissionais de segurança cibernética. Contudo, elas são costumeiramente disseminadas na forma de textos não estruturados, dificultando a acesso e, portanto, o trabalho dos ciberanalistas. Esse trabalho apresenta um framework para o enfrentamento desse problema por meio do BERT (Bidirectional Encoder Representations from Transformers), modelo de NLP derivado da Arquitetura de Tranformadas. Assim, foram utilizadas 11 variantes BERT, estado da arte no campo de NLP, para classificar sentenças de acordo com o framework MITRE ATT&CK para TTP. O dataset utilizado inicialmente foi a base de sentenças do instituto MITRE, sendo uma parte usada no treinamento e outra na avaliação dos modelos. Posteriormente foi realizada validação em um conjunto de sentenças manualmente anotadas extraído de relatórios de CTI (Cyber Threat Intelligence) públicos. Investigou-se também os efeitos de alguns hiperparâmeros escolhidos no treinamento de ajuste fino dos modelos. O objetivo foi identificar o modelo e a combinação de hiperparâmetros que melhor se adequariam à tarefa de classificação proposta. Como resultado, verificou-se que os melhores modelos apresentaram acurácia de 0,8264 e 0,7875 nos dois conjuntos de dados utilizados, demonstrando a viabilidade e o potencial do uso dos modelos BERT nessa complexa tarefa do domínio cibernético. Por fim, realiza-se análise qualitativa de algumas das sentenças erroneamente classificadas pelo framework, de modo a compreender melhor porque o modelo erra e obter insights que potencialmente ajudem a melhorar a performance.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Framework para classificação de TTP baseado em transformadas BERT	pt_BR
dc.type	Dissertação	pt_BR
dc.subject.keyword	Processamento de linguagem natural (Computação)	pt_BR
dc.subject.keyword	Inteligência cibernética	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.contributor.advisorco	Rocha Filho, Geraldo Pereira	pt_BR
dc.description.abstract1	Information upon Tactics, Techniques and Procedures (TTP) observed in an attack are important to cybersecurity defenders. However, they are mostly disseminated through unstructured text, hindering access and the job of ciberanalysts. This work presents a framework for tackling this problem by using BERT (Bidirectional Encoder Representations from Transformers), a model derived from the Transformers Architecture. We use 11 variants of BERT, a state-of-the-art approach in Natural Language Processing, to classify sentences according to MITRE ATT&CK framework for TTP. The dataset used is MITRE’s database of sentences (examples) and part of it is used in training and part in the models evaluation. Validation is also done against a set of manually annotated sentences extracted from public CTI reports. The effect of some chosen hyperparameters on the fine-tuning of the models are also investigated. The purpose is to identify the best model and the finest combination of hyperparameters for the proposed classification task. As a result, we observed that the best models presented an accuracy of 82.64% and 78.75% on the two datasets tested, demonstrating the feasibility and potential of the application of BERT models in the complex task of TTP classification. At last, we analyze some of the sentences misclassified by the framework to better understand why the models are missing and thus gather insights about possibilites to further improve performance.	pt_BR
dc.description.unidade	Faculdade de Tecnologia (FT)	pt_BR
dc.description.unidade	Departamento de Engenharia Elétrica (FT ENE)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado