On the effectiveness of the mining Android sandbox approach for malware detection

Costa, Francisco Handrick Tomaz da

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53198

Arquivos associados a este item:

Arquivo	Tamanho	Formato
FranciscoHandrickTomazDaCosta_TESE.pdf	2,09 MB	Adobe PDF	Visualizar/Abrir

Título:	On the effectiveness of the mining Android sandbox approach for malware detection
Outros títulos:	Análise da eficácia da abordagem de mineração de sandbox na detecção de malware
Autor(es):	Costa, Francisco Handrick Tomaz da
Orientador(es):	Almeida, Rodrigo Bonifácio de
Assunto:	Malwares - detecção Mineração em Sandboxes Android (Programa de computador) Análise estática Fluxo de rede Análise dinâmica
Data de publicação:	24-nov-2025
Data de defesa:	12-mai-2025
Referência:	COSTA, Francisco Handrick Tomaz da. On the Effectiveness of the Mining Android Sandbox Approach for Malware Detection. 2025. 140 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025.
Resumo:	Devido à popularidade da plataforma Android, aliada à relativa facilidade em aplicar técnicas de reengenharia em aplicativos Android (apps), programadores maliciosos têm se dedicado a explorar formas de ataques que visam monetizar a partir de aplicativos legítimos e violar aspectos de privacidade dos usuários. Esse cenário tem atraído a atenção de pesquisadores para o desenvolvimento de técnicas que possibilitam mitigar algumas falhas de segurança ou estratégias de ataque para aplicativos Android. Uma iniciativa recente, proposta por Jamrozik et al., introduziu o conceito de sandbox mining, uma abordagem em duas fases para melhorar a segurança de aplicativos Android. Na fase de mining (mineração), ferramentas de geração de testes exploram o comportamento do aplicativo monitorando chamadas a APIs sensíveis. A subsequente fase de sandbox restringe qualquer desvio do comportamento observado durante a mineração. Esse método detecta e bloqueia chamadas não autorizadas a APIs sensíveis, melhorando assim a segurança do usuário. Posteriormente, Bao et al. estendeu o trabalho de Jamrozik et al., avaliando a eficácia da abordagem na identificação de comportamentos maliciosos e comparando as capacidades exploratórias de diferentes ferramentas de teste para sandbox mining. Entretanto, seu estudo apresentava limitações: não examinou completamente as contribuições das análises estática e dinâmica para o sandbox mining, além de suas conclusões basearam-se em um conjunto de dados limitado, com representação insuficiente de famílias de malware. Nesta tese, nosso objetivo principal foi avaliar a abordagem de mineração em sandbox através da investigação do papel das análises estática e dinâmica na proposta. Após documentar as contribuições de ambos os métodos, realizamos um segundo estudo para verificar se a solução mantinha desempenho comparável na detecção de malware, quando aplicada a um conjunto de dados mais amplo e diversificado do que os utilizados em estudos anteriores. Os resultados revelaram uma queda significativa na precisão da detecção, com o F1-score diminuindo de 0,90 (em trabalhos anteriores) para 0,54 no conjunto de dados expandidos. Análises posteriores indicaram que essa degradação de desempenho foi causada principalmente por amostras de famílias específicas de malware, evidenciando uma limitação crítica da abordagem. Essa descoberta nos levou a investigar uma solução complementar para abordar a vulnerabilidade identificada. Por fim, em nosso estudo final, propusemos uma abordagem de análise de fluxo de rede aprimorada com aprendizado de máquina. Esse método demonstrou um desempenho superior na classificação de malwares em comparação com a mineração em sandbox, alcançando um F1-score de 0,85 no conjunto de dados diversificado. Notavelmente, os resultados mostraram que famílias de malware com baixas taxas de detecção na mineração em sandbox foram mais efetivamente identificadas por meio da análise de fluxo de rede, uma vez que os modelos de aprendizado de máquina, conseguiram detectar padrões característicos de atividades maliciosas.
Abstract:	Due to the widespread popularity of Android and the relative ease of reverse-engineering Android apps, malicious actors frequently exploit vulnerabilities to monetize legitimate applications and compromise user privacy. This growing threat has driven researchers to develop new techniques for mitigating security flaws and countering attack strategies targeting Android applications. A recent initiative by Jamrozik et al. introduced sandbox mining, a two-phase approach to enhance Android application security. In the mining phase, test generation tools explore app behavior by monitoring calls to sensitive APIs. The subsequent sandbox phase restricts any deviations from the behavior observed during mining. This method detects and blocks unauthorized sensitive API calls, thereby improving user security. Later, Bao et al. extended Jamrozik et al.’s work by evaluating the approach’s effectiveness in identifying malicious behavior and comparing the exploratory capabilities of different testing tools for sandbox mining. However, their study had limitations: it did not fully examine the contributions of static and dynamic analysis to sandbox mining, and its findings relied on a limited dataset with insufficient representation of malware families. In this thesis, our primary objective was to evaluate the sandbox mining approach by analyzing the roles of static and dynamic analysis within its framework. After documenting the contributions of both methods, we conducted a second study to assess whether the solution maintained comparable malware detection performance when applied to a larger and more diverse dataset than those used in prior studies. The results revealed a significant drop in detection accuracy, with the F1-score decreasing from 0.90 (in previous work) to 0.54 on the expanded dataset. Further analysis indicated that this performance degradation was primarily caused by samples from specific malware families, highlighting a critical limitation of the approach. This finding prompted us to investigate a complementary solution to address the identified weakness. Finally, in our final study, we proposed a machine learning (ML)-enhanced network flow analysis approach. This method demonstrated better malware classification performance compared to sandbox mining, achieving a F1-score of 0.85 in the diversified dataset. Notably, the results showed that malware families with low detection rates under sandbox mining were more effectively identified through network flow analysis, as ML models successfully detected characteristic malicious activity patterns.
Unidade Acadêmica:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Informações adicionais:	Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.
Programa de pós-graduação:	Programa de Pós-Graduação em Informática
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas