http://repositorio.unb.br/handle/10482/54563| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| KevinDeSantanaAraujo_DISSERT.pdf | 4,23 MB | Adobe PDF | Visualizar/Abrir |
| Título: | Exploring the energy flow classifier to identify fraudulent cryptocurrency transactions |
| Autor(es): | Araujo, Kevin de Santana |
| Orientador(es): | Almeida, Rodrigo Bonifacio de |
| Coorientador(es): | Fernandes, Fabiano Cavalcanti |
| Assunto: | Criptomoedas Detecção de anomalias |
| Data de publicação: | 1-Jun-2026 |
| Data de defesa: | 3-Dez-2025 |
| Referência: | ARAUJO, Kevin de Santana. Exploring the energy flow classifier to identify fraudulent cryptocurrency transactions. 2025. 108 f., il. Dissertação (Mestrado profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2025. |
| Resumo: | lavagem de dinheiro representa um problema global de grande impacto, com crimi nosos movimentando bilhões de dólares anualmente provenientes de atividades ilícitas. Nos últimos anos, as criptomoedas emergiram como um canal significativo para essas atividades, principalmente devido ao pseudonimato que oferecem. Em 2023, endereços ilícitos receberam 24,2 bilhões de dólares em criptomoedas originadas de fraudes, fundos roubados e outras atividades criminosas. O aprendizado de máquina apresenta-se como uma ferramenta poderosa para identificar padrões complexos de fluxos financeiros ilícitos, mas enfrenta um obstáculo crítico: a escassez de dados rotulados. Algoritmos de apren dizado supervisionado frequentemente são inviáveis porque conjuntos de dados públicos com transações ilícitas verificadas são raros. Esta escassez decorre da complexidade evo lutiva dos esquemas de lavagem de dinheiro e do fato de que a aquisição de rótulos é um processo custoso e lento. Esta pesquisa avalia a eficácia do Energy Flow Classifier (EFC) para identificar transações ilícitas de Bitcoin no conjunto de dados Elliptic, particularmente sob condições de es cassez de rótulos. O EFC é um algoritmo baseado em física estatística, originalmente desenvolvido para detecção de intrusões em redes, que opera sob a premissa de que padrões de dados normais correspondem a estados de baixa energia, enquanto desvios significativos constituem estados de alta energia. O núcleo do EFC é o Hamiltoniano que quantifica a tipicidade estatística de uma transação através da equação H(ak1, ..., akN ) = − P i<j eij (aki, akj )− P i hi(aki), onde hi representa o campo local e eij representa o acopla mento entre pares de características. O conjunto de dados Elliptic contém 203.769 transações de Bitcoin com 234.355 arestas direcionadas, cada transação descrita por 166 características anonimizadas. Do total de transações, apenas 46.564 (23%) estão rotuladas, sendo 42.019 (90,2%) lícitas e 4.545 (9,8%) ilícitas, refletindo a escassez característica de dados rotulados em contextos reais. O estudo foi conduzido através de três experimentos principais. O Experimento 1 avaliou o impacto de técnicas de balanceamento de dados, incluindo undersampling, oversampling aleatório e SMOTE. O Experimento 2 investigou a seleção de características utilizando SelectKBest com valores de k ∈ {10, 20, 30, 40, 50, 60}. O Experimento 3 examinou o vi impacto combinado das duas técnicas, aplicando seleção de características seguida de SMOTE. Para cada configuração, avaliou-se o desempenho usando F1-Score Macro como métrica primária, fornecendo uma medida balanceada de desempenho crucial dado o de sequilíbrio de classes. Os resultados demonstraram claramente a sensibilidade do EFC ao desequilíbrio de classes. O conjunto de dados desbalanceado baseline produziu F1-Macro de 0,488, confir mando a dificuldade em detectar a classe minoritária ilícita sem intervenção. A aplicação de SMOTE em conjunto de teste balanceado resultou em F1-Macro de 0,908, represen tando um cenário idealizado. Quando avaliado em dados de teste desbalanceados, o Ran dom Undersampling alcançou F1-Macro de 0,652 e Random Oversampling atingiu 0,533. A seleção de características revelou que o EFC pode alcançar melhor desempenho com um conjunto reduzido: o maior F1-Macro de 0,686-0,689 foi obtido com apenas k = 10 características. A estratégia combinada de seleção de características (k = 30) seguida de balanceamento SMOTE produziu F1-Macro máximo de 0,808, representando melhoria substancial comparada às técnicas isoladas. A análise fatorial completa revelou forte in teração positiva (+0,221) entre SMOTE e SelectKBest, indicando que estas técnicas são complementares. Os resultados posicionam o EFC como alternativa viável entre métodos não supervi sionados tradicionais e métodos supervisionados completos. Métodos não supervisionados como Isolation Forest, Local Outlier Factor e One-Class SVM alcançaram F1-scores de 0,00 a 0,19 no conjunto Elliptic, demonstrando eficácia limitada. Em contraste, métodos supervisionados como Random Forest alcançam F1-scores de 0,81-0,83, mas requerem ex emplos rotulados de ambas as classes. O EFC, alcançando F1-Macro de 0,808 (F1 ilícito de 0,77) sob condições realistas de desequilíbrio severo, demonstra desempenho com parável aos métodos supervisionados enquanto oferece vantagens em interpretabilidade e eficiência computacional. Diferentemente de redes neurais profundas que funcionam como caixas-pretas, o EFC fornece decomposições de energia interpretáveis. A eficiência com putacional decorre de sua fundamentação em física estatística: o treinamento completa-se em uma única passagem sobre os dados, com complexidade que escala linearmente com amostras e quadraticamente com características. Esta dissertação demonstrou que o Energy Flow Classifier representa uma abordagem eficaz para detecção de transações fraudulentas de Bitcoin sob condições de escassez de rótulos. O EFC supera substancialmente métodos não supervisionados tradicionais en quanto se aproxima do desempenho de métodos supervisionados completos, oferecendo equilíbrio entre eficácia e requisitos de dados rotulados. A estratégia ótima envolve primeiro reduzir dimensionalidade através de seleção de características (k ≈ 30) e então aplicar SMOTE ao conjunto de treinamento reduzido. Trabalhos futuros devem esten vii der o EFC para operar sobre embeddings de grafos ou sequências temporais, desenvolver mecanismos adaptativos de threshold, validar em conjuntos de dados de maior escala como Elliptic2, investigar abordagens híbridas combinando a formulação interpretável de energia com representações aprendidas de redes neurais, e avaliar generalização cross cryptocurrency e aplicabilidade a outros domínios de crime financeiro. |
| Abstract: | Fraudulent cryptocurrency transactions represent an ongoing and significant threat within the digital asset ecosystem, demanding robust detection mechanisms. Identifying such il licit activities is complicated by the complex nature of transaction data and, critically, the prevalent scarcity of labeled illicit examples in available datasets. This research conducts a comprehensive empirical evaluation of the Energy Flow Classifier (EFC), a physics inspired one-class anomaly detection model, for identifying illicit Bitcoin transactions using the Elliptic dataset, specifically addressing its performance under conditions of la bel scarcity. Our findings demonstrate that EFC can effectively distinguish illicit from licit transactions, with its performance significantly improved by combining feature se lection and data balancing techniques such as SMOTE, achieving strong results even on imbalanced test sets under conditions of limited labeled illicit examples. |
| Unidade Acadêmica: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
| Informações adicionais: | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2025. |
| Programa de pós-graduação: | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional |
| Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.