| Campo DC | Valor | Idioma |
| dc.contributor.advisor | Almeida, Rodrigo Bonifacio de | - |
| dc.contributor.author | Araujo, Kevin de Santana | - |
| dc.date.accessioned | 2026-06-01T18:59:45Z | - |
| dc.date.available | 2026-06-01T18:59:45Z | - |
| dc.date.issued | 2026-06-01 | - |
| dc.date.submitted | 2025-12-03 | - |
| dc.identifier.citation | ARAUJO, Kevin de Santana. Exploring the energy flow classifier to identify fraudulent cryptocurrency transactions. 2025. 108 f., il. Dissertação (Mestrado profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.unb.br/handle/10482/54563 | - |
| dc.description | Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Computação Aplicada, 2025. | pt_BR |
| dc.description.abstract | lavagem de dinheiro representa um problema global de grande impacto, com crimi nosos movimentando bilhões de dólares anualmente provenientes de atividades ilícitas.
Nos últimos anos, as criptomoedas emergiram como um canal significativo para essas
atividades, principalmente devido ao pseudonimato que oferecem. Em 2023, endereços
ilícitos receberam 24,2 bilhões de dólares em criptomoedas originadas de fraudes, fundos
roubados e outras atividades criminosas. O aprendizado de máquina apresenta-se como
uma ferramenta poderosa para identificar padrões complexos de fluxos financeiros ilícitos,
mas enfrenta um obstáculo crítico: a escassez de dados rotulados. Algoritmos de apren dizado supervisionado frequentemente são inviáveis porque conjuntos de dados públicos
com transações ilícitas verificadas são raros. Esta escassez decorre da complexidade evo lutiva dos esquemas de lavagem de dinheiro e do fato de que a aquisição de rótulos é um
processo custoso e lento.
Esta pesquisa avalia a eficácia do Energy Flow Classifier (EFC) para identificar transações
ilícitas de Bitcoin no conjunto de dados Elliptic, particularmente sob condições de es cassez de rótulos. O EFC é um algoritmo baseado em física estatística, originalmente
desenvolvido para detecção de intrusões em redes, que opera sob a premissa de que
padrões de dados normais correspondem a estados de baixa energia, enquanto desvios
significativos constituem estados de alta energia. O núcleo do EFC é o Hamiltoniano que
quantifica a tipicidade estatística de uma transação através da equação H(ak1, ..., akN ) =
−
P
i<j eij (aki, akj )−
P
i hi(aki), onde hi representa o campo local e eij representa o acopla mento entre pares de características.
O conjunto de dados Elliptic contém 203.769 transações de Bitcoin com 234.355 arestas
direcionadas, cada transação descrita por 166 características anonimizadas. Do total de
transações, apenas 46.564 (23%) estão rotuladas, sendo 42.019 (90,2%) lícitas e 4.545
(9,8%) ilícitas, refletindo a escassez característica de dados rotulados em contextos reais.
O estudo foi conduzido através de três experimentos principais. O Experimento 1 avaliou
o impacto de técnicas de balanceamento de dados, incluindo undersampling, oversampling
aleatório e SMOTE. O Experimento 2 investigou a seleção de características utilizando
SelectKBest com valores de k ∈ {10, 20, 30, 40, 50, 60}. O Experimento 3 examinou o
vi
impacto combinado das duas técnicas, aplicando seleção de características seguida de
SMOTE. Para cada configuração, avaliou-se o desempenho usando F1-Score Macro como
métrica primária, fornecendo uma medida balanceada de desempenho crucial dado o de sequilíbrio de classes.
Os resultados demonstraram claramente a sensibilidade do EFC ao desequilíbrio de
classes. O conjunto de dados desbalanceado baseline produziu F1-Macro de 0,488, confir mando a dificuldade em detectar a classe minoritária ilícita sem intervenção. A aplicação
de SMOTE em conjunto de teste balanceado resultou em F1-Macro de 0,908, represen tando um cenário idealizado. Quando avaliado em dados de teste desbalanceados, o Ran dom Undersampling alcançou F1-Macro de 0,652 e Random Oversampling atingiu 0,533.
A seleção de características revelou que o EFC pode alcançar melhor desempenho com
um conjunto reduzido: o maior F1-Macro de 0,686-0,689 foi obtido com apenas k = 10
características. A estratégia combinada de seleção de características (k = 30) seguida
de balanceamento SMOTE produziu F1-Macro máximo de 0,808, representando melhoria
substancial comparada às técnicas isoladas. A análise fatorial completa revelou forte in teração positiva (+0,221) entre SMOTE e SelectKBest, indicando que estas técnicas são
complementares.
Os resultados posicionam o EFC como alternativa viável entre métodos não supervi sionados tradicionais e métodos supervisionados completos. Métodos não supervisionados
como Isolation Forest, Local Outlier Factor e One-Class SVM alcançaram F1-scores de
0,00 a 0,19 no conjunto Elliptic, demonstrando eficácia limitada. Em contraste, métodos
supervisionados como Random Forest alcançam F1-scores de 0,81-0,83, mas requerem ex emplos rotulados de ambas as classes. O EFC, alcançando F1-Macro de 0,808 (F1 ilícito
de 0,77) sob condições realistas de desequilíbrio severo, demonstra desempenho com parável aos métodos supervisionados enquanto oferece vantagens em interpretabilidade e
eficiência computacional. Diferentemente de redes neurais profundas que funcionam como
caixas-pretas, o EFC fornece decomposições de energia interpretáveis. A eficiência com putacional decorre de sua fundamentação em física estatística: o treinamento completa-se
em uma única passagem sobre os dados, com complexidade que escala linearmente com
amostras e quadraticamente com características.
Esta dissertação demonstrou que o Energy Flow Classifier representa uma abordagem
eficaz para detecção de transações fraudulentas de Bitcoin sob condições de escassez de
rótulos. O EFC supera substancialmente métodos não supervisionados tradicionais en quanto se aproxima do desempenho de métodos supervisionados completos, oferecendo
equilíbrio entre eficácia e requisitos de dados rotulados. A estratégia ótima envolve
primeiro reduzir dimensionalidade através de seleção de características (k ≈ 30) e então
aplicar SMOTE ao conjunto de treinamento reduzido. Trabalhos futuros devem esten vii
der o EFC para operar sobre embeddings de grafos ou sequências temporais, desenvolver
mecanismos adaptativos de threshold, validar em conjuntos de dados de maior escala
como Elliptic2, investigar abordagens híbridas combinando a formulação interpretável de
energia com representações aprendidas de redes neurais, e avaliar generalização cross cryptocurrency e aplicabilidade a outros domínios de crime financeiro. | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.title | Exploring the energy flow classifier to identify fraudulent cryptocurrency transactions | pt_BR |
| dc.type | Dissertação | pt_BR |
| dc.subject.keyword | Criptomoedas | pt_BR |
| dc.subject.keyword | Detecção de anomalias | pt_BR |
| dc.contributor.advisorco | Fernandes, Fabiano Cavalcanti | - |
| dc.description.abstract1 | Fraudulent cryptocurrency transactions represent an ongoing and significant threat within
the digital asset ecosystem, demanding robust detection mechanisms. Identifying such il licit activities is complicated by the complex nature of transaction data and, critically, the
prevalent scarcity of labeled illicit examples in available datasets. This research conducts
a comprehensive empirical evaluation of the Energy Flow Classifier (EFC), a physics inspired one-class anomaly detection model, for identifying illicit Bitcoin transactions
using the Elliptic dataset, specifically addressing its performance under conditions of la bel scarcity. Our findings demonstrate that EFC can effectively distinguish illicit from
licit transactions, with its performance significantly improved by combining feature se lection and data balancing techniques such as SMOTE, achieving strong results even on
imbalanced test sets under conditions of limited labeled illicit examples. | pt_BR |
| dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
| dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
| dc.description.ppg | Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional | pt_BR |
| Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|