Campo DC | Valor | Idioma |
dc.contributor.advisor | Sousa Júnior, Rafael Timóteo de | - |
dc.contributor.author | Pereira, Mayana Wanderley | - |
dc.date.accessioned | 2024-11-14T14:38:33Z | - |
dc.date.available | 2024-11-14T14:38:33Z | - |
dc.date.issued | 2024-11-14 | - |
dc.date.submitted | 2024-04-26 | - |
dc.identifier.citation | PEREIRA, Mayana Wanderley. Advancing fairness and differential privacy in machine learning for socially relevant applications. 2024. 125 f., il. Tese (Doutorado em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2024. | pt_BR |
dc.identifier.uri | http://repositorio.unb.br/handle/10482/50927 | - |
dc.description | Tese (doutorado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2024. | pt_BR |
dc.description.abstract | Esta tese investiga técnicas de aprendizado de máquina que preservam a privacidade para
aplicações socialmente relevantes, focando em duas áreas específicas: detecção e identificação
de Mídia de Abuso Sexual Infantil (CSAM) e geração de conjuntos de dados sintéticos que com
foco em desenvolvimento ético e privado de inteligencia artifical.
Abordamos o desafio de desenvolver soluções baseadas em aprendizado de máquina para
detecção de CSAM enquanto consideramos as restrições éticas e legais do uso de imagens explícitas para treinamento do modelo. Para contornar essas limitações, propomos uma nova
estrutura que utiliza metadados de arquivo para identificação de CSAM. Nossa abordagem
envolve o treinamento e avaliação de modelos de aprendizado de máquina prontos para implantação baseados em caminhos de arquivo, demonstrando sua eficácia em um conjunto de dados
de mais de um milhão de caminhos de arquivo coletados em investigações reais. Além disso,
avaliamos a robustez de nossa solução contra ataques adversáriais e exploramos o uso de privacidade diferencial para proteger o modelo de ataques de inferência de modelo sem sacrificar
a utilidade.
Na segunda parte desta tese, investigamos as oportunidades e desafios do uso da geração de
dados sintéticos no contexto do aumento da adoção de regulamentações globais de privacidade.
Dados sintéticos são dados que imitam dados reais sem replicar informações pessoais, e oferecem diversas possibilidades para análise de dados e tarefas de aprendizado de máquina. No
entanto, pouco se sabe sobre os impactos do uso de bancos de dados sintéticos em pipelines de
aprendizado de máquina, especialmente quando apenas dados sintéticos estão disponíveis para
treinamento e avaliação de modelo. Este estudo examina a relação entre privacidade diferencial
e viés social dos algoritmos aprendizado de máquina, explorando como diferentes métodos de
geração de dados sintéticos afetam o viés social dos algoritmos e comparando o desempenho
de modelos treinados e testados com dados sintéticos versus dados reais. Os resultados contribuem para uma melhor compreensão do uso de dados sintéticos em pipelines de aprendizado
de máquina e seu potencial para avançar o estado da arte em diversas áreas.
A terceira e última parte desta tese propõe um protocolo para a geração de bancos de
dados sintéticos que preservam a privacidade a partir de dados distribuídos. Esta tese propõe o
primeiro protocolo para a geração de bancos de dados sintéticos a partir de fontes distribuídas
com garantias de privacidade diferencial, sem a necessidade de um negociante confiável. O
objetivo desta abordagem é permitir que os detentores de dados compartilhem dados sem
violar restrições legais e éticas. | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Advancing fairness and differential privacy in machine learning for socially relevant applications | pt_BR |
dc.title.alternative | Avanços em equidade e privacidade diferencial em aprendizado de máquina para aplicações socialmente relevantes | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | Aprendizagem de máquina | pt_BR |
dc.subject.keyword | Inteligência artificial | pt_BR |
dc.subject.keyword | Mídia | pt_BR |
dc.subject.keyword | Violência sexual infantil | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | This thesis investigates privacy-preserving machine learning techniques for socially relevant
applications. Specifically, this work tackles three important problems: the detection and identification of medias with abuse content, with a special focus on child sexual abuse media (CSAM);
the fairness impacts of utilizing private synthetic datasets in machine learning pipelines; and
the generation of privacy-preserving synthetic data sets from distributed sources.
We address the challenge of developing machine learning-based solutions for CSAM detection while considering the ethical and legal constraints of using explicit imagery for model
training. To circumvent these limitations, we propose a novel framework that leverages file
metadata for CSAM identification. Our approach involves training and evaluating deploymentready machine learning models based on file paths, demonstrating its effectiveness on a dataset
of over one million file paths collected from actual investigations. Additionally, we assess the
robustness of our solution against adversarial attacks and explore the use of differential privacy
to protect the model from model inference attacks without sacrificing utility.
In the second part of this thesis, we investigate the opportunities and challenges of utilizing
synthetic data generation in the context of increasing global privacy regulations. Synthetic data
mimics real data without replicating personal information, and offers various possibilities for
data analysis and machine learning tasks. This work addresses the impacts of using synthetic
data sets in machine learning pipelines, especially when only synthetic data is available for
training and evaluation. This thesis examines the relationship between differential privacy and
machine learning fairness, exploring how different synthetic data generation methods affect the
fairness and comparing the performance of models trained and tested with synthetic data versus
real data. The findings contribute to a better understanding of synthetic data usage in machine
learning pipelines and its potential to advance research across various fields. The third and final part of this thesis proposes a protocol for generating privacy-preserving
synthetic data sets from distributed data. This thesis proposes the first protocol for generation
of synthetic data sets from distributed sources with differentially private guarantees, without
the need for a trusted dealer. The goal of this approach is to enable data holders to share data
without violating legal and ethical restrictions. | pt_BR |
dc.description.unidade | Faculdade de Tecnologia (FT) | pt_BR |
dc.description.unidade | Departamento de Engenharia Elétrica (FT ENE) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Engenharia Elétrica | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|