Advancing fairness and differential privacy in machine learning for socially relevant applications

Pereira, Mayana Wanderley

Veuillez utiliser cette adresse pour citer ce document : http://repositorio.unb.br/handle/10482/50927

Fichier(s) constituant ce document :

Fichier	Description	Taille	Format
2024_MayanaWanderleyPereira_TESE.pdf		2,42 MB	Adobe PDF	Voir/Ouvrir

Titre:	Advancing fairness and differential privacy in machine learning for socially relevant applications
Autre(s) titre(s):	Avanços em equidade e privacidade diferencial em aprendizado de máquina para aplicações socialmente relevantes
Auteur(s):	Pereira, Mayana Wanderley
Orientador(es)::	Sousa Júnior, Rafael Timóteo de
Assunto::	Aprendizagem de máquina Inteligência artificial Mídia Violência sexual infantil
Date de publication:	14-nov-2024
Data de defesa::	26-avr-2024
Référence bibliographique:	PEREIRA, Mayana Wanderley. Advancing fairness and differential privacy in machine learning for socially relevant applications. 2024. 125 f., il. Tese (Doutorado em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2024.
Résumé:	Esta tese investiga técnicas de aprendizado de máquina que preservam a privacidade para aplicações socialmente relevantes, focando em duas áreas específicas: detecção e identificação de Mídia de Abuso Sexual Infantil (CSAM) e geração de conjuntos de dados sintéticos que com foco em desenvolvimento ético e privado de inteligencia artifical. Abordamos o desafio de desenvolver soluções baseadas em aprendizado de máquina para detecção de CSAM enquanto consideramos as restrições éticas e legais do uso de imagens explícitas para treinamento do modelo. Para contornar essas limitações, propomos uma nova estrutura que utiliza metadados de arquivo para identificação de CSAM. Nossa abordagem envolve o treinamento e avaliação de modelos de aprendizado de máquina prontos para implantação baseados em caminhos de arquivo, demonstrando sua eficácia em um conjunto de dados de mais de um milhão de caminhos de arquivo coletados em investigações reais. Além disso, avaliamos a robustez de nossa solução contra ataques adversáriais e exploramos o uso de privacidade diferencial para proteger o modelo de ataques de inferência de modelo sem sacrificar a utilidade. Na segunda parte desta tese, investigamos as oportunidades e desafios do uso da geração de dados sintéticos no contexto do aumento da adoção de regulamentações globais de privacidade. Dados sintéticos são dados que imitam dados reais sem replicar informações pessoais, e oferecem diversas possibilidades para análise de dados e tarefas de aprendizado de máquina. No entanto, pouco se sabe sobre os impactos do uso de bancos de dados sintéticos em pipelines de aprendizado de máquina, especialmente quando apenas dados sintéticos estão disponíveis para treinamento e avaliação de modelo. Este estudo examina a relação entre privacidade diferencial e viés social dos algoritmos aprendizado de máquina, explorando como diferentes métodos de geração de dados sintéticos afetam o viés social dos algoritmos e comparando o desempenho de modelos treinados e testados com dados sintéticos versus dados reais. Os resultados contribuem para uma melhor compreensão do uso de dados sintéticos em pipelines de aprendizado de máquina e seu potencial para avançar o estado da arte em diversas áreas. A terceira e última parte desta tese propõe um protocolo para a geração de bancos de dados sintéticos que preservam a privacidade a partir de dados distribuídos. Esta tese propõe o primeiro protocolo para a geração de bancos de dados sintéticos a partir de fontes distribuídas com garantias de privacidade diferencial, sem a necessidade de um negociante confiável. O objetivo desta abordagem é permitir que os detentores de dados compartilhem dados sem violar restrições legais e éticas.
Abstract:	This thesis investigates privacy-preserving machine learning techniques for socially relevant applications. Specifically, this work tackles three important problems: the detection and identification of medias with abuse content, with a special focus on child sexual abuse media (CSAM); the fairness impacts of utilizing private synthetic datasets in machine learning pipelines; and the generation of privacy-preserving synthetic data sets from distributed sources. We address the challenge of developing machine learning-based solutions for CSAM detection while considering the ethical and legal constraints of using explicit imagery for model training. To circumvent these limitations, we propose a novel framework that leverages file metadata for CSAM identification. Our approach involves training and evaluating deploymentready machine learning models based on file paths, demonstrating its effectiveness on a dataset of over one million file paths collected from actual investigations. Additionally, we assess the robustness of our solution against adversarial attacks and explore the use of differential privacy to protect the model from model inference attacks without sacrificing utility. In the second part of this thesis, we investigate the opportunities and challenges of utilizing synthetic data generation in the context of increasing global privacy regulations. Synthetic data mimics real data without replicating personal information, and offers various possibilities for data analysis and machine learning tasks. This work addresses the impacts of using synthetic data sets in machine learning pipelines, especially when only synthetic data is available for training and evaluation. This thesis examines the relationship between differential privacy and machine learning fairness, exploring how different synthetic data generation methods affect the fairness and comparing the performance of models trained and tested with synthetic data versus real data. The findings contribute to a better understanding of synthetic data usage in machine learning pipelines and its potential to advance research across various fields. The third and final part of this thesis proposes a protocol for generating privacy-preserving synthetic data sets from distributed data. This thesis proposes the first protocol for generation of synthetic data sets from distributed sources with differentially private guarantees, without the need for a trusted dealer. The goal of this approach is to enable data holders to share data without violating legal and ethical restrictions.
metadata.dc.description.unidade:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Description:	Tese (doutorado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2024.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Engenharia Elétrica
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Collection(s) :	Teses, dissertações e produtos pós-doutorado

Affichage détaillé " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/50927/statistics">