http://repositorio.unb.br/handle/10482/51948
Fichier | Taille | Format | |
---|---|---|---|
RicardoJoseMenezesMaia_TESE.pdf | 1,53 MB | Adobe PDF | Voir/Ouvrir |
Titre: | P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina |
Auteur(s): | Maia, Ricardo José Menezes |
Orientador(es):: | Jacobi, Ricardo Pezzuol |
Assunto:: | Computação multipartidária segura Privacidade diferencial Aprendizagem federada Detecção de intrusão Aprendizagem de máquina - privacidade |
Date de publication: | 17-mar-2025 |
Data de defesa:: | 28-déc-2024 |
Référence bibliographique: | MAIA, Ricardo José Menezes. P2MLF: Um Arcabouço para Preservação de Privacidade de Ponta a Ponta para Aplicações de Aprendizado de Máquina. 2024. 111 f. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2024. |
Résumé: | O direito à privacidade de dados é fundamental para indivíduos e empresas. Pode-se mencionar os benefícios dos aplicativos Machine Learning (ML) para pessoas e empresas. Por isso, é essencial encontrar soluções que garantam a privacidade de dados em aplicações que utilizam ML, especialmente em cenários onde os aplicativos ML têm requisitos de privacidade não funcionais por razões legais. No requisito de privacidade abordado neste trabalho, apenas o proprietário terá acesso aos seus dados. Problemas de privacidade podem surgir nos estágios de entrada e saída da aplicação de ML e, para ilustrar esse problema, considere Alice como o proprietário das informações e Bob como o proprietário do modelo ML.Garantir a privacidade de entrada significa impedir a exposição dos dados, preservando tanto a privacidade das informações de Alice quanto a propriedade intelectual do modelo de Bob. Garantir a privacidade de saída significa que Bob não precisa expor seu modelo em texto simples para Alice, e Alice não precisa revelar seus dados em texto simples para o modelo de Bob. Mesmo com privacidade de entrada, Alice poderia potencialmente explorar informações usadas por Bob no treinamento do modelo, e a privacidade de saída evita vazamento de dados durante o treinamento. Garantir a privacidade dos dados de entrada e saída durante a inferência e o treinamento é essencial para a proteção de privacidade de ponta a ponta em aplicativos ML. Visando solucionar o problema descrito, este trabalho tem como objetivo principal propor uma abordagem para garantir privacidade de ponta a ponta, abrangendo tanto as entradas quanto as saídas, em aplicativos de ML, denominada Privacy-Preserving Machine Learning Framework (P2MLF). Entre os objetivos secundários desta tese, destaca-se a demonstração da aplicabilidade de P2MLF, utilizando uma aplicação baseada em Secure Multi-Party Computation (MPC) para inferência segura de Malicious Software (Malware) usando modelos MultiLayer Perceptron (MLP), One-Dimensional Convolutional Neural Network (CNN1D) e Long Short-Term Memory (LSTM) treinados com Differentially-Private Stochastic Gradient Descent (DP-SGD). Outra aplicação utilizará os métodos de P2MLF para treinamento colaborativo de modelos Collaborative Intrusion Detection Systems (CIDS). Uma das contribuições do método de inferência do P2MLF é o uso de quantização float16 pós-treinamento de modelos de aprendizado profundo com MPC para obter detecção eficiente e segura de Domain Generation Algorithms (DGA). Este trabalho demonstra que a quantização aumenta significativamente a velocidade, reduzindo o tempo de execução da inferência em 23% a 42%, sem prejuízo à precisão, utilizando um protocolo de computação segura de três partes. Soluções anteriores não garantem privacidade de ponta a ponta, não fornecem garantias de Differential Privacy (DP) para resultados do modelo e assumem que os Embedding Layer (EL)s do modelo são conhecidos publicamente. O melhor protocolo em termos de precisão é executado em aproximadamente 0, 22 segundos. Por fim, a segunda contribuição destaca a avaliação dos três métodos de treinamento colaborativo propostos pelo P2MLF, com foco em escalabilidade e privacidade, aplicados ao treinamento do CIDS. Entre os métodos avaliados, o que demonstrou o melhor equilíbrio entre privacidade e escalabilidade foi aquele que combina um protocolo MPC para agregação com modelos locais diferencialmente privados, treinados por meio de aprendizagem federada. Esse método é aproximadamente 1,5 vezes mais rápido que a abordagem de maior privacidade, que utiliza exclusivamente protocolos MPC com garantias de DP. |
Abstract: | The right to data privacy is fundamental for individuals and companies. One can mention the benefits of Machine Learning (ML) applications for people and businesses. Therefore, finding solutions to balance the dilemma of ensuring data privacy in applications that use ML is vital, especially in scenarios where ML applications have non-functional privacy requirements for legal reasons. In the privacy requirement addressed in this work, only the data owner will know their data. Privacy issues can arise in the input and output stages of the application of ML, and to illustrate this problem, consider Alice as the owner of the information and Bob as the owner of the model ML. Ensuring input privacy means that data should not be exposed to avoid compromising the privacy of Alice ’s data or the intellectual property of Bob ’s model. Ensuring output privacy means that Bob does not need to expose his model in plain text to Alice, and Alice does not need to reveal her data in plain text to Bob ’s model. Even with input privacy, Alice could potentially exploit information used by Bob in model training, and output privacy prevents data leakage during training. Ensuring the privacy of the input and output data during inference and training is essential for end-to-end privacy protection in ML applications. Concerning solving the problem proposed, this work’s main objective is to propose an approach to ensure end-to-end privacy, encompassing inputs and outputs, in ML applications, referred to as Privacy-Preserving Machine Learning Framework (P2MLF). This thesis will demonstrate as secondary objectives the framework’s applicability through an application that uses Secure Multi-Party Computation (MPC) for private inference of Malicious Software (Malware), using MultiLayer Perceptron (MLP), One-Dimensional Convolutional Neural Network (CNN1D), and Long Short-Term Memory (LSTM) models trained with Differentially-Private Stochastic Gradient Descent (DP-SGD). Another application will apply the methods described in this work for collaborative training Collaborative Intrusion Detection Systems (CIDS) models. In addition, to mention one of the contributions of P2MLF inference method, this work uses post-training float16 quantization of deep learning models with MPC to achieve efficient and secure detection of Domain Generation Algorithms (DGA). This work demonstrates that quantization significantly increases speed, resulting in a 23% to 42% reduction in inference execution time without reducing accuracy, using a three-party secure computation protocol that tolerates one corruption. Previous solutions are not end-to-end private, do not provide Differential Privacy (DP) guarantees for model results, and assume that the model’s Embedding Layer (EL)s are publicly known. The best protocol in terms of accuracy runs in approximately 0.22 seconds. Finally, as a second contribution, it emphasizes evaluating the three collaborative training methods proposed by P2MLF, focusing on scalability and privacy, applied to the training of CIDS. Among the evaluated methods, the one that presented the best balance between privacy and scalability - being 1.50 times faster than the approach with the highest privacy, based exclusively on MPC protocols with DP guarantees — is the method that combines an MPC protocol for aggregation of local models with DP guarantees and trained through Federated Learning (FL). |
metadata.dc.description.unidade: | Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC) |
metadata.dc.description.ppg: | Programa de Pós-Graduação em Informática |
Licença:: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
Collection(s) : | Teses, dissertações e produtos pós-doutorado |
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.