Siposova, A. (2023). Data exfiltration attacks and defenses in neural networks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.92803
E194 - Institut für Information Systems Engineering
-
Date (published):
2023
-
Number of Pages:
113
-
Keywords:
machine learning; adversarial attacks; exfiltration attacks; data confidentiality; neural networks; defenses; deep learning; steganography; information hiding
en
Abstract:
Datenqualität wirkt sich unmittelbar auf die Wirksamkeit von Modellen des maschinellen Lernens aus, und ihre Beschaffung ist oft mit erheblichen Investitionen verbunden. Fragen der Vertraulichkeit von Daten, insbesondere wenn es sich um sensible Informationen handelt, werden daher immer wichtiger. Algorithmen von Drittanbietern, die zur Erstellung von maschinellen Lernmodellen verwendet werden, können ein Risiko für die Vertraulichkeit solcher wertvollen Daten darstellen, da ihre Kapazität genutzt werden kann, um die Trainingsdaten zu verbergen, die anschließend von einem Angreifer exfiltriert werden können. Wir schlagen eine Taxonomie von Angriffen zur Datenexfiltration vor. Wir simulieren solche Angriffe in zwei Szenarien, die davon abhängen, welchen Zugriff ein Angreifer auf das endgültige, trainierte Modell hat - ein White-Box- oder ein Black-Box-Szenario. Um die Angriffe durchzuführen, passen wir einen zuvor vorgestellten Ansatz an, der mit künstlichen neuronalen Netzwerken arbeitet, die auf tabellarischen Daten trainiert wurden. Wir messen den Nutzen der Angriffe, indem wir die Ähnlichkeit der exfiltrierten Daten mit den originalen Trainingsdaten berechnen. Wir bestimmen die Angriffseinstellungen, die zu einer 100-prozentigen Ähnlichkeit der exfiltrierten Daten führen. Außerdem messen wir die Auswirkungen dieser Angriffe auf die Vorhersagekraft der zugrunde liegenden Modelle bei der ursprünglichen Klassifizierungsaufgabe. Anschließend implementieren wir entsprechende Abwehrmethoden. Wir zeigen, dass die gewählten Verteidigungsstrategien den aus den Angriffen resultierenden Schaden erfolgreich abmildern, ohne die Modellperformance zu beeinträchtigen, selbst wenn der Angreifer versucht, die Robustheit der Angriffe (z.B. durch Verwendung von error correction) zu erhöhen. Darüber hinaus zeigen wir, dass die Anwendung der Verteidigungsstrategien die Leistung der Basismodelle (d.h. der nicht angegriffenen Modelle) nicht wesentlich beeinträchtigt, was auf ihre Universalität hindeutet.
de
Quality of data directly impacts the effectiveness of machine learning models and its acquisition often involves substantial investments. Confidentiality issues concerning data, especially when sensitive information is involved, therefore become increasingly pertinent. Third-party algorithms employed for building machine learning models can pose a risk to the confidentiality of such valuable data, as their capacity can be exploited to hide the training data, which can be subsequently exfiltrated by an adversary. We introduce a taxonomy of data exfiltration attacks. Further, we simulate such attacks in two scenarios depending on the access an adversary has to the final, trained model - a white-box or a black-box scenario. To perform the attacks, we adapt a previously introduced approach (by Song et al.) to work with artificial neural networks trained on tabular data. We measure the utility of the attacks by calculating the similarity of exfiltrated data to the original data and determine the attack settings leading to a 100\% similarity of exfiltrated data. Additionally, we measure the impact these attacks have on the prediction effectiveness of the models on the original classification task. Subsequently, we implement corresponding defense methods. We show that the chosen defense strategies are successful at mitigating the impact of the attacks, without compromising the model performance, even when the adversary attempts to increase the robustness of the attacks (e.g. by employing error correction techniques). Moreover, we show that the application of the defenses does not compromise the performance of the base (i.e. not attacked) models, which hints at their universality.