Niederhametner, N. (2023). Privacy-preserving data sharing : identifying records at risk for membership inference attacks against synthetic data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.114543
E194 - Institut für Information Systems Engineering
-
Datum (veröffentlicht):
2023
-
Umfang:
91
-
Keywords:
data privacy; privacy-preserving data publishing; membership inference attacks; machine learning; synthetic data; data anonymization
en
Abstract:
Mit der stetig wachsenden Menge an verfügbarer Daten nimmt die Nachfrage nach datenschutzerhaltenden Maßnahmen immer mehr zu. Die Verwendung synthetischer Daten als Maßnahme zur Wahrung des Datenschutzes von Mikrodaten gewinnt immer mehr an Popularität, insbesondere aufgrund ihrer Fähigkeit, die Qualität der Daten, und somit den Datennutzen zu erhalten. Gleichzeitig versucht man mit synthetischen ...
Mit der stetig wachsenden Menge an verfügbarer Daten nimmt die Nachfrage nach datenschutzerhaltenden Maßnahmen immer mehr zu. Die Verwendung synthetischer Daten als Maßnahme zur Wahrung des Datenschutzes von Mikrodaten gewinnt immer mehr an Popularität, insbesondere aufgrund ihrer Fähigkeit, die Qualität der Daten, und somit den Datennutzen zu erhalten. Gleichzeitig versucht man mit synthetischen Daten Datenschutzrisiken, die durch die Veröffentlichung entstehen, zu reduzieren. Synthetische Daten werden von einem Modell, welches mit realen Daten trainiert wurde, generiert. Das bedeutet, dass die Beobachtungen in den synthetischen Daten nicht direkt einem einzelnen Individuum im ursprünglichen Datensatz entsprechen. Dies sorgt dafür, dass synthetische Daten weniger anfällig für die Verknüpfung von Datensätzen oder die Re-identifikation sind. Trotz dieses Vorteils haben jüngste Studien potenzielle Risiken synthetischer Daten aufgedeckt. Diese Studien zeigen, dass synthetische Daten nicht immun gegen sogenannte Membership Inference Attacks (MIA) sind. Diese Attacken, oder auch Angriffe, versuchen zu ermitteln, ob ein bestimmtes Individuum zum Trainieren eines Modells verwendet wurde. Der Fokus dieser Arbeit liegt darin, die Angreifbarkeit von Modellen, die synthetische Daten generieren, zu evaluieren und besonders gefährdete Individuen zu identifizieren. Wir erweitern bereits veröffentlichte Arbeiten, indem wir das Risiko jedes Individuums quantifizieren und mithilfe statistischer Tests bewerten, ob Ausreißer im Vergleich zu Nicht-Ausreißern anfälliger für die Angriffe sind. Darüber hinaus schlagen wir vor, Individuen, die einem hohen Risiko für MIA ausgesetzt sind, aus dem Trainingsdatensatz zu entfernen, um sich gegen die Angriffe zu verteidigen. Wir analysieren die Effizienz dieser Angriffsverteidigung und evaluieren in wie fern diese Verteidigung jeweils Datennutzen und Datenschutz, der durch die Verteidigung eingeführt wird, beeinflusst.
de
As the volume of available data continues to surge, the demand for privacy-preserving measures intensifies. The use of synthetic data as a privacy-preserving measure for micro-data is gaining increasing popularity, especially due to its ability to maintain data utility while aiming to reduce disclosure risks. Synthetic data is artificially generated by a model that has been trained on real data. T...
As the volume of available data continues to surge, the demand for privacy-preserving measures intensifies. The use of synthetic data as a privacy-preserving measure for micro-data is gaining increasing popularity, especially due to its ability to maintain data utility while aiming to reduce disclosure risks. Synthetic data is artificially generated by a model that has been trained on real data. This means that the observations in the synthetic data do not directly correspond to any individual in the original dataset, making it less susceptible to record linkage or re-identification. Despite this advantage, recent studies have revealed potential risks related to membership disclosure, which can occur through membership inference attacks (MIA) that aim to determine if a specific record was used to train a model when publishing synthetic micro-level data. This thesis explores the potential of synthetic data as a solution to privacy-preserving data publishing. We extend prior work by quantifying the risk of each record's membership being correctly inferred, and, using statistical tests, assessing whether outliers are more vulnerable to the attack compared to inliers. Furthermore, we propose to remove records that are at high risk for membership inference attacks from the training set as a defense against the attacks and evaluate the defense performance and quantify the utility-privacy trade-off introduced by the defense.