<div class="csl-bib-body">
<div class="csl-entry">Niederhametner, N. (2023). <i>Privacy-preserving data sharing : identifying records at risk for membership inference attacks against synthetic data</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.114543</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2024.114543
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/192811
-
dc.description.abstract
Mit der stetig wachsenden Menge an verfügbarer Daten nimmt die Nachfrage nach datenschutzerhaltenden Maßnahmen immer mehr zu. Die Verwendung synthetischer Daten als Maßnahme zur Wahrung des Datenschutzes von Mikrodaten gewinnt immer mehr an Popularität, insbesondere aufgrund ihrer Fähigkeit, die Qualität der Daten, und somit den Datennutzen zu erhalten. Gleichzeitig versucht man mit synthetischen Daten Datenschutzrisiken, die durch die Veröffentlichung entstehen, zu reduzieren. Synthetische Daten werden von einem Modell, welches mit realen Daten trainiert wurde, generiert. Das bedeutet, dass die Beobachtungen in den synthetischen Daten nicht direkt einem einzelnen Individuum im ursprünglichen Datensatz entsprechen. Dies sorgt dafür, dass synthetische Daten weniger anfällig für die Verknüpfung von Datensätzen oder die Re-identifikation sind. Trotz dieses Vorteils haben jüngste Studien potenzielle Risiken synthetischer Daten aufgedeckt. Diese Studien zeigen, dass synthetische Daten nicht immun gegen sogenannte Membership Inference Attacks (MIA) sind. Diese Attacken, oder auch Angriffe, versuchen zu ermitteln, ob ein bestimmtes Individuum zum Trainieren eines Modells verwendet wurde. Der Fokus dieser Arbeit liegt darin, die Angreifbarkeit von Modellen, die synthetische Daten generieren, zu evaluieren und besonders gefährdete Individuen zu identifizieren. Wir erweitern bereits veröffentlichte Arbeiten, indem wir das Risiko jedes Individuums quantifizieren und mithilfe statistischer Tests bewerten, ob Ausreißer im Vergleich zu Nicht-Ausreißern anfälliger für die Angriffe sind. Darüber hinaus schlagen wir vor, Individuen, die einem hohen Risiko für MIA ausgesetzt sind, aus dem Trainingsdatensatz zu entfernen, um sich gegen die Angriffe zu verteidigen. Wir analysieren die Effizienz dieser Angriffsverteidigung und evaluieren in wie fern diese Verteidigung jeweils Datennutzen und Datenschutz, der durch die Verteidigung eingeführt wird, beeinflusst.
de
dc.description.abstract
As the volume of available data continues to surge, the demand for privacy-preserving measures intensifies. The use of synthetic data as a privacy-preserving measure for micro-data is gaining increasing popularity, especially due to its ability to maintain data utility while aiming to reduce disclosure risks. Synthetic data is artificially generated by a model that has been trained on real data. This means that the observations in the synthetic data do not directly correspond to any individual in the original dataset, making it less susceptible to record linkage or re-identification. Despite this advantage, recent studies have revealed potential risks related to membership disclosure, which can occur through membership inference attacks (MIA) that aim to determine if a specific record was used to train a model when publishing synthetic micro-level data. This thesis explores the potential of synthetic data as a solution to privacy-preserving data publishing. We extend prior work by quantifying the risk of each record's membership being correctly inferred, and, using statistical tests, assessing whether outliers are more vulnerable to the attack compared to inliers. Furthermore, we propose to remove records that are at high risk for membership inference attacks from the training set as a defense against the attacks and evaluate the defense performance and quantify the utility-privacy trade-off introduced by the defense.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
data privacy
en
dc.subject
privacy-preserving data publishing
en
dc.subject
membership inference attacks
en
dc.subject
machine learning
en
dc.subject
synthetic data
en
dc.subject
data anonymization
en
dc.title
Privacy-preserving data sharing : identifying records at risk for membership inference attacks against synthetic data
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2024.114543
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Nina Niederhametner
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Mayer, Rudolf
-
tuw.publication.orgunit
E194 - Institut für Information Systems Engineering