Privacy-preserving data sharing : identifying records at risk for membership inference attacks against synthetic data

Niederhametner, Nina

doi:10.34726/hss.2024.114543

DC Field

Value

Language

dc.contributor.advisor

Rauber, Andreas

dc.contributor.author

Niederhametner, Nina

dc.date.accessioned

2024-01-26T10:15:54Z

dc.date.issued

2023

dc.date.submitted

2024-01

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Niederhametner, N. (2023). <i>Privacy-preserving data sharing : identifying records at risk for membership inference attacks against synthetic data</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.114543</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2024.114543

dc.identifier.uri

http://hdl.handle.net/20.500.12708/192811

dc.description.abstract

Mit der stetig wachsenden Menge an verfügbarer Daten nimmt die Nachfrage nach datenschutzerhaltenden Maßnahmen immer mehr zu. Die Verwendung synthetischer Daten als Maßnahme zur Wahrung des Datenschutzes von Mikrodaten gewinnt immer mehr an Popularität, insbesondere aufgrund ihrer Fähigkeit, die Qualität der Daten, und somit den Datennutzen zu erhalten. Gleichzeitig versucht man mit synthetischen Daten Datenschutzrisiken, die durch die Veröffentlichung entstehen, zu reduzieren. Synthetische Daten werden von einem Modell, welches mit realen Daten trainiert wurde, generiert. Das bedeutet, dass die Beobachtungen in den synthetischen Daten nicht direkt einem einzelnen Individuum im ursprünglichen Datensatz entsprechen. Dies sorgt dafür, dass synthetische Daten weniger anfällig für die Verknüpfung von Datensätzen oder die Re-identifikation sind. Trotz dieses Vorteils haben jüngste Studien potenzielle Risiken synthetischer Daten aufgedeckt. Diese Studien zeigen, dass synthetische Daten nicht immun gegen sogenannte Membership Inference Attacks (MIA) sind. Diese Attacken, oder auch Angriffe, versuchen zu ermitteln, ob ein bestimmtes Individuum zum Trainieren eines Modells verwendet wurde. Der Fokus dieser Arbeit liegt darin, die Angreifbarkeit von Modellen, die synthetische Daten generieren, zu evaluieren und besonders gefährdete Individuen zu identifizieren. Wir erweitern bereits veröffentlichte Arbeiten, indem wir das Risiko jedes Individuums quantifizieren und mithilfe statistischer Tests bewerten, ob Ausreißer im Vergleich zu Nicht-Ausreißern anfälliger für die Angriffe sind. Darüber hinaus schlagen wir vor, Individuen, die einem hohen Risiko für MIA ausgesetzt sind, aus dem Trainingsdatensatz zu entfernen, um sich gegen die Angriffe zu verteidigen. Wir analysieren die Effizienz dieser Angriffsverteidigung und evaluieren in wie fern diese Verteidigung jeweils Datennutzen und Datenschutz, der durch die Verteidigung eingeführt wird, beeinflusst.

dc.description.abstract

As the volume of available data continues to surge, the demand for privacy-preserving measures intensifies. The use of synthetic data as a privacy-preserving measure for micro-data is gaining increasing popularity, especially due to its ability to maintain data utility while aiming to reduce disclosure risks. Synthetic data is artificially generated by a model that has been trained on real data. This means that the observations in the synthetic data do not directly correspond to any individual in the original dataset, making it less susceptible to record linkage or re-identification. Despite this advantage, recent studies have revealed potential risks related to membership disclosure, which can occur through membership inference attacks (MIA) that aim to determine if a specific record was used to train a model when publishing synthetic micro-level data. This thesis explores the potential of synthetic data as a solution to privacy-preserving data publishing. We extend prior work by quantifying the risk of each record's membership being correctly inferred, and, using statistical tests, assessing whether outliers are more vulnerable to the attack compared to inliers. Furthermore, we propose to remove records that are at high risk for membership inference attacks from the training set as a defense against the attacks and evaluate the defense performance and quantify the utility-privacy trade-off introduced by the defense.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

data privacy

dc.subject

privacy-preserving data publishing

dc.subject

membership inference attacks

dc.subject

machine learning

dc.subject

synthetic data

dc.subject

data anonymization

dc.title

Privacy-preserving data sharing : identifying records at risk for membership inference attacks against synthetic data

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2024.114543

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Nina Niederhametner

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Mayer, Rudolf

tuw.publication.orgunit

E194 - Institut für Information Systems Engineering

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17052808

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-9272-6225

tuw.assistant.orcid

0000-0003-0424-5999

item.languageiso639-1

item.openairetype

master thesis

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.grantfulltext

open

item.cerifentitytype

Publications

item.fulltext

with Fulltext

item.mimetype

application/pdf

item.openaccessfulltext

Open Access

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(3.75 MB)

In Copyright

Show simple item record

Page view(s)

597

checked on Jan 26, 2024

Download(s)

376

checked on Jan 26, 2024

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM