Ortner, B. (2015). Anonymization for sensitive linked stream data in bio-surveillance systems [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.25615
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2015
-
Number of Pages:
69
-
Keywords:
anonymization; linked data; streaming data
en
Abstract:
Moderne Gesundheismonitoringsysteme erfordern die automatisierte Weitergabe von persönlichen Daten. Linked Stream Data (LSD) unterstützt diesen Vorgang, indem die Daten in ein einheitliches Format konvertiert werden. Surveillance Systeme sammeln und analysieren diese Daten, um die Verbreitung von Krankheiten zu dokumentieren und vorherzusagen. Eine Gefahr der Verarbeitungskette ist, dass einzelne Personen identifiziert werden können, sogar wenn die verarbeiteten Daten anonymisiert wurden. Um dieses Problem zu lösen, schlagen wir einen neuen Anonymisierungsalgorithmus vor, der LSD in zwei Stufen anonymisiert. Zuerst werden personenbezogene Daten auf Basis der verfügbaren Datenmenge generalisiert oder unterdrückt. Danach analysiert der Algorithmus den zeitlichen Verlauf der Daten und verhindert so Inferenzattacken zwischen zeitlich verschiedenen Daten. Das minimiert die Menge der Daten, die durch den Anonymisierungsprozess verloren geht. Ein Ergebnis unserer Arbeit ist auch, dass der inkrementelle Anonymisierungsansatz einen geringeren Informationsverlust als der derzeitige Stand der Technik aufweist.
de
Sharing health care data is a vital requirement in any modern health care system. Linked Stream Data (LSD) facilitates sharing by representing the data in an uniform way. Surveillance systems collect and analyze large amount of data to detect the spread of a disease. As a result of collecting massive data, such systems potentially unmask certain individuals, even in cases where the consumed data itself is properly anonymized. We address this problem by proposing a novel anonymization algorithm that ensures adaptive anonymity of data streams in two steps. First, it suppresses or generalizes individual-related data depending on the amount of available data. Then, our algorithm analyzes the long-term behavior of anonymized data and precludes inference attacks between multiple data snapshots. This minimizes the amount of lost information when data is anonymized. A result of the algorithm is that the incremental anonymization approach produces less information loss than proposed approaches in the literature.