Title: New developments in statistical disclosure control and imputation in official statistics
Language: English
Authors: Templ, Matthias
Qualification level: Doctoral
Keywords: Statistische Geheimhaltung; Imputation; Kompositionsdaten
Statistical Disclosure control; Imputation; Compositional Data
Advisor: Filzmoser, Peter
Assisting Advisor: Grossmann, Wilfried 
Issue Date: 2009
Number of Pages: 178
Qualification level: Doctoral
Abstract: 
Inhaltlich werden neuere Entwicklungen in zwei Forschungsgebieten - der Statistischen Geheimhaltung und der Imputation - vorgestellt.
Die statistische Geheimhaltung erlangte in den letzten beiden Jahrzehnten große Bedeutung.
Die Gesetzeslage, im besonderen das Datenschutzgesetz und das Bundesstatistikgesetz, verlangt, daß bei Weitergabe von Daten an die Offentlichkeit oder an Forscher keine Rueckschluesse auf statistische Einheiten (z.B. Personen oder Unternehmen) moeglich sein duerfen.
Ziel ist es, den Datenschutz einzuhalten und dennoch den Forschern brauchbare Daten zur Verfuegung stellen zu k¨onnen. Dies kann durch eine minimale Aenderung der Daten erreicht werden, ohne die multivariate Struktur der Daten zu veraendern. Die Standardmethoden fuer diese Datenmanipulation und die Methoden zur Evaluierung der Qualitaet der manipulierten Daten werden durch Ausreißer stark beeinflußt. Im Zuge dieser Arbeit wurden neue Methoden entwickelt, die es auch bei ausreißerbehafteten Daten ermoeglichen hochqualitative sensible Daten fuer Forscher zugaenglich zu machen, und die das Re-Identifizierungsrisiko dieser Daten sinnvoll schaetzen.
Eine statistische Geheimhaltung zielt auch immer auf das Sperren von gewissen Datenwerten ab, d.h. einzelne Datenwerte werden zu fehlenden Werten konvertiert.
Solche fehlenden Werte werden in der Regel mit deren Schaetzung (Imputation) ersetzt. Um eine geeignete Methode auswaehlen zu koennen, bedarf es einer gruendlichen explorativen Analyse der Daten. Zahlreiche neue graphische Methoden wuerden dazu entwickelt.
In den letzten beiden Kapiteln werden spezielle modellbasierte (robuste) Imputationsmethoden fuer Kompositionsdaten vorgestellt.
Die entwickelten Methoden wurden zusaetzlich in freie open-source Software implementiert

In this thesis two research topics are investigated - statistical disclosure control (SDC) and imputation. Especially the problem of privacy of statistical data has gained tremendous significance over the last two decades. Official laws, particularly the data protection laws and the Federal Statistics Law prohibit any re-identification of statistical units (e.g. persons or businesses) after the transfer of data to public or research institutions.
Its aim is to keep up the required statistical privacy while making viable data available to the researchers. This can be achieved with the help of minimal modifications of the data without changing the multivariate data structure.
However, many SDC-methods for microdata developed so far can be influenced by outliers to a great extent resulting in a high loss of information of the perturbed data. This means that the perturbed data which is made available by researchers turns out to be useless. The thesis describes both the robustification of some methods and some separate methods as well.
But also obviously incorrect entries in the data sets are changed to missing. These missing values must then be estimated (Data Imputation).
New ways of exploring missing values are outlined. Such visualisations of missing values allows to select a propoer imputation method. In the last part of the thesis the imputation of compositional data using robust methods is descibed. All developed methods are implemented in free and open-source software.
URI: https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24186
http://hdl.handle.net/20.500.12708/9007
Library ID: AC05040939
Organisation: E105 - Institut für Statistik und Wahrscheinlichkeitstherorie 
Publication Type: Thesis
Hochschulschrift
Appears in Collections:Thesis

Show full item record

Page view(s)

12
checked on Feb 18, 2021

Download(s)

56
checked on Feb 18, 2021

Google ScholarTM

Check


Items in reposiTUm are protected by copyright, with all rights reserved, unless otherwise indicated.