Templ, M. (2009). New developments in statistical disclosure control and imputation in official statistics [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24186
Statistical Disclosure control; Imputation; Compositional Data
en
Abstract:
Inhaltlich werden neuere Entwicklungen in zwei Forschungsgebieten - der Statistischen Geheimhaltung und der Imputation - vorgestellt.<br />Die statistische Geheimhaltung erlangte in den letzten beiden Jahrzehnten große Bedeutung.<br />Die Gesetzeslage, im besonderen das Datenschutzgesetz und das Bundesstatistikgesetz, verlangt, daß bei Weitergabe von Daten an die Offentlichkeit oder an Forscher keine Rueckschluesse auf statistische Einheiten (z.B. Personen oder Unternehmen) moeglich sein duerfen.<br />Ziel ist es, den Datenschutz einzuhalten und dennoch den Forschern brauchbare Daten zur Verfuegung stellen zu k¨onnen. Dies kann durch eine minimale Aenderung der Daten erreicht werden, ohne die multivariate Struktur der Daten zu veraendern. Die Standardmethoden fuer diese Datenmanipulation und die Methoden zur Evaluierung der Qualitaet der manipulierten Daten werden durch Ausreißer stark beeinflußt. Im Zuge dieser Arbeit wurden neue Methoden entwickelt, die es auch bei ausreißerbehafteten Daten ermoeglichen hochqualitative sensible Daten fuer Forscher zugaenglich zu machen, und die das Re-Identifizierungsrisiko dieser Daten sinnvoll schaetzen.<br />Eine statistische Geheimhaltung zielt auch immer auf das Sperren von gewissen Datenwerten ab, d.h. einzelne Datenwerte werden zu fehlenden Werten konvertiert.<br />Solche fehlenden Werte werden in der Regel mit deren Schaetzung (Imputation) ersetzt. Um eine geeignete Methode auswaehlen zu koennen, bedarf es einer gruendlichen explorativen Analyse der Daten. Zahlreiche neue graphische Methoden wuerden dazu entwickelt.<br />In den letzten beiden Kapiteln werden spezielle modellbasierte (robuste) Imputationsmethoden fuer Kompositionsdaten vorgestellt.<br />Die entwickelten Methoden wurden zusaetzlich in freie open-source Software implementiert
de
In this thesis two research topics are investigated - statistical disclosure control (SDC) and imputation. Especially the problem of privacy of statistical data has gained tremendous significance over the last two decades. Official laws, particularly the data protection laws and the Federal Statistics Law prohibit any re-identification of statistical units (e.g. persons or businesses) after the transfer of data to public or research institutions.<br />Its aim is to keep up the required statistical privacy while making viable data available to the researchers. This can be achieved with the help of minimal modifications of the data without changing the multivariate data structure.<br />However, many SDC-methods for microdata developed so far can be influenced by outliers to a great extent resulting in a high loss of information of the perturbed data. This means that the perturbed data which is made available by researchers turns out to be useless. The thesis describes both the robustification of some methods and some separate methods as well.<br />But also obviously incorrect entries in the data sets are changed to missing. These missing values must then be estimated (Data Imputation).<br />New ways of exploring missing values are outlined. Such visualisations of missing values allows to select a propoer imputation method. In the last part of the thesis the imputation of compositional data using robust methods is descibed. All developed methods are implemented in free and open-source software.
en
Additional information:
Zsfassung in dt. Sprache The thesis splits up to 8 papers which are published or submitted to several journals.