Kowarik, A. (2015). New computational tools and methods for official statistics [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.23294
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2015
-
Number of Pages:
169
-
Keywords:
Official Statistics; R; Statistical Computing
en
Abstract:
Statistische Software spielt eine wichtige Rolle in vielen Bereichen der offiziellen Statistik, wie z.B. statistische Geheimhaltung, Visualisierung, Imputation und Zeitreihenanalyse. Die Verwendung von Open Source Software, vor allem R (R Development Core Team, 2014), ist von zunehmender Bedeutung auf Grund von budgetären Restriktionen in nationalen Statistikinstituten (NSI) und verstärkter Kooperationen zwischen NSIs, speziell auf europäischer Ebene. NSIs sammeln eine sehr große Mengen an vertraulichen Daten und die meisten Erhebungen werden durch öffentlichen Mittel finanziert. Deshalb steigt der Bedarf und die Nachfrage nach anonymisierten Mikrodatensätzen stetig. Mit den Methoden der statistischen Geheimhaltung im R Paket sdcMicro (Templ et al., 2015, 2012b; Kowarik et al., 2012), haben NSIs die Möglichkeit ihre Mikrodaten auf Beobachtungen mit hohem Erkennungsrisiko zu uberprüfen und anschließend diese Beobachtungen zu schützen. Unabhängig von der Datenquelle sind in jedem Datensatz fehlende Werte präsent. Da die meisten statistischen Methoden einen vollständigen Datensatz benötigen, mussen diese fehlenden Werte vor deren Anwendung imputiert werden. Mit dem R Paket VIM (Templ et al., 2011a) können eine Vielzahl verschiedener Imputationsmethoden angewandt werden, z.B. Iterative Stepwise Regression Imputation (siehe Templ et al., 2011b). Visualisierung ist ein wichtiges Mittel um diverse Eigenschaft, speziell auch die Qualität der Daten zu verstehen. Mit dem R Paket sparkTable (Kowarik et al., 2014a) können klassische Tabellen mit numerischen Werten mit Sparklines und Sparkbars angereichert und verbessert werden (siehe Tufte, 2001). Sparklines und Sparkbars sind einfache Grafiken mit sehr viel Information auf kleinem Platz. Sie sind klein genug um Platz in einer Zeile bzw. einer Tabellenzelle zu finden. Saisonale Zeitreihenbereinigung als Teilgebiet der Zeitreihenanalyse ist von großer Bedeutung in der offiziellen Statistik, z.B. um zeitabhängige Daten vergleichbar zwischen verschiedenen Ländern zu machen. Das R Paket x12 (Kowarik and Meraner, 2014) dient als Schnittstelle zu der Software X12-ARIMA (siehe z.B. Hood and Monsell, 2010). Außerdem ist eine grafische Oberfläche in dem R Paket x12GUI (Schopfhauser et al., 2014) verfügbar. Die methodischen und programmiertechnischen Aspekte der genannten Gebiete werden in dieser Dissertation erörtert.
de
Statistical computing plays a key role in many aspects of official statistics, e.g. statistical disclosure control, visualisation, imputation and time series analysis. The usage of open source software like R (R Development Core Team, 2014) is of growing importance due to budgetary restrictions in national statistical institutes (NSIs). In addition, software can be used by multiple organisations and users without license costs and therefore the use of R supports cooperations between NSIs, especially on an European level. NSIs collect a huge amount of confidential data, usually financed by public funds. Therefore it is of increasing importance to release anonymized micro data back to the public and to researchers.. By including sophisticated statistical disclosure control methods in R package sdcMicro (Templ et al., 2015, 2012b; Kowarik et al., 2012), NSIs have the possibility to check the disclosure risk of their data sets and afterwards protect the observations with high disclosure risk. Independently of the data source, it is almost always the case that missing values are included in a data set. These missing values have to be replaced by estimated values (=imputation) before it is possible to apply standard statistical methods. With the R package VIM (Templ et al., 2011a) it is easily possible to apply a wide range of imputation methods, such as an iterative stepwise regression imputation approach (see Templ et al., 2011b). An important step in understanding a specific data set and its quality is visual analysis. With the R package sparkTable (Kowarik et al., 2014a) tables presenting quantitative information can be enhanced by including sparklines and sparkbars (initially proposed by Tufte, 2001). Sparklines and sparkbars are simple, intense and illustrative graphs, small enough to fit in a single line. Therefore they can easily enrich tables and continuous texts with additional information in a comprehensive visual way. Seasonal adjustment, a special topic of time series analysis, is of great importance in official statistics to make time-dependent data comparable between different countries or just different points in time. The R package x12 (Kowarik and Meraner, 2014) provides an interface to the X12-ARIMA software (see e.g. Hood and Monsell, 2010). Moreover an easy to use graphical user interface is available through the R package x12GUI (Schopfhauser et al., 2014). A methodological and computational framework for solving all the mentioned aspects is given in this thesis.