Alfons, A. (2010). On statistical simulation and robust statistics with application to Laeken indicators and quality of life research [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-38930
Statistical simulation; Robust statistics; R; Laeken indicators; Quality of life research
en
Abstract:
Durch die Komplexität moderner statistischer Methoden, insbesondere in der robusten Statistik, ist es oftmals nahezu unmöglich, analytische Resultate über ihre Eigenschaften zu erzielen. Folglich ist der Einsatz von Simulationsstudien um einen Einblick in die Qualität der entwickelten Methoden zu gewinnen unter Statistikern weit verbreitet.<br />Des Weiteren sind an Forschungsprojekten üblicherweise viele Wissenschafter beteiligt, oftmals von verschiedenen Institutionen, von denen sich jeder auf andere Aufgaben innerhalb des Projekts konzentriert. Deswegen sind genaue Richtlinien bezüglich des Designs der Simulationsstudien notwendig, um aussagekräftige Schlussfolgerungen ziehen zu können. Als Abhilfe wurde ein Framework für statistische Simulation entworfen und in dem R Paket simFrame implementiert, welches es in gemeinschaftlichen Forschungsprojekten erleichtert, vergleichbare Resultate zu erlangen.<br />Simulationsstudien in der offiziellen Statistik werden üblicherweise durchgeführt, indem wiederholt Stichproben aus einer endlichen Grundgesamtheit gezogen werden. Allerdings stehen Forschern echte Populationsdaten nur in Ausnahmefällen zur Verfügung, daher muss eine geeignete Grundgesamtheit künstlich erzeugt werden. Die simulierten Daten müssen so realistisch wie möglich sein, aber zugleich darf die statistische Geheimhaltung nicht verletzt sein. Dementsprechend wurde eine Methode zur Erzeugung von realitätsnahen Populationsdaten entwickelt und in dem R Paket simPopulation implementiert. Zusätzlich wird die statistische Geheimhaltung anhand verschiedener Worst Case Szenarien untersucht.<br />Die sogenannten Laeken Indikatoren sind eine Reihe von Indikatoren, die von der Europäischen Union zusammengestellt wurden, um Armutsgefährdung und sozialen Zusammenhalt innerhalb Europas zu messen. Jedoch sind einige dieser Indikatoren stark von Ausreißern am oberen Ende der Einkommensverteilung beeinflusst. Um den Einfluss solcher Ausreißer zu verringern, wird die robuste Modellierung des oberen Endes der Verteilung durch eine Pareto Verteilung mittels Simulationen untersucht.<br />Ausgewählte Laeken Indikatoren und Methoden zur Modellierung einer Pareto Verteilung wurden in dem R Paket laeken implementiert.<br />Statistische Modelle in den Sozialwissenschaften müssen auf eine sehr kleine Anzahl von erklärenden Variablen mit geringen gegenseitigen Abhängigkeiten beschränkt sein, um eine bessere Interpretierbarkeit zu gewährleisten. Um diese Ziele zu erreichen, wurde ein Verfahren entwickelt, das robuste Modellselektion mit einer Strategie zur Reduktion der Anzahl an ausgewählten Variablen auf ein nötiges Minimum kombiniert. Zudem wird das entwickelte Verfahren angewendet, um jene hauptverantwortlichen Faktoren zu finden, welche die Wahrnehmung von Lebensqualität in kleineren Gemeinden erklären.<br />
de
Due to the complexity of modern statistical methods, in particular in robust statistics, obtaining analytical results about their properties is often virtually impossible. Consequently, simulation studies are widely used by statisticians to gain insight into the quality of developed methods. In addition, research projects commonly involve many scientists, often from different institutions, each focusing on different aspects of the project. Hence precise guidelines regarding the design of simulation studies are necessary in order to draw meaningful conclusions. As a remedy, a general framework for statistical simulation designed to simplify obtaining comparable results in collaborative research projects has been implemented in the R package simFrame.<br />Simulation studies in survey statistics are typically performed by repeatedly drawing samples from a finite population. However, real population data are only in exceptions available to researchers.<br />Therefore, suitable population data need to be generated synthetically.<br />The simulated data need to be as realistic as possible, while at the same time ensuring data confidentiality. A method for generating close-to-reality population data for complex household surveys has thus been developed and implemented in the R package simPopulation.<br />Furthermore, data confidentiality issues are analyzed using several different worst case scenarios.<br />The Laeken indicators are a set of indicators defined by the European Union for measuring poverty and social cohesion in Europe. However, some of these indicators are highly influenced by outliers in the upper tail of the income distribution. In order to reduce the influence of outlying observations, the use of robust Pareto tail modeling is investigated in a simulation setting. Selected Laeken indicators and methods for Pareto tail modeling have been implemented in the R package laeken.<br />Statistical models in the social sciences need to be limited to a small number of explanatory variables with low interdependencies for better interpretability. To achieve these goals, a robust model selection method, combined with a strategy to reduce the number of selected predictor variables to a necessary minimum, has been developed. In addition, the proposed method is applied to obtain responsible factors describing the cognition of quality of life in smaller municipalities.<br />