Im Rahmen dieser Diplomarbeit wird das Problem unvollständiger Beobachtungen in der Datenanalyse besprochen. Hierfür wird zuallererst das Ereignis "Fehlende Daten" und dessen Eigenschaften näher erörtert, worauf aufbauend verschiedene Lösungsansätze vorgestellt werden. Abgesehen von simplen Techniken wie dem Streichen unvollkommener Beobachtungen, liegt das Hauptaugenmerk auf dem Expectation Maximization Algorithmus und Multipler Imputation. Im Detail wird Multiple Imputation by Chained Equations auf Basis der Methode Predicitve Mean Matching präsentiert. In Folge an die Diskussion der verschiedenen Prozeduren werden die Verfahren an simulierten Datensätzen getestet. Es wird evaluiert, aus welcher Technik die besten Schätzer für den Mittelwert und die Kovarianzmatrix hervorgeht. Die Ergebnisse zeigen, dass unter bestimmten Voraussetzungen auch einfache Methoden zum Ziel führen. Abschließend steht ein lückenhafter Datensatz mit Informationen zu einer Flotte von Taxis bereit, welcher mithilfe vorgestellter Verfahren analysiert wird. Einerseits mit der simplen Herangehensweise unvollständige Beobachtungen nicht zu berücksichtigen, andererseits mit Multipler Imputation. Hierfür wird insbesondere das R-Paket mice bemüht. Anhand dieses praktischen Beispiels soll die Anwendung von Multipler Imputation sowie dessen Vorteile gegenüber einfacher Methoden demonstriert werden. Zu diesem Zweck werden typische Verfahren der Datenanalyse auf den Datensatz angewandt, nachdem das Problem "Fehlende Daten" behandelt wurde. Die Resultate zeigen, dass es für dieses Fallbeispiel vorzuziehen ist Multiple Imputation anzuwenden, anstatt unvollständige Beobachtungen zu löschen.
de
Data sets with missing values pose particular difficulties for the analysis. In this thesis some of the most common approaches for this problem are discussed, in particular, 'complete data analysis', 'mean imputation', 'regression imputation', the 'EM algorithm' and 'multiple imputation' strategies. These methods are compared via a simulation study. In addition a traffic data set with many missing values is analyzed with the EM algorithm and multiple imputation by chained equations.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers