Meraner, A. (2010). Outlier detection for semi-continuous variables [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-42342
Survey Daten bestehen in der Regel zu einem hohen Prozentsatz aus Nullen, was zu semi-stetigen Variablen führt.<br /> Die Auswahl an anwendbaren Ausreißererkennungsmethoden wird dadurch stark eingeschränkt. Als Lösungsansatz bietet sich an, die Nullen in den Daten als fehlende Werte (missing values) zu betrachten, diese mit einer geeigneten Imputationsmethode zu imputieren und herkömmliche Ausreißererkennungsmethoden auf die nun imputierten Daten anzuwenden.<br />Ein möglicher Nachteil dieser Methode ist allerdings die starke Abhängigkeit von den angewendeten Imputationsmethoden. Um diese zu vermeiden, wird in dieser Arbeit auf Schätzer eingegangen, bei denen die Nullen aus den Daten entfernt werden. Daraus können jedoch wiederum Probleme bei multivariaten Methoden entstehen, da bei der Entfernung aller Nullen eines Datensatzes eine zu geringe Anzahl an Beobachtungen übrig bleibt, um daraus allgemeine Schlüsse zu ziehen. Eine sinnvolle Alternative bietet deshalb der paarweise Ansatz bestimmter multivariater Methoden, infolgedessen die Nullen paarweise entfernt werden können, wodurch weniger Information verloren geht. Folglich werden in diesem Zusammenhang drei robuste paarweise Methoden für die Schätzung von Lokation und Streuung modifiziert, nämlich der OGK Schätzer (Maronna und Zamar 2002), der Schätzer für die Quadranten-Korrelation (Shevlyakov 1997, Blomqvist 1950, Mosteller 1946) und ein Schätzer, der auf robuster Hauptkomponentenanalyse basiert (Locantore et al. 1999).<br />Diese Modifizierungen wurden im Rahmen dieser Arbeit in der statistischen Umgebung "R" implementiert und sowohl mit den ursprünglichen paarweisen Methoden als auch mit zwei multivariaten Methoden, dem MCD Schätzer (Rousseeuw 1985) und dem BACON-EEM Algorithmus (Béguin und Hulliger 2008), verglichen.<br />
de
Survey data come with a high percentage of zeros, resulting in semi-continuous variables. This leads to a serious limitation of methods used for outlier detection.<br />One approach is to simply handle the zeros in the data as missing values, impute these "missings" with an appropriate imputation method and finally to apply conventional outlier detection methods on the imputed data. A possible disadvantage with this approach is the strong dependence on the performance of the imputation method used.<br />Therefore, we concentrate on estimates which omit observations with zeros.<br />However, this causes a problem for multivariate methods due to the fact that excluding observations with zeros might render a data matrix far too small for drawing significant conclusions.<br />Hence, a pairwise approach of certain multivariate methods seems rather sensible due to the fact that it is now possible to make use of a considerable amount of observations from the actual data without having to resort to imputation.<br />In this context, we adapted three robust estimators for the estimation of location and dispersion using the pairwise approach, namely the OGK estimator (Maronna und Zamar 2002), the quadrant correlation estimate (Shevlyakov 1997, Blomqvist 1950, Mosteller 1946) and an estimator based on robust PCA (Locantore et al. 1999).<br />These adaptations were implemented in the statistical environment "R" and compared to the original pairwise procedures as well as to two multivariate procedures, the MCD estimator (Rousseeuw 1985) and the BACON-EEM (Béguin und Hulliger 2008) algorithm.