Todorov, V. (2009). Multivariate robust statistics: methods and computation [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/177800
Ausreißer gibt es in fast jedem Datensatz in jedem beliebigen Anwendungsbereich. Die Identifikation von Ausreißern hat eine hundert Jahre lange Geschichte. Viele Forscher in der Wissenschaft, Industrie und Wirtschaft arbeiten mit riesigen Mengen von Daten und das erhöht die Wahrscheinlichkeit, dass anomale Daten vorhanden sind und erschwert ihre (visuelle) Erkennung. Das Ziel der robusten Statistik ist die Entwicklung von Methoden, die trotz dem Vorhandensein von Ausreißern in den Daten vernünftige Ergebnisse produzieren sollen.<br />Diese Arbeit zielt darauf ab, einen Beitrag im Bereich der robusten multivariaten statistischen Analyse und ihrer rechnerischen Unterstützung zu leisten. Einige der bekanntesten robusten multivariaten Methoden werden untersucht, und neue Methoden werden vorgeschlagen. Ihre Eigenschaften werden in einer Vielzahl von Situationen bewertet und verglichen. Der Schwerpunkt liegt auf Methoden mit hohem Bruchpunkt für Diskriminanzanalyse, multivariate Tests und ihrer Basis, robuste Schätzer für multivariate Lokation und Kovarianz. Die Dissertation besteht aus einer Einführung, die einige grundlegende Konzepte der robusten Statistik beschreibt und sechs Kapitel, die veröffentlichte oder eingereichte Beiträge sind.<br />Die ersten drei Kapitel präsentieren neue robuste Methoden für Datenkonfigurationen mit mehreren Gruppen: Erstellung von robusten Regeln in der linearen Diskriminanzanalyse, robuste Variablenauswahl in der linearen Diskriminanzanalyse und robuste Tests für die one-way MANOVA. Das nächste Kapitel beschreibt eine Anwendung von robusten multivariaten Methoden in der regionalen Frequenzanalyse.<br />Die letzten beiden Artikel berichten über Berechnungsfragen von robusten multivariaten Statistiken.<br />Die routinemäßige Anwendung von robusten Methoden in vielfältigen Anwendungsbereichen wäre nicht denkbar ohne die Rechenkapazität von modernen PCs und die Verfügbarkeit von ready to use Implementierungen der Algorithmen. Es wird eine einheitliche rechnerische Plattform entwickelt, basiert auf gemeinsame Muster, die wir als statistische Entwurfsmuster definieren, in Anlehnung an die Entwurfmuster die weit verbreitet in der Software-Entwicklung sind.<br />Die konkrete Umsetzung ist ein objektorientiertes System für robuste multivariate Analyse, entwickelt in R (R Development Core Team, 2008), einer Umgebung für Statistik und Grafik.<br />
de
Outliers are present in virtually every data set in any application domain, and the identification of outliers has a hundred years long history. Many researchers in science, industry and economics work with huge amounts of data and this even increases the possibility of anomalous data and makes their (visual) detection more difficult.<br />The goal of robust statistics is to develop methods that can cope with the presence of outliers in the data and nevertheless produce reasonable results.<br />This thesis aims to contribute to the field of robust multivariate statistical analysis and its computational support. Some of the most popular robust multivariate methods are investigated and new methods are proposed. Their performance is evaluated and compared in a variety of situations. The focus is on high breakdown point methods for discriminant analysis, multivariate tests and their basis, the robust estimators for multivariate location and covariance. The thesis consists of an introduction presenting some basic concepts of robust statistics and six chapters which are published or submitted papers. The first three chapters investigate new robust methods in the multiple group setting: building robust linear discriminant rules, robust variable selection in the linear discriminant analysis and robust test for the one-way MANOVA. The next one proposes an application of robust multivariate methods in regional frequency analysis. The last two are dedicated to computational issues of robust multivariate statistics.<br />The routine use of robust methods in a wide area of application domains is unthinkable without the computational power of today's personal computers and the availability of ready to use implementations of the algorithms. A unified computational platform organized as common patterns which we call statistical design patterns in analogy to the design patterns widely used in software engineering is proposed.<br />The concrete implementation is an object oriented framework for robust multivariate analysis developed in R, an environment for statistical computing and graphics (R Development Core Team, 2008).