Ortner, T. (2017). Local projections for high-dimensional data analysis [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.28001
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2017
-
Number of Pages:
108
-
Keywords:
projection pursuit; robustness; high dimensions; discrimination; clustering
en
Abstract:
Die Entwicklung im Bereich der Datenaquisemethoden der vergangenen Jahre führt zu immer größer werdenden Datensätzen. Dabei explodiert sowohl die Anzahl an Beobachtungen, als auch die Anzahl an Variablen. Klassische statistische Ansätze sind nicht dafür ausgelegt, um mit dieser neuen Situation adäquat umgehen zu können. Insbesondere flache Datenstrukturen mit mehr Variablen als Beobachtungen stellen ein erhebliches Problem dar, da diese Situation zu Singularitäten im Rahmen der Berechnung von statistischen Schätzern führt. Große Anzahlen an Variablen führen aber nicht nur zu Problemen sondern eröffnen auch neue Möglichkeiten in der Datenanalyse. Der am häufigsten angewandte Ansatz im Zusammenhang mit hochdimensionalen Daten ist die Reduktion der Dimension durch Variablenselektion oder Methoden wie z.B. Hauptkomponentenanalyse. Die Mehrheit dieser Ansätze berücksichtigt dabei die Information des Komplementes der Projektion nicht, obwohl dort im Allgemeinen ein Teil oder auch die Mehrheit der nützlichen Daten zu finden ist. Nur wenige Ansätze (z.B. Hubert et al., 2005; Kriegel et al., 2012) erkennen diesen Aspekt an. Wir entwickeln einen alternativen Projektionsansatz, der beide Informationen, die Distanzen zwischen Beobachtungen, sowie die Distanz zum Projektionsraum berücksichtigt. Zusätzlich vermeiden wir ein allgemeines Modell, das alle Daten gleichzeitig beschreibt, sondern entwickeln eine Serie von Projektionen, die die lokale Datenstruktur beschreibt. Diese Serie wird daher lokale Projektionen genannt. Wir stellen eine Reihe von Anwendungsmöglichkeiten dieser lokalen Projektionen aus den Bereichen Datentransformationen, Darstellungsmethoden zur Erkennung von Datenstrukturen, Ausreißererkennung und Klassifikationsanalyse vor. Jeder Ansatz verwendet die Möglichkeiten, die sich aus lokalen Projektionen und den Distanzen innerhalb der Projektion und zur Projektion ergeben, auf seine eigene Art und Weise.
de
The development of data collection methods over the last decades led to increasingly larger numbers of observations and variables. Classical statistical methods have not been designed to deal with this new situation. Especially flat data structures, where more variables than observations are present, pose the problem of singularities during the computation of statistical estimators required for data analysis approaches. Large numbers of variables do not just pose a problem in data analysis but also open up new opportunities. The most common practice in the context of high-dimensionality is the reduction of dimension by variable selection or other projection approaches like principal components analysis. The majority of those approaches does not take the information of the complement of the projection into account which typically still yields some if not the majority of the useful information. Few approaches (e.g. Hubert et al., 2005; Kriegel et al., 2012) acknowledge this aspect of high-dimensional data analysis. We propose an alternative to projection methods taking both information, the distance between observations within the projection space as well as the distance to the projection space into account. In addition, instead of using one overall model, we use a series of projections, locally describing the data structure. Therefore, our projection approach is named local projections. Several possibilities including data transformations, diagnostics for groups in the data structure, outlier detection and supervised classification methods based on local projections are presented. Each approach uses the opportunities of learning from the within-projection and to-projection distance in a unique way.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers