Alfons, A. (2008). Principal component analysis and factor analysis in DAS+R [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/183565
principal component analysis; factor analysis; DAS+R; geostatistics
en
Abstract:
Hauptkomponentenanalyse (PCA) und Faktorenanalyse (FA) werden hauptsächlich zur Dimensionsreduktion eingesetzt. Während es sich bei PCA um eine einfache Datentransformation handelt, die normalerweise als erster Schritt für weitere Datenanalyse verwendet wird, benutzt FA ein kompliziertes Modell und eignet sich zur Auffindung von versteckten Zusammenhängen in den Daten. Beide Methoden basieren auf der Kovarianz- oder Korrelationsmatrix und sind deshalb sehr sensibel im Bezug auf Ausreißer und extreme Werte. Robuste Schätzer für Lage und Streuung können verwendet werden, um robuste Versionen von PCA und FA zu erhalten.<br />DAS+R ist ein Softwareprojekt zur Analyse geowissenschaftlicher Daten.<br />Weiters stellt es eine grafische Benutzeroberfläche (GUI) für das leistungsstarke Statistikpaket R zur Verfügung.<br />In dieser Diplomarbeit wird die mathematische Theorie hinter PCA und FA beschrieben. Verschiedene Möglichkeiten zur grafischen Darstellung der Resultate sowie robuste Versionen von PCA und FA werden präsentiert.<br />Zusätzlich wird auf Voraussetzungen an die Daten und mögliche Probleme mit geochemischen Daten eingegangen. Die Hauptaufgabe lag aber in der Entwicklung der Programme und der zugehörigen Benutzeroberfläche. Darum ist die Dokumentation der entwickelten Software der Hauptteil dieser Arbeit. In den Beispielen werden die Datensätze des Kola Ecogeochemistry Projekts verwendet.<br />
de
Principal component analysis (PCA) and factor analysis (FA) are mainly used for dimensionality reduction. While PCA is a simple data transformation that is typically used as a first step for further data analysis, FA uses a quite complex model and is suitable for detecting hidden structures in the data. Both methods are based on the covariance or correlation matrix and are thus very sensitive to outliers and extreme values. Robust estimators of central location and scatter, like the minimum covariance determinant (MCD) or the orthogonalized Gnanadesikan-Kettenring (OGK) estimator, can be used for robust versions of PCA and FA.<br />DAS+R is a software project that is focused on the analysis of data occurring in applied geosciences. Furthermore, it provides a graphical user interface (GUI) for the powerful R environment for statistical computing and graphics.<br />In this thesis, the mathematical theory of PCA and FA is described.<br />Different graphical displays of the results are presented as well as robust versions of PCA and FA. In addition, data requirements and possible problems with geochemical data are discussed. The main task, however, was developing the programs and the corresponding user interface dialogs. Thus, the documentation of the developed software is the main part of this thesis. In the examples, the data sets collected by the Kola Ecogeochemistry Project are used.