Oguamalam, J. (2022). Dimension reduction for compositional data with weights based on graph theory [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.102669
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2022
-
Number of Pages:
61
-
Keywords:
Compositional data; Principal component analysis
en
Abstract:
Beobachtet man multivariate, strikt positive Merkmale, welche relative Information zwischen jenen Variablen enthalten, spricht man heutzutage von Kompositionsdaten (englisch: compositional data). Nicht nur in der multivariaten Statistik, sondern auch im Bereich von Kompositionsdaten ist die Hauptkomponentenanalyse (HKA, englisch: principal component analysis) eine begehrte Methode der Dimensionsreduktion von Datensätzen. Verschiedene Merkmale in den beobachteten Daten unterschiedlich zugewichten, ist eine weitere Möglichkeit, welche die Dimension der Daten unter möglichst geringem Informationsverlust reduziert. Die dabei relevanten Größen werden von den Verhältnissen der Logarithmen der einzelnen Variablen gebildet. Diese Verhältnisse bezeichnet man im Englischen als logratios. Gemeinsam mit der zugrundeliegenden Aitchison-Geometrie, kann die Gewichtung der Daten in das sogenannte Aitchison Skalarprodukt integriert werden. Graphentheorie spielt ebenfalls eine wichtige Rolle, da sie die Struktur der Daten und deren Verteilung mit den Gewichten in Verbindung setzen kann. Dieses Konzept führt zu sogenannten Inversen Kovarianz Problemen. Solch ein Optimierungsalgorithmus wird in dieser Arbeit vorgestellt. Eine iterative Herangehensweise schätzt die sogenannte Laplace Matrix, welche in einem direkten Zusammenhang mit der Verteilung der Daten und den gesuchten Gewichten steht. Diese Matrix ermöglicht eine hinreichend gute Erklärung der Daten in niedriger Dimension.
de
A popular tool of dimension reduction in many statistical fields is principal component analysis (PCA). For the field of compositional data analysis (CoDA) weighting can be seen as a similar approach of dimension reduction as PCA. It is a desire to find those variables which explain a big part or even the majority of the variance of the whole data. These variables are transformed into a coordinate system where they are expressed by ratios of their logarithms. This concept is referred to as logratios and has many practical advantages. In the considered framework of the Aitchison geometry, weighting can be incorporated into the Aitchison inner product. Combined with graph theory, the weights can be related to the covariance of the distribution of the underlying data. These thoughts lead to so-called inverse variance problems. Next to a short introduction into compositional data, such a problem is considered in this thesis. An iterative algorithm is introduced to estimate a Laplacian matrix that is connected to the distribution of the compositional data. This eventually leads to a sparse solution while keeping the explained variance high.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers