Kösner, C. (2023). On estimating the signal dimension in tensorial PCA [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2023.65446
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
Date (published):
2023
-
Number of Pages:
42
-
Keywords:
Dimension reduction; bootstrap
en
Abstract:
In Modellen mit latenten Variablen, in denen die Dimension der nicht-beobachtbaren Daten als niedriger angenommen wird als die Dimension der beobachtbaren, wird erstere oft per Faustregel festgelegt. In der Hauptkomponentenanalyse handelt es sich hierbei um die Anzahl der zu behaltenden Komponenten. In dieser Arbeit wurde ein neuartiger Bootstrap-Test für die niedrigeren Dimensionen von latenten Tensoren in einem fehlerbehafteten Tensor Modell entwickelt. Dabei handelt es sich um eine Verallgemeinerung einer Vektor-Bootstrap Methode, die eine sphärische Verteilung für den Fehlervektor annimmt. Der Test kann pro Tensorstufe angewandt werden und seine Test-Statistik basiert auf Eigenwerten einer tensoriellen Version der Kovarianz, die sich ebenfalls für jede Stufe errechnen lässt. Damit ist er stark verknüpft mit der tensoriellen Hauptkomponentenanalyse. Der Test wurde auf simulierten Daten angewandt, wo sich mittels eines Teile-und-herrsche-Verfahrens die korrekten Dimensionen der Tensoren bestimmen ließen, wenn die Varianz der Fehlerkomponenten nicht ein Vielfaches der Varianz der latenten Tensorkomponenten war. Außerdem wurde der Test auf einem Datensatz aus Graustufen-Bildern angewandt und damit die niedrigeren Dimensionen einer Komponentenmatrix errechnet.
de
In latent variable models, where the unobserved data is assumed to be of lower dimension than the observed, the low rank dimension is often determined by a rule of thumb. In principal component analysis (PCA), this number corresponds to the number of retained principal components. In this thesis, a new bootstrap test for the low rank dimension of latent tensorial data in a noisy tensor model is developed, which can be applied mode-wise. This test is a generalization of a vector bootstrap method, which assumes a spherical distribution for the random error vector. Its test statistic is based upon the eigenvalues of the tensor mode-covariances and is therefore related to tensorial PCA. For simulated data, it was demonstrated, that a divide and conquer approach based on the bootstrap test can compute the correct low rank dimension, when the variance of the error tensor components is below the variance of the data components. The test was also applied on a dataset of greyscale pictures to compute the lower dimensions of a component matrix.