<div class="csl-bib-body">
<div class="csl-entry">Obukhov, E. (2025). <i>Robust covariance estimation for tensor-valued observations</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130300</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.130300
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/216531
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Diese Thesis stellt den Tensor Minimum Covariance Determinant (TMCD)-Schätzer vor, den ersten robusten Schätzer speziell für tensorwertige Beobachtungen. TMCD liefert einen Lagetensor und modenspezifische Kovarianzmatrizen, ohne die Daten zu vektorisieren, und bewahrt dabei die multilineare Struktur. Dadurch wird mehr Information erhalten, was zu genaueren und umfassenderen Schlussfolgerungen führt, und zugleich wird die Mindeststichprobengröße für eine nicht-degenerierte Inferenz radikal reduziert (was sowohl theoretisch als auch praktisch von Vorteil ist, da in der Realität die Dimension des Tensors oft die Stichprobengröße bei Weitem übersteigt). Darüber hinaus wird die Rechengeschwindigkeit drastisch erhöht. In der Implementierung wird die Bildung von Kronecker-Produkten vermieden, und mehrere Strategien sorgen für maximale Effizienz, was in einer sehr schnellen TMCD-Prozedur (in diesem Kontext) resultiert, wie zahlreiche Tests bestätigen. Der Algorithmus kombiniert geschlossene, modusweise Maximum-Likelihood-Aktualisierungen mit Fast-MCD-ähnlichen Verfeinerungszyklen. Der Algorithmus und die Implementierung sind für den 3D-Fall konzipiert, jedoch so ausgelegt, dass eine Erweiterung auf höhere Dimensionen unkompliziert ist. Entsprechende Implementierungen (jeweils an die eigene Matrixspeicher-Struktur angepasst) stehen in R und in einer GPU-beschleunigten PyTorch-Version zur Verfügung, die beide umfangreiche paketweise Matrixmultiplikationen auf gestapelten Beobachtungen nutzen. Mittlere Datensätze werden auf einem Laptop in Sekunden bis Minuten verarbeitet, während größere reale Datensätze auf einer einzelnen Cloud-GPU ebenfalls innerhalb von Minuten — in unseren Tests nie mehr als 11 — verarbeitet werden. Die von uns entwickelte zugrunde liegende (nicht-robuste) MLE-Routine ist ihrerseits um ein Vielfaches schneller als die beste derzeit verfügbare entsprechende Funktion in R.Umfangreiche Simulationen mit Daten aus tensor-normalverteilten Grundgesamtheiten zeigen, dass TMCD injizierte Ausreißer nahezu perfekt erkennt und dabei eine hohe Präzision aufweist. Tests an realen Videodaten – deren Verteilungen stark von der Normalität abweichen – demonstrieren, dass TMCD weiterhin anomale Beobachtungen isoliert und die für jede Anomalie verantwortlichen Zellen mithilfe einer Zerlegung der quadrierten Mahalanobis-Distanz genau identifiziert.Zur Förderung der Anwendung führt die Dissertation eine vereinfachte Tensor-Notation ein und stellt sämtlichen Code, Daten, reproduzierbare R-Markdown-Notebooks sowie PyTorch-/Colab-Workflows in einem öffentlichen GitHub-Repository zur Verfügung. Diese Ressourcen machen TMCD zu einem praxisnahen und skalierbaren Werkzeug für robuste Tensoranalysen.
de
dc.description.abstract
This thesis presents the Tensor Minimum Covariance Determinant (TMCD) Estimator, the first robust estimator designed for tensor-valued observations. TMCD yields a location tensor and mode-specific covariance matrices without vectorizing the data, preserving multilinear structure, which allows retaining more information and leads to more accurate and extended inferences, as well as radically reduces the minimum sample size needed for non-degenerate inference (which is beneficial both theoretically and practically, since in reality the ambient tensor dimension often far exceeds the sample size) and also radically increases computational speed. In the implementation, the formation of Kronecker products is avoided, and several strategies maximize its efficiency, resulting in a very fast (in this context) TMCD procedure, as confirmed by numerous tests. The algorithm blends closed-form, mode-wise maximum-likelihood updates with Fast-MCD-style refinement cycles. The algorithm and implementation are designed for the 3D case, but in such a way that extending to higher dimensions is straightforward. Corresponding implementations (each adapted to its own matrix storage structure) are made in R and a GPU-accelerated PyTorch, both of which exploit large batched matrix multiplications on stacked observations. Moderate data sets run from seconds to minutes on a laptop, while larger real data on a single cloud GPU are also processed within minutes, never more than 11 in our tests. The underlying (non-robust) MLE routine we developed is itself several times faster than the best current corresponding function implemented in R. Extensive simulations on data sampled from tensor-normal distributions show that TMCD detects injected outliers with near-perfect recall and high precision. Tests on real video data — whose distributions depart markedly from normality — demonstrate that TMCD still isolates anomalous observations and accurately pinpoints the cells driving each anomaly via a decomposition of the squared Mahalanobis distance. To foster adoption, the thesis introduces a streamlined tensor notation and releases all code, data, reproducible R Markdown notebooks, and PyTorch/Colab workflows in an open GitHub repository. These resources make TMCD a practical, scalable tool for robust tensor analysis.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
robust statistics
en
dc.subject
TMCD
en
dc.subject
tensor data
en
dc.subject
minimum covariance determinant
en
dc.subject
outlier detection
en
dc.title
Robust covariance estimation for tensor-valued observations