Robust covariance estimation for tensor-valued observations

Obukhov, Evgeny

doi:10.34726/hss.2025.130300

DC Field

Value

Language

dc.contributor.advisor

Filzmoser, Peter

dc.contributor.author

Obukhov, Evgeny

dc.date.accessioned

2025-06-30T11:09:34Z

dc.date.issued

2025

dc.date.submitted

2025-03

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Obukhov, E. (2025). <i>Robust covariance estimation for tensor-valued observations</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.130300</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2025.130300

dc.identifier.uri

http://hdl.handle.net/20.500.12708/216531

dc.description

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Diese Thesis stellt den Tensor Minimum Covariance Determinant (TMCD)-Schätzer vor, den ersten robusten Schätzer speziell für tensorwertige Beobachtungen. TMCD liefert einen Lagetensor und modenspezifische Kovarianzmatrizen, ohne die Daten zu vektorisieren, und bewahrt dabei die multilineare Struktur. Dadurch wird mehr Information erhalten, was zu genaueren und umfassenderen Schlussfolgerungen führt, und zugleich wird die Mindeststichprobengröße für eine nicht-degenerierte Inferenz radikal reduziert (was sowohl theoretisch als auch praktisch von Vorteil ist, da in der Realität die Dimension des Tensors oft die Stichprobengröße bei Weitem übersteigt). Darüber hinaus wird die Rechengeschwindigkeit drastisch erhöht. In der Implementierung wird die Bildung von Kronecker-Produkten vermieden, und mehrere Strategien sorgen für maximale Effizienz, was in einer sehr schnellen TMCD-Prozedur (in diesem Kontext) resultiert, wie zahlreiche Tests bestätigen. Der Algorithmus kombiniert geschlossene, modusweise Maximum-Likelihood-Aktualisierungen mit Fast-MCD-ähnlichen Verfeinerungszyklen. Der Algorithmus und die Implementierung sind für den 3D-Fall konzipiert, jedoch so ausgelegt, dass eine Erweiterung auf höhere Dimensionen unkompliziert ist. Entsprechende Implementierungen (jeweils an die eigene Matrixspeicher-Struktur angepasst) stehen in R und in einer GPU-beschleunigten PyTorch-Version zur Verfügung, die beide umfangreiche paketweise Matrixmultiplikationen auf gestapelten Beobachtungen nutzen. Mittlere Datensätze werden auf einem Laptop in Sekunden bis Minuten verarbeitet, während größere reale Datensätze auf einer einzelnen Cloud-GPU ebenfalls innerhalb von Minuten — in unseren Tests nie mehr als 11 — verarbeitet werden. Die von uns entwickelte zugrunde liegende (nicht-robuste) MLE-Routine ist ihrerseits um ein Vielfaches schneller als die beste derzeit verfügbare entsprechende Funktion in R.Umfangreiche Simulationen mit Daten aus tensor-normalverteilten Grundgesamtheiten zeigen, dass TMCD injizierte Ausreißer nahezu perfekt erkennt und dabei eine hohe Präzision aufweist. Tests an realen Videodaten – deren Verteilungen stark von der Normalität abweichen – demonstrieren, dass TMCD weiterhin anomale Beobachtungen isoliert und die für jede Anomalie verantwortlichen Zellen mithilfe einer Zerlegung der quadrierten Mahalanobis-Distanz genau identifiziert.Zur Förderung der Anwendung führt die Dissertation eine vereinfachte Tensor-Notation ein und stellt sämtlichen Code, Daten, reproduzierbare R-Markdown-Notebooks sowie PyTorch-/Colab-Workflows in einem öffentlichen GitHub-Repository zur Verfügung. Diese Ressourcen machen TMCD zu einem praxisnahen und skalierbaren Werkzeug für robuste Tensoranalysen.

dc.description.abstract

This thesis presents the Tensor Minimum Covariance Determinant (TMCD) Estimator, the first robust estimator designed for tensor-valued observations. TMCD yields a location tensor and mode-specific covariance matrices without vectorizing the data, preserving multilinear structure, which allows retaining more information and leads to more accurate and extended inferences, as well as radically reduces the minimum sample size needed for non-degenerate inference (which is beneficial both theoretically and practically, since in reality the ambient tensor dimension often far exceeds the sample size) and also radically increases computational speed. In the implementation, the formation of Kronecker products is avoided, and several strategies maximize its efficiency, resulting in a very fast (in this context) TMCD procedure, as confirmed by numerous tests. The algorithm blends closed-form, mode-wise maximum-likelihood updates with Fast-MCD-style refinement cycles. The algorithm and implementation are designed for the 3D case, but in such a way that extending to higher dimensions is straightforward. Corresponding implementations (each adapted to its own matrix storage structure) are made in R and a GPU-accelerated PyTorch, both of which exploit large batched matrix multiplications on stacked observations. Moderate data sets run from seconds to minutes on a laptop, while larger real data on a single cloud GPU are also processed within minutes, never more than 11 in our tests. The underlying (non-robust) MLE routine we developed is itself several times faster than the best current corresponding function implemented in R. Extensive simulations on data sampled from tensor-normal distributions show that TMCD detects injected outliers with near-perfect recall and high precision. Tests on real video data — whose distributions depart markedly from normality — demonstrate that TMCD still isolates anomalous observations and accurately pinpoints the cells driving each anomaly via a decomposition of the squared Mahalanobis distance. To foster adoption, the thesis introduces a streamlined tensor notation and releases all code, data, reproducible R Markdown notebooks, and PyTorch/Colab workflows in an open GitHub repository. These resources make TMCD a practical, scalable tool for robust tensor analysis.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

robust statistics

dc.subject

TMCD

dc.subject

tensor data

dc.subject

minimum covariance determinant

dc.subject

outlier detection

dc.title

Robust covariance estimation for tensor-valued observations

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2025.130300

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Evgeny Obukhov

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Mayrhofer, Marcus

tuw.publication.orgunit

E180 - Fakultät für Informatik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC17569018

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-8014-4682

item.languageiso639-1

item.grantfulltext

open

item.openairetype

master thesis

item.openaccessfulltext

Open Access

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.cerifentitytype

Publications

item.fulltext

with Fulltext

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(6.82 MB)

In Copyright

Show simple item record

Page view(s)

checked on Jun 30, 2025

Download(s)

checked on Jun 30, 2025

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM