Examining Subject Selection Bias in Unlabeled Motion Capture Datasets using Gait Analysis

Kralofsky, Bernadette

doi:10.34726/hss.2026.122573

Record link:

https://doi.org/10.34726/hss.2026.122573
http://hdl.handle.net/20.500.12708/229056

Title:

Examining Subject Selection Bias in Unlabeled Motion Capture Datasets using Gait Analysis

Citation:

Kralofsky, B. (2026). Examining Subject Selection Bias in Unlabeled Motion Capture Datasets using Gait Analysis [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.122573

reposiTUm DOI:

10.34726/hss.2026.122573

CatalogPlus:

AC17906717

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Kralofsky, Bernadette

Advisor:

Spiel, Katta

Organisational Unit:

E193 - Institut für Visual Computing and Human-Centered Technology

Date (published):

2026

Number of Pages:

Keywords:

Motion Capture; Representation Bias; Gait Analysis; Algorithmic Fairness; Soft Biometrics; Automatic Gender Recognition

Abstract:

Repräsentationale Verzerrungen (Representation Biases) in grundlegenden Motion-Capture-Datensätzen (MoCap) stellen eine erhebliche Herausforderung für die Fairness und Verallgemeinerbarkeit von Machine-Learning-Modellen dar.Um derartige verborgene Einseitigkeiten in dem weit verbreiteten, jedoch nicht mit demografischen Metadaten versehenen MoCap-Datensatz der Carnegie Mellon University (CMU) aufzudecken, wurden Machine-Learning-Modelle auf bereits annotierten Datensätzen (LARa und AnDy) trainiert. Ziel war es, die Soft-Biometrics der Probanden, spezifisch Körpergröße, Gewicht, Alter und Geschlecht, aus den Bewegungsdaten abzuleiten. Eine Evaluierung verschiedener Regressionsansätze zeigt, dass die Vorhersage von Geschlecht, Gewicht und Alter anhand von Gangdaten allein stark zu Overfitting neigt und weitaus ungenauer ist, als es die bisherige Literatur vermuten lässt. Letztendlich konnte nur die Körpergröße zuverlässig geschätzt werden. Die Anwendung des Modells zur Größenschätzung auf den CMU-Datensatz belegt im Vergleich zur US-amerikanischen Gesamtbevölkerung eine statistisch signifikante Überrepräsentation von größeren Personen. Diese Ergebnisse unterstreichen das Vorhandensein demografischer Verzerrungen im untersuchten Datensatz und verdeutlichen außerdem die Notwendigkeit einer kritischeren Bewertung von bestehenden Modellen zur Vorhersage soft-biometrischer Daten aus dem Gang sowie der zu Grunde liegenden Trainingsdaten.

Representation biases in foundational motion capture (MoCap) datasets pose a significant challenge to the fairness and generalizability of machine learning models. To uncover such hidden biases in the widely used Carnegie Mellon University (CMU) MoCap Dataset, which lacks demographic metadata, I trained machine learning models on already annotated datasets (LARa and AnDy) to infer the subjects' soft-biometrics: height, weight, age, and gender. An evaluation of various regression approaches reveals that predicting gender, weight, and age from gait data alone is highly prone to overfitting and far less accurate than previous literature suggests. Ultimately, only height could be reliably estimated.Applying the height estimation model to the CMU dataset demonstrates a statistically significant bias toward taller individuals compared to the general US population. These findings underscore the presence of demographic skews in the widely used CMU MoCap dataset and also highlight the necessity for a more critical evaluation of gait-based soft-biometric prediction models and their underlying training data.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

License:

In Copyright

Appears in Collections:

Thesis