Repräsentationale Verzerrungen (Representation Biases) in grundlegenden Motion-Capture-Datensätzen (MoCap) stellen eine erhebliche Herausforderung für die Fairness und Verallgemeinerbarkeit von Machine-Learning-Modellen dar.Um derartige verborgene Einseitigkeiten in dem weit verbreiteten, jedoch nicht mit demografischen Metadaten versehenen MoCap-Datensatz der Carnegie Mellon University (CMU) aufzudecken, wurden Machine-Learning-Modelle auf bereits annotierten Datensätzen (LARa und AnDy) trainiert. Ziel war es, die Soft-Biometrics der Probanden, spezifisch Körpergröße, Gewicht, Alter und Geschlecht, aus den Bewegungsdaten abzuleiten. Eine Evaluierung verschiedener Regressionsansätze zeigt, dass die Vorhersage von Geschlecht, Gewicht und Alter anhand von Gangdaten allein stark zu Overfitting neigt und weitaus ungenauer ist, als es die bisherige Literatur vermuten lässt. Letztendlich konnte nur die Körpergröße zuverlässig geschätzt werden. Die Anwendung des Modells zur Größenschätzung auf den CMU-Datensatz belegt im Vergleich zur US-amerikanischen Gesamtbevölkerung eine statistisch signifikante Überrepräsentation von größeren Personen. Diese Ergebnisse unterstreichen das Vorhandensein demografischer Verzerrungen im untersuchten Datensatz und verdeutlichen außerdem die Notwendigkeit einer kritischeren Bewertung von bestehenden Modellen zur Vorhersage soft-biometrischer Daten aus dem Gang sowie der zu Grunde liegenden Trainingsdaten.
de
Representation biases in foundational motion capture (MoCap) datasets pose a significant challenge to the fairness and generalizability of machine learning models. To uncover such hidden biases in the widely used Carnegie Mellon University (CMU) MoCap Dataset, which lacks demographic metadata, I trained machine learning models on already annotated datasets (LARa and AnDy) to infer the subjects' soft-biometrics: height, weight, age, and gender. An evaluation of various regression approaches reveals that predicting gender, weight, and age from gait data alone is highly prone to overfitting and far less accurate than previous literature suggests. Ultimately, only height could be reliably estimated.Applying the height estimation model to the CMU dataset demonstrates a statistically significant bias toward taller individuals compared to the general US population. These findings underscore the presence of demographic skews in the widely used CMU MoCap dataset and also highlight the necessity for a more critical evaluation of gait-based soft-biometric prediction models and their underlying training data.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft