Spoljaric, D. (2025). Variable stiffness for robust locomotion using reinforcement learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.125388
Die mit Reinforcement Learning erlernte Lokomotion bietet einen vielversprechenden Ansatz für beinige Roboter, da sie eine gute Generalisierung ermöglicht und das Überwinden von schwierigem Terrain erleichtert. Aktuelle Methoden basieren jedoch oft auf einem positionsbasierten Steuerungsparadigma, das eine zusätzliche Abstimmung der Gelenksteifigkeit erfordert – ein zeitaufwändiger Prozess, der für verschiedene Aufgaben möglicherweise erneut durchgeführt werden muss. Diese Arbeit untersucht, wie das Lernen variabler Steifigkeitssteuerungen für vierbeinige Roboter diese Einschränkungen überwinden kann. Konkret werden Gelenksteifigkeiten zusammen mit Gelenkpositionen in den Aktionsraum integriert. Um das Training zu vereinfachen und die Dimensionalität des Aktionsraums zu reduzieren, führen wir Strategien zur Gruppierung der Steifigkeiten ein, darunter steifigkeits-basierte Steuerungen pro Gelenk (PJS), pro Bein (PLS) und eine hybride Steuerung für Gelenk- und Beingruppen (HJLS). Wir demonstrieren die Effizienz unseres Ansatzes, indem wir ihn anhand der Metriken Geschwindigkeitsverfolgung, Störkraftkompensation und Energieeffizienz mit positionsbasierter Steuerung vergleichen. Wenn die Steifigkeiten nach Beinen gruppiert werden, übertrifft unser Controller (PLS) die positionsbasierte Steuerung sowohl bei der Geschwindigkeitsverfolgung als auch bei der Störkraftkompensation. Werden die Steifigkeiten hingegen für einzelne Bein- und Gelenkgruppen (HJLS) vorhergesagt, übertrifft unser Ansatz positionsbasierte Steuerungen mit hoher Steifigkeit in Bezug auf die Energieeffizienz. Experimente zum Sim-to-Real-Transfer bestätigen die Umsetzbarkeit unserer Methode und zeigen nur geringe Unterschiede bei allgemeinen Gehaufgaben. Insgesamt vereinfacht unser Ansatz das Design, da keine Abstimmung der Steifigkeiten für jedes Gelenk erforderlich ist, während gleichzeitig die Leistung bei Geschwindigkeitsverfolgung, Störkraftkompensation und Energieeffizienz verbessert wird oder gleich bleibt.
de
Reinforcement-learned locomotion offers a promising approach for legged robots as it generalises well and enables traversing in challenging terrains. However, current methods often rely on a position-based control paradigm, requiring additional joint stiffness tuning, which requires joint stiffness tuning—a time-consuming process that may need retuning for different tasks. This thesis addresses this limitation by exploring the benefits of learning variable stiffness control for quadruped robots. Specifically, it incorporates joint stiffnesses into the action space alongside joint positions. To simplify training and reduce the dimensionality of the action space, we introduce stiffness grouping strategies, including per-joint stiffness (PJS), per-leg stiffness (PLS), and hybrid joint-leg stiffness (HJLS). We demonstrate the efficiency of our approach by comparing it to position-based control across the metrics of velocity tracking, push recovery and energy efficiency. Our results show that variable stiffness policies using per-leg stiffness (Per Leg Stiffness (PLS)) outperform position-based control in velocity tracking and push recovery. Moreover, when stiffnesses are predicted for individual joint and leg groups (HybridJoint-Leg Stiffness (HJLS)), our approach achieves superior energy efficiency compared to high-stiffness position-based policies. Sim-to-real transfer experiments validate the feasibility of our method, revealing minimal differences in performance during general walking tasks. Overall, this thesis simplified the design process by eliminating the need for manual stiffness tuning while enhancing or maintaining performance in velocity tracking, push recovery and energy efficiency.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers