Motion Policy Learning; Object-centric Learning; 3D Particles; Robotics; Manipulation
en
Abstract:
Das Erlernen motorischer Fähigkeiten durch visuelle Beobachtung ist ein grundlegender Bestandteil menschlicher Intelligenz, doch die Übertragung dieser Fähigkeit auf robotische Systeme bleibt eine offene Herausforderung. Aktuelle Ansätze entwickeln ein implizites Verständnis der 3D-Szenenstruktur durch roboterspezifisches Training. Der Transfer zwischen verschiedenen Roboterplattformen wird dabei durch die Skalierung der Trainingsdatenmenge erreicht; allerdings ist die Erhebung solcher Demonstrationsdaten kostspielig und zeitaufwendig. Andere 3D-basierte Methoden stützen sich auf kuratierte Datensätze, was ihre Skalierbarkeit auf Internetvideodaten einschränkt. Diese Arbeit adressiert beide Einschränkungen durch einen „Learning-from-Observation“-Ansatz, der Manipulationsstrategien direkt aus menschlichen Videodemonstrationen lernt und keine roboterspezifischen Trainingsdaten erfordert. Aufgabenrelevante Objekte werden aus RGB-D-Videos mithilfe von Detektions- und Segmentierungsmodellen extrahiert, wobei die resultierenden Masken zur Initialisierung 3D-Partikeltrajektorien verwendet werden, die durch ein Point-Tracking-Modell propagiert werden. Diese Trajektorien dienen als Trainingsdaten für ein konditioniertes Diffusionsmodell, das objektzentrierte Bewegungsmuster lernt, konditioniert auf der initialen Szenenbeobachtung und Aufgabenlabels. Im Einsatz extrahiert dieselbe Methode die Objektgeometrie aus einem Live-Kamerabild, generiert und bewertet Kandidatentrajektorien und führt die beste Trajektorie mithilfe eines kartesischen Impedanzreglers aus. Dadie Policy im objektzentrierten 3D-Raum anstelle des Roboterkonfigurationsraums operiert, ist sie per Design roboterunabhängig. Der Ansatz wird anhand einer Einschenkaufgabe in 77 realen Versuchen evaluiert und erreicht eine Erfolgsrate von 66,2%. Der Transfer auf eine zweite Roboterplattform erzielt 62,5% Erfolg ohne erneutes Training und bestätigt, dass die gelernte Repräsentation übertragbare geometrische Strukturen auf Aufgabenebene kodiert. In Experimenten mit unbekannten Objekten erreicht die Methode bis zu 50% Erfolg, während ein visuelles Diffusionsmodell als Baseline vollständig versagt, was den Vorteil expliziter 3D-objektzentrierter Repräsentationen gegenüber impliziter Tiefenwahrnehmung verdeutlicht. Insgesamt legen die Ergebnisse nahe, dass die partikelbasierte Repräsentation menschlicher Demonstrationen einen praktikablen und skalierbaren Ansatz zur Erlernung robuster, plattformunabhängiger Manipulationsstrategien darstellt.
de
Learning motor skills from visual observation is fundamental to human intelligence, yet transferring this capability to robotic systems remains an open challenge. Current approaches either develop implicit 3D scene understanding through large-scale robot-specific training on time-synchronized state(image) and action (robot pose) pairs. Cross-embodiment transfer is achieved by scaling the amount of data seen during training; however, collecting robot demonstrations is costly and time-consuming. Other 3D-aware methods rely on curated datasets (e.g., point clouds, simulation), restricting scalability to internet-scale video data. This thesis addresses both limitations with a Learning from Observation framework that learns robot manipulation policies directly from human video demonstrations, requiring no robot-specific training data. Task-relevant objects are segmented from RGB-D video using detection and segmentation models, with the resulting masks used to initialize dense 3D particle tracks propagated by a point-tracking model. These trajectories are used to train a conditional diffusion model that learns object-centric motion distributions conditioned on initial scene particles and task labels. At deployment, the same perception pipeline extracts object geometry from a live camera stream, generates and ranks candidate trajectories, and executes the best candidate via a Cartesian impedance controller. Because the policy operates in object-centric 3D space rather than robot configuration space, it is embodiment-agnostic by design. The framework is evaluated on a pouring task across 77 real-world trials, achieving 66.2% success in a fully open-loop setting and outperforming existing vision-based diffusion policies. Cross-embodiment transfer to a second platform yields 62.5% success without retraining, confirming that the learned representation encodes transferable task-level geometric structure. In generalization experiments with unseen objects, the proposed method achieves up to 50% success, where a visual diffusion policy baseline fails entirely, demonstrating the advantage of explicit 3D object-centric representations over implicit depth perception. These results suggest that particle-based tracking of human demonstrations provides a viable and scalable path toward robust, embodiment-independent manipulation policy learning.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers