Technische Universität Wien 
A-1040 Wien ▪ Karlsplatz 13 ▪ Tel. +43-1-58801-0 ▪ www.tuwien.ac.at 
 
Visualisierungs- und 
Interaktionstechniken für das 
Lernen komplexer Bewegungen 
mit HMD 
MAGISTERARBEIT 
zur Erlangung des akademischen Grades 
Magister der Sozial- und Wirtschaftswissenschaften 
im Rahmen des Studiums 
Informatikmanagement 
eingereicht von 
Georg Gerstweiler 
Matrikelnummer 0225028 
 
 
 
 
an der 
Fakultät für Informatik der Technischen Universität Wien  
 
 
 
Betreuer: Priv.-Doz. Mag. Dr. Hannes Kaufmann, Univ. Ass. 
 
 
Mitbetreuung: Dipl.-Ing. Dr.techn. Christian Schönauer; 
 
 
 
 
Wien, 27.11.2015     
 (Unterschrift Verfasser/in) (Unterschrift Betreuer/in) 
 
Die approbierte Originalversion dieser Diplom-/ 
Masterarbeit ist in der Hauptbibliothek der Tech-
nischen Universität Wien aufgestellt und zugänglich. 
 
http://www.ub.tuwien.ac.at 
 
 
 
 
The approved original version of this diploma or 
master thesis is available at the main library of the 
Vienna University of Technology. 
 
http://www.ub.tuwien.ac.at/eng 
 

 
i    2015 
 
 
Erklärung zur Verfassung der Arbeit 
 
 
Georg Gerstweiler 
1220 Wien  
 
 
 
„Hiermit erkläre ich, dass ich die mit meinem Namen markierten Teile der Arbeit 
selbständig verfasst habe, dass ich die verwendeten Quellen und Hilfsmittel 
vollständig angegeben habe und dass ich die Stellen der Arbeit – einschließlich 
Tabellen, Karten und Abbildungen –, die anderen Werken oder dem Internet im 
Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der 
Quelle als Entlehnung kenntlich gemacht habe.“  
 
 
 
 
Wien, am 27.11.2015, ___________________________ 
  
2015  ii 
Abstract 
Learning motion skills in Virtual Reality environments requires not only a precise 
motion tracking system, but also adequate visualization possibilities of human 
motions and real-time feedback. Current head mounted displays allow users of 
such systems a realistic and immersive experience. For that reason, the work is 
presenting various visualization methods for complex motion sequences in VR in 
order to support the process of motion learning. The developed methods are 
especially adapted for use in systems equipped with a real-time motion detection 
system and an HMD as visual output device. 
The work at hand is presenting two different methods for observing complex 
holistic movement sequences of an avatar. Another four advanced visualization 
techniques are explored for viewing the training environment, which have 
advantages especially if the movement contains rotations that force the user to 
look away from the avatar. In addition, three variants have been developed to 
provide a visual and active user feedback, by presenting the motion error in real-
time or as a summary. For autonomous control of the implemented techniques, 
three possibilities for interaction were integrated into the environment and 
analyzed for their suitability in context of motor learning. A report on a conducted 
study with nine users shows the acceptance of the developed visualization and 
interaction techniques based on a complex exercise of Taekwondo. 
 
 
 
Keywords: 
Virtual Reality, Visualization, Interaction, Education in Sports, Motor Learning, Head Mounted 
Display; 
  
 
iii    2015 
Kurzfassung 
Das Aneignen komplexer motorischer Fähigkeiten in einer Virtual-Reality-
Umgebung bedarf nicht nur präziser Motion-Tracking-Systeme, sondern auch 
einer angemessenen Visualisierung optimaler Bewegungsabfolgen und einer 
entsprechenden Präsentation von Echtzeit-Feedbackvarianten. Head-Mounted-
Displays erzeugen für den Benutzer solcher Systeme eine realitätsnahe und 
daher immersive Lernumgebung. Aus diesem Grund beschreibt die vorliegende 
Arbeit die Entwicklung und die Analyse verschiedener Visualisierungsmethoden 
für das Erlernen komplexer Bewegungsabfolgen. Dabei wurden diese Methoden 
speziell für den Einsatz in Systemen angepasst, welche über eine Echtzeit-
Bewegungserkennung verfügen und ein HMD als Ausgabegerät verwenden. 
Die vorliegende Arbeit präsentiert zwei verschiedene Methoden zur Beobachtung 
von Bewegungsabfolgen eines Avatars. Aufgrund der Komplexität ganzheitlicher 
Bewegungen werden vier erweiterte Visualisierungen umgesetzt, die speziell bei 
Drehungen und Positionen welche die Blickrichtung beeinflussen, Vorteile 
aufweisen. Darüber hinaus wurden drei Varianten entwickelt um Benutzer ein 
aktives Feedback bereitzustellen, welche in Echtzeit oder als Zusammenfassung 
Fehler im Bewegungsablauf visuell darstellen. Für eine autonome Steuerung der 
implementierten Techniken wurden zusätzlich drei Interaktionsmöglichkeiten 
integriert und deren Einsatz in einer VR-Lernumgebung für motorische 
Fähigkeiten studiert. Eine Benutzerstudie mit neun Probanden zeigt die 
Akzeptanz der entwickelten Visualisierungs- und Interaktionstechniken anhand 
einer komplexen Übung aus Taekwondo. 
 
 
Schlüsselwörter: 
Virtual Reality, Visualisierung, Interaktion, Pädagogik in Sport, Training motorischer Fähigkeiten, 
Head-Mounted-Display;   
2015  iv 
 
 
 
Danksagung 
Für die hervorragende Leitung und ausgezeichnete Betreuung möchte ich mich 
einleitend bei meinem Betreuer, Herrn Priv.-Doz. Mag. Dr. Hannes Kaufmann, Univ. 
Ass., bedanken.  
Drüber hinaus möchte ich mich bei meinen Kollegen, besonders Emanuel Vonach und 
Christian Schönauer für die Unterstützung bei der Erstellung der Diplomarbeit bedanken. 
Besonderer Dank gebührt meiner Familie. Vor allem meiner Frau und unseren zwei 
Kindern, die mich tatkräftig unterstützt haben, möchte ich mich herzlich bedanken. Ihr 
und meinen beiden Söhnen, Tobias und Felix gilt das Versprechen, die hier gut 
investierte Zeit gemeinsam nachzuholen. 
 
 
 
Einleitung 
2015  1 
Inhalt 
1. Einleitung ___________________________________________________ 3 
2. Motivation und Ziele __________________________________________ 5 
2.1. Motivation ........................................................................................................... 5 
2.2. Ziele und Abgrenzung ....................................................................................... 6 
3. State-of-the-Art ______________________________________________ 9 
3.1. Visualisierungstechniken .................................................................................. 9 
3.2. Avatar- und Fehlervisualisierung ................................................................... 12 
3.3. Interaktionstechniken ...................................................................................... 16 
4. Analyse der Kernkomponenten ________________________________ 17 
4.1. Aspekte motorischen Lernens ........................................................................ 17 
4.1.1. Visuelles Lernen ____________________________________________ 17 
4.1.2. Feedback _________________________________________________ 19 
4.2. Setup ................................................................................................................. 21 
4.2.1. Tracking Technologiegrundlagen _______________________________ 21 
4.2.2. MoCapGym ________________________________________________ 23 
4.2.3. Analyse von HMDs als Ausgabegerät ____________________________ 24 
4.2.4. Interaktionsmöglichkeiten für VR-Umgebungen ____________________ 29 
5. Entwickelte Visualisierungstechniken __________________________ 34 
5.1. Erweiterung der bestehenden Software ........................................................ 34 
5.2. Darstellung der optimalen Bewegung ............................................................ 39 
5.3. Visualisierung zur Selbstwahrnehmung ........................................................ 42 
5.3.1. Einfacher Spiegel ___________________________________________ 42 
5.3.2. Spiegelwände ______________________________________________ 43 
5.3.3. Avatare in Blickrichtung _______________________________________ 45 
5.3.4. Bild-in-Bild _________________________________________________ 46 
5.4. Fehlervisualisierung ........................................................................................ 48 
5.4.1. Feedback durch farbliche Kennzeichnung ________________________ 48 
5.4.2. Nachzieheffekt _____________________________________________ 49 
5.4.3. Kumulatives Feedback _______________________________________ 51 
6. Interaktionstechniken ________________________________________ 53 
 
 
Einleitung 
2  2015 
6.1. Gamecontroller ................................................................................................ 53 
6.2. Sprachsteuerung ............................................................................................. 54 
6.3. Gestensteuerung ............................................................................................. 56 
7. Evaluierung _________________________________________________ 58 
7.1. Studiendesign .................................................................................................. 58 
7.1.1. Setup ____________________________________________________ 58 
7.1.2. Bewegungsablauf ___________________________________________ 60 
7.1.3. Fragebogen _______________________________________________ 61 
7.2. Studienablauf ................................................................................................... 63 
7.3. Resultate .......................................................................................................... 66 
8. Diskussion & Conclusio ______________________________________ 74 
9. Ausblick ___________________________________________________ 77 
10. Appendix – Fragebogen _____________________________________ 78 
11. Literaturverzeichnis _________________________________________ 86 
12. Abbildungsverzeichnis ______________________________________ 90 
 
  
 
 
Einleitung 
2015  3 
1. Einleitung 
Das Erlernen motorischer Fähigkeiten ist in vielen Bereichen des Lebens ein 
wichtiger Bestandteil. Vor allem im Sport oder der Rehabilitation ist es notwendig 
Bewegungsabfolgen richtig nachzuahmen bzw. zu verinnerlichen, wobei nicht 
immer eine Person zur Verfügung steht, die diese Übung auch entsprechend 
vorführen kann. An diesem Punkt kann eine Anwendung mit Virtual-Reality (VR) 
anknüpfen und eine Möglichkeit zum Vermitteln ganzheitlicher Bewegungen 
bieten. In der Literatur wurden bereits einige Versuche durchgeführt 3D-
Animationen in Kombination mit Bewegungserkennung zu verknüpfen, um nicht 
auf bloßes Betrachten beschränkt zu sein, sondern diese Animationen auch in 
Beziehung zu einer aktuellen Bewegung eines Schülers zu setzen. In bisherigen 
Arbeiten wurden jedoch häufig 2D- oder 3D-Darstellungen auf Projektionsflächen 
für die visuelle Ausgabe benutzt, welche meist nur wenige Möglichkeiten der 
Interaktion bzw. der Betrachtung erlaubten. Nur sehr wenige Arbeiten 
untersuchten eine Umsetzung mittels eines Head-Mounted-Displays (HMD). Ein 
solches Ausgabegerät wird ähnlich einer Skibrille aufgesetzt und könnte durch 
eine 3D-Darstellung und ein hohes Maß an Bewegungsfreiheit für das Erlernen 
einer komplexen Bewegungsabfolge viele Vorteile bringen. Aufgrund des 
Umstands, dass diese Arbeiten in den Jahren zwischen 2003 und 2004 (Crivella 
et al. 2003; Hachimura et al. 2004) entstanden sind, entspricht die Qualität der 
Anzeigegeräte und der Systeme zur Echtzeit-Bewegungserkennung bei weitem 
nicht mehr dem mittlerweile verfügbaren Stand der Technik. Dies könnte die 
Ergebnisse dieser Studien im negativen Sinne beeinflusst haben. Neue HMDs 
bieten eine höhere Auflösung von mindestens 1080p im Vergleich zu 640x460 
Pixel, ein Sichtfeld von 110° und mehr im Vergleich zu 50° und ein flüssiges Kopf-
Tracking. Das alles sind Faktoren die einen längeren Einsatz der Technologie 
erlauben und massiven Einfluss auf die Eignung für motorisches Lernen haben 
könnten. 
Aus diesem Grund konzentriert sich die vorliegende Arbeit auf die Entwicklung 
von Visualisierungs- und Interaktionstechniken für ein voll-immersives VR-Setup, 
unter Verwendung eines HMDs, zum Erlernen motorischer Fähigkeiten. Zu 
Beginn der Arbeit werden verschiedene Einflüsse auf das motorische Lernen in 
der Theorie diskutiert und damit die Bedeutung des Ausbildens einer 
 
 
Einleitung 
4  2015 
Bewegungsvorstellung für den Lernprozess hervorgehoben. Darauf aufbauend 
präsentiert die vorliegende Arbeit eine Vielzahl an Visualisierungs- und 
Interaktionstechniken, welche in einer ausführlichen Benutzerstudie mit neun 
Probanden evaluiert werden. 
In dieser Arbeit wird auf vorhandene Grundfunktionalitäten der Anwendung 
MoCapGym (Vonach 2015) zurückgegriffen, beispielsweise die Anbindung an ein 
Tracking-System. Davon ausgehend wurden zunächst zwei unterschiedliche 
Methoden entwickelt, welche einem Lernenden die Bewegungsabfolge näher 
bringen sollen. Darüber hinaus wurden vier Konzepte umgesetzt um dem Schüler 
das Erfassen der Trainingsumgebung und seines eigenen Avatars im virtuellen 
Raum auch während einer Bewegungsausführung zu erlauben. Basierend auf 
Theorien zu allgemeinem Feedback im Sport wurden in Zuge dieser Arbeit auch 
drei visuelle Darstellungsvarianten implementiert, um Fehler im 
Bewegungsablauf auf unterschiedlichen Abstraktionsebenen zu beschreiben. 
Die so entstandenen Visualisierungstechniken können beliebig miteinander 
kombiniert als mächtiges Werkzeug für das Erlernen von Bewegungsabläufen 
dienen. Um dem Schüler die Möglichkeit zu geben die Applikation autonom zu 
steuern, beschreibt die vorliegende Arbeit darüber hinaus drei geeignete 
Interaktionstechniken für VR-Anwendungen, welche im Zuge einer Evaluierung 
analysiert werden. Eine ausführliche Präsentation und Analyse der 
durchgeführten Benutzerstudie schließt die Arbeit ab.  
 
 
Motivation und Ziele 
2015  5 
2. Motivation und Ziele 
Dieses Kapitel konzentriert sich auf die grundlegenden Aspekte der vorliegenden 
Arbeit, welche zur Struktur und allgemeinen Vorgehensweise geführt haben. 
Hierzu wird zunächst die Motivation für die behandelte Thematik beschrieben und 
eine zentrale Hypothese abgeleitet. Um die vorliegende Arbeit in einem 
vordefinierten Rahmen zu halten, werden ausgehend von der Hypothese genaue 
Ziele definiert, die im Zuge der Entwicklungs- bzw. Evaluierungsphase 
berücksichtigt wurden. Da die behandelte Thematik eine Vielzahl an 
wissenschaftlichen Aspekten zulässt werden abschließend Themenstellungen 
beschrieben, welche die Abgrenzung der Arbeit definieren. 
2.1. Motivation 
Verschiedene Faktoren hatten auf die Entstehung dieser Diplomarbeit Einfluss. 
Der Autor beschäftigte sich bereits in der Vergangenheit im Zuge mehrerer 
Projekte mit dem Forschungsgebiet Virtual- und Augmented-Reality. Hierbei 
wurden unter anderen Thematiken wie Motion-Tracking, stereoskopische 
Anzeigegeräte und Interaktionstechniken in VR erforscht. Ein Vorprojekt widmete 
sich eingehend der Entwicklung eines aktiven Motion-Capture-Anzuges für das 
Erlernen motorischer Fähigkeiten im Sport (Gerstweiler & Vonach 2011). Aus 
diesen Gründen führt diese Arbeit einen weiteren Schritt in Richtung eines 
optimalen Lernens von Bewegungsabfolgen unter Zuhilfenahme von Virtual-
Reality-Technologien und Visualisierungstechniken. 
Die Thematik des autonomen Erlernens von Bewegungsabfolgen ohne Beisein 
eines Lehrers ist ein komplexes Unterfangen. Aus dem momentanen 
Wissensstand ist es naheliegend eine VR-Anwendung zu entwickeln, da die dazu 
notwendigen Technologien bereits für den Endanwender leistbar sind, wenn 
auch teilweise mit geringerer Qualität. Hierzu zählen Beispielsweise die Asus 
Xiton oder Microsoft Kinect für Motion-Tracking oder Head-Mounted-Displays wie 
die Oculus Rift für eine stereoskopische Visualisierung. Eine Vielzahl an 
Projekten spezialisierte sich in der Vergangenheit auf die Entwicklung von 
technischen Hilfsmitteln für Motion-Tracking oder auch auf das Design von 
Lernmodellen. Dabei werden jedoch oft die Möglichkeiten einer VR-
Lernumgebung in Bezug auf Visualisierungs- und Interaktionstechniken 
 
 
Motivation und Ziele 
6  2015 
vernachlässigt. Die Thematik des vorliegenden Projekts entstand einerseits aus 
dem Vorwissen des Autors in den Bereichen VR und andererseits aus den 
Resultaten der Entwicklung eines Motion-Suits. Hierbei zeigte sich, dass allein 
eine animierte dreidimensionale Darstellung einer Bewegung auf einem 
Bildschirm zwar hilfreich ist, diese für das Erlernen jedoch nicht genügend 
Feedback liefert um komplexere Bewegungsabfolgen in ihrer Gesamtheit zu 
Verstehen. Beispielsweise wenn der Benutzer durch Nachahmen von Drehungen 
dazu gezwungen wird die Blickrichtung zu ändern, sodass er die Vorführung nicht 
mehr verfolgen kann. Aus diesem Grund spezialisiert sich die vorliegende Arbeit 
auf drei Schwerpunkte, welche ein Erlernen erleichtern sollten. Darunter befinden 
sich: die Erweiterung der virtuellen Inhalte bzw. Feedbackmöglichkeiten, die 
Integration eines aktuellen stereoskopischen Displays und der Einsatz von 
verschiedenen Interaktionstechniken in der virtuellen Umgebung. Speziell eine 
Umsetzung von Visualisierungstechniken, die in der Realität nicht möglich wären, 
könnte das Verstehen einer Bewegung für den Benutzer vereinfachen. 
Die rasante Entwicklung von Head-Mounted-Displays in den letzten Jahren in 
Hinblick auf Auflösung, Größe des Sichtfelds und Reaktionszeit ermöglichen nun 
den längerfristigen Einsatz in VR-Umgebungen, da die Gefahr von Simulator 
Sickness reduziert wird. Daher könnte ein voll-immersives VR-Szenario massive 
Vorteile bei der Analyse von Bewegungsabfolgen bringen, vor allem wenn die 
Visualisierungstechniken genau auf diesen Fall zugeschnitten wurden. Aus 
diesem Grund wird für die vorliegende Arbeit folgende zentrale Hypothese 
definiert: 
 
Eine voll-immersive VR-Lernumgebung unter Verwendung von Motion-
Tracking und HMD bietet durch speziell angepasster Visualisierungs- und 
Interaktionstechniken eine geeignete Plattform zum Lernen ganzheitlicher 
Bewegungen. 
2.2. Ziele und Abgrenzung 
Die Definition von Zielen ist ein wesentlicher Schritt in einem derart vielfältigen 
Projekt wie diesem. Aus diesem Grund wurden Ziele in fünf verschiedene 
Kategorien gegliedert, welche in Folge sowohl den Designschritt als auch den 
 
 
Motivation und Ziele 
2015  7 
Evaluierungsschritt in eine gemeinsame Richtung leiten sollen. Die Kategorien 
betreffen den Einsatz eines HMDs, verschiedene Ansichtsmöglichkeiten von 
Bewegungsabfolgen, unterschiedliche Wiedergabemöglichkeiten optimaler 
Bewegungen, Varianten der Fehlervisualisierung und möglicher 
Interaktionstechniken.  
 
Head-Mounted-Display 
- Evaluierung der Verwendung eines HMDs beim Lernen von 
Bewegungsabläufen. 
- Evaluierung und Entwicklung zugeschnittener Visualisierungstechniken 
für die Darstellung von Bewegungen in einem HMD-Setup. 
 
Wiedergabemöglichkeiten der optimalen Bewegungsabfolge 
- Entwicklung und Evaluierung von verschiedenen 
Wiedergabemöglichkeiten einer optimalen Bewegungsabfolge. 
 
Möglichkeiten zur Ansicht der Trainingsumgebung und der 
Bewegungsabfolgen während der Bewegung 
- Entwicklung und Evaluierung verschiedener Ansichten der 
Trainingsumgebung und der Bewegungsabfolgen von Schüler und 
Lehrer während der Bewegung in unterschiedlichen Realitätsstufen. 
 
Fehlervisualisierung  
- Entwicklung und Evaluierung der Auswirkung einer 
zusammenfassenden Fehlervisualisierung nach der Übung. 
- Entwicklung und Evaluierung verschiedener Varianten zur Echtzeit-
Fehlervisualisierung in verschiedenen Realitätsstufen.  
 
Interaktionsmöglichkeiten 
- Einsatz und Evaluierung von verschiedenen Interaktionsmöglichkeiten 
zur autonomen Steuerung der Lernumgebung und deren Eignung in 
Zusammenhang mit motorischem Lernen. 
 
 
Motivation und Ziele 
8  2015 
Abgesehen der oben beschriebenen Ziele gibt es Bereiche, deren Untersuchung 
zwar aus wissenschaftlicher Sicht auch interessant wäre, aber Aufgrund des 
Aufwands in dieser Arbeit nicht behandelt werden können. Hierzu zählt 
beispielsweise ein Vergleich zu herkömmlichen Lernmethoden motorischen 
Lernens, wie beispielsweise Text, Bildfolgen oder Animationen, da die 
Variationen an Einflussfaktoren zu vielfältig wäre um eine gültige Aussage in der 
zur Verfügung stehenden Zeit treffen zu können. Da die verschiedenen 
Visualisierungsmethoden speziell für den Einsatz mit HMDs zugeschnitten sind, 
können diese auch nicht in derselben Form mit anderen Ausgabegeräten, wie 
Projektoren oder Bildschirmen, verglichen werden.  
 
 
State-of-the-Art 
2015  9 
3. State-of-the-Art 
Das autonome Erlernen von Bewegungsabfolgen wurde im Forschungsgebiet 
Virtual- und Augmented-Reality bereits in verschiedenen Varianten behandelt. 
Die Komplexität und Vielfältigkeit von Bewegungsabfolgen erfordern ein 
Einbeziehen multipler Bereiche des Forschungsgebietes. Im vorliegenden 
Kapitel werden Projekte analysiert, welche Konzepte motorischen Lernens 
mittels 3D-Bewegungsdaten in Echtzeit behandeln. Aufgrund des Fokus der 
vorliegenden Arbeit auf Visualisierung, Feedback und Interaktion in Kombination 
mit HMDs, werden die hier präsentierten Arbeiten in drei Kapitel unterteilt: 
Visualisierungstechniken, Möglichkeiten zur Avatar- bzw. Fehlervisualisierung 
und Interaktionstechniken. Visualisierungstechniken beschreiben dabei die 
Verwendung verschiedener Ausgabegeräte bzw. die Erfahrungen die im Bereich 
motorischen Lernens damit gemacht wurden. In Folge dessen werden ähnliche 
Arbeiten zitiert, welche sich mit der Präsentation von Fehlern im 
Bewegungsablauf beschäftigen. Abschließend werden Arbeiten hervorgehoben 
die Interaktionstechniken zur Steuerung der Anwendung während einer virtuellen 
Übungseinheit verwendet haben. 
3.1. Visualisierungstechniken 
In VR-Anwendungen für das Erlernen von Bewegungsabfolgen wird in einem 
Großteil der Arbeiten eine visuelle Darstellung für die Vermittlung verwendet. 
Hierbei wird üblicherweise die optimale Bewegung mehr oder weniger detailliert 
vorgeführt. Dabei kann grundsätzlich zwischen einer zweidimensionalen und 
einer stereoskopischen Anzeige unterschieden werden. Geräte die hier zum 
Einsatz kommen sind: Projektoren, Bildschirme, HMDs oder multiple 
Projektionen (CAVE). 
Die Darstellung virtueller Avatare mittels einer 2D-Projektion bzw. eines Monitors 
wurde bereits in mehreren Projekten (Fitzgerald et al. 2007; Chan et al. 2011) 
verwendet. Wobei Fitzgerald et al. (Fitzgerald et al. 2007) nicht auf die 
Auswirkungen von Anzeigegeräten geachtet wird. In dem Projekt wird eine 
optimale Bewegung durch eine 3D-Animation auf einem 2D-Monitor visualisiert. 
Die genaue Umsetzung wurde jedoch nicht beschrieben. Sehr deutlich sieht man 
die Auswirkung einer statischen zweidimensionalen Projektion in Abbildung 1a 
 
 
State-of-the-Art 
10  2015 
(Chan et al. 2011) oder in Abbildung 1b (Eaves et al. 2011). In beiden Fällen ist 
deutlich die Problematik eines solchen Ausgabegerätes zu erkennen: Der 
Benutzer muss den Kopf zur Anzeige wenden um Feedback zu bekommen. Dies 
hat zur Folge, dass in erster Linie die Kopfdrehung Fehler in der 
Bewegungsevaluierung verursacht. Des Weiteren ist diese Darstellung nicht für 
beliebige Übungen geeignet, da bestimmte Bewegungen den Benutzer dazu 
zwingen sich von der Projektionsfläche abzuwenden und daher den weiteren 
Verlauf nicht mehr folgen können. 
 
   
Abbildung 1: (a): 2D-Projektion zum Lernen von Tanzbewegungen mit virtuellen Avataren (Chan et 
al. 2011); (b) Erlenen von Tanzbewegungen anhand einer Projektion mit realen Video (Eaves et al. 
2011) 
Hinzu kommt, dass es eine zweidimensionale Darstellung dem Benutzer 
erschwert, Bewegungen in die Tiefe richtig zu erkennen, die nicht parallel zur 
Projektionsebene durchgeführt werden. Auch verdeckte Posen, wie die 
Handposition hinter dem Körper, bleiben unter Verwendung dieser Technologie 
unerkannt. Diese Situationen könnten durch Steuerung der virtuellen Kamera 
anhand der Kopfposition und Orientierung des Benutzers verbessert werden. Der 
Benutzer kann bei Projektionen nur sehr eingeschränkt selbst explorativ tätig 
werden, obwohl sowohl in (Chan et al. 2011) als auch in (Eaves et al. 2011) ein 
Tracking-System eingesetzt wird und somit die Position des Benutzer bekannt 
ist. 
Arbeiten wie (Hachimura et al. 2004; Crivella et al. 2003) setzten auf den Einsatz 
von stereoskopischen HMDs um den Benutzer in eine voll-immersive Umgebung 
zu versetzen und geben ihm so die Möglichkeit explorativ Bewegungen zu 
(a) (b) 
 
 
State-of-the-Art 
2015  11 
erfahren. Publikationen welche sich auf das Erlernen von Bewegungsabfolgen 
konzentrieren wurden bisher nur mit HMDs kombiniert, welche aus heutiger Sicht 
für eine derartige Anwendung schlecht geeignet waren. Hachimura et al. 
beschreibt die negativen Auswirkungen, welche bei den Übungseinheiten zum 
Erlernen von Tanzschritten störend gewirkt haben. Darunter befinden sich: das 
eingeschränkte Sichtfeld (Field-of-View) von 51° bzw. 37°, die niedrige Auflösung 
von 640x480 Pixel, das hohe Gewicht bzw. der mangelhafte Tragekomfort und 
die Ungenauigkeit der Bewegungserkennung (siehe Abbildung 2). Crivella et al. 
(Crivella et al. 2003)berichtet von keinen derartigen Problemen obwohl eine 
ähnliche Brille (Olympus Eye-Trek Glasses) für das Erlernen von Tai-Chi 
Bewegungen zum Einsatz kam. Im präsentierten Setup wurde das HMD für eine 
möglichst hohe Bewegungsfreiheit auf kabellosen Betrieb umgebaut.  
Die oben erwähnten Nachteile von HMDs haben die Evaluierung der in den 
Arbeiten entwickelten Übungsapplikationen negativ beeinflusst. Durch die 
positiven Entwicklungen der letzten Jahre im Bereich von HMDs betreffend 
Auflösung, Sichtfeld und Reaktionszeit sollten weitaus weniger Störfaktoren 
gegeben sein und dadurch voraussichtlich andere Ergebnisse abzuleiten sein. 
 
Abbildung 2: Video-See-Through HMD für eine Visualisierung von Avataren (Hachimura et al. 2004) 
 
Eine weitere Möglichkeit der visuellen Präsentation von Bewegungsdaten stellt 
eine stereoskopische Projektion auf multiplen Flächen dar (Sun et al. 2014; 
Covaci et al. 2015). Dieser sogenannte CAVE wurde bereits für eine ähnliche 
Anwendung von Covaci et al. für ein Wurftrainingssystem (siehe Abbildung 3) 
eingesetzt. Diese immersive Großbilddarstellung unter Verwendung von vier 
Projektionsflächen ist ein sehr kostspieliges System mit hoher Bildqualität. Ziel 
dieser Studie war es im Zuge des Basketballwurfs zu analysieren, ob die 
Darstellung genau genug ist um Distanzen richtig einschätzen zu können. Covaci 
 
 
State-of-the-Art 
12  2015 
et al. sind zu dem Schluss gekommen, dass sich die Benutzer sehr schnell an 
die Annäherung der physikalischen Eigenschaften der virtuellen Realität 
anpassen, dies jedoch zu einem verzerrten Bild führt. Für das Erlernen von 
allgemeinen Bewegungsabläufen ist diese Art der Visualisierung aufgrund der 
Kosten nicht praktikabel. Auch ist eine Betrachtung einer Bewegung von allen 
Seiten nur dann möglich wenn eine weitere Projektionsfläche hinzugefügt wird 
und so den Benutzer komplett umschließen würde.  
 
 
Abbildung 3: Ein CAVE System zum Wurftraining für Basketball (Covaci et al. 2015) 
3.2. Avatar- und Fehlervisualisierung 
Bei der Darstellung von Bewegungsabläufen sind in einer VR-Umgebung keine 
Grenzen gesetzt. Eine Limitierung wird jedoch durch die technischen Hilfsmittel 
festgesetzt. Die Verwendung eines Systems zur Bewegungserkennung ist in 
allen Ansätzen ein notwendiges Instrument und unterscheidet sich nur 
geringfügig, wohingegen die Art des visuellen Ausgabegeräts die Möglichkeiten 
unterschiedlich einschränkt. Aus diesem Grund werden im Folgenden Arbeiten 
untersucht, welche sich mit der visuellen Ausgabe von Bewegungsabläufen auf 
HMDs beschäftigt haben bzw. Visualisierungstechniken verwendet haben welche 
in ähnlicher Weise für HMDs herangezogen werden könnten. 
Hachimura et al. (Hachimura et al. 2004) beschäftigt sich mit der Vermittlung vom 
Tanzschritten mit Unterstützung eines Video-See-Through HMDs. Dabei wird die 
Videoaufnahme einer im HMD verbauten Kamera dargestellt und wie in 
Abbildung 4 ersichtlich vier verschiedene Avatar-Modelle damit kombiniert. 
 
 
State-of-the-Art 
2015  13 
Darunter befinden sich ein aus einfachen Strichen bestehender Avatar, ein 
Avatar aus soliden Elementen wie Zylindern und Kugeln, und eine Kombination 
aus beidem. Darüber hinaus wurde auch ein Avatar mit Textur dazu verwendet 
die Bewegung vorzuführen. 
 
 
Abbildung 4: Vier verschiedene Avatar-Modelle aus (Hachimura et al. 2004) von links nach rechts: 
Wire Frame, Solid, Solid with Wire Frame, Solid with Texture 
Außerdem wurden verschiedene Modi vorgestellt, mit denen die zuvor 
beschriebenen Avatar-Modelle kombiniert werden konnten: in Lebensgröße, in 
Modellgröße, als Überlagerung, nebeneinander und als Self-Superposition (siehe 
Abbildung 5). Viele dieser Visualisierungsarten sind erst durch den Einsatz von 
HMDs möglich. Speziell die Anzeige eines verkleinerten Modells bzw. die 
Überlagerung des realen Körpers mit einem Skelett bringen durch die 
explorativen Möglichkeiten des Benutzers einen Vorteil. 
 
 
Abbildung 5: Darstellung des Avatars bzw. der Bewegung in verschiedenen Varianten; von links 
nach rechts: Avatar in Lebensgröße, in Modellgröße, nebeneinander, als Self-Superposition 
(Hachimura et al. 2004) 
 
Hachimura et al. präsentiert in seiner Publikation eine Vielzahl an 
Visualisierungsmöglichkeiten unter anderen auch speziell für den Einsatz bei 
HMD-Applikationen. Leider wurde in der Arbeit eine sehr reduzierte Evaluierung 
durchgeführt, welche keine Hinweise auf die Eignung der verschiedenen Arten 
gibt. Aus diesem Grund wird in der vorliegenden Arbeit auf einige der 
 
 
State-of-the-Art 
14  2015 
präsentierten Ideen zurückgegriffen und an die heutigen technischen 
Möglichkeiten angepasst, erweitert und evaluiert. 
Eine andere Art der Präsentation verwendete Crivella et al. (Crivella et al. 
2003)für eine Trainings-Applikation für Tai-Chi Bewegungen. Dabei wurden in 
der virtuellen Umgebung unterschiedlich viele Avatare rund um den Benutzer 
angezeigt, wobei aus fünf verschiedenen Varianten gewählt werden konnte. 
Damit sollte es dem Schüler möglich sein durch die verschiedenen Perspektiven 
auf den Bewegungsablauf, diesen leichter zu verstehen. Aus den Ergebnissen 
der durchgeführten Benutzerstudien ist zu entnehmen, dass keines der Layouts 
eine fundamentale Auswirkung auf den Lerneffekt hatte. Die Autoren erwähnen 
jedoch eine Latenz von 170 ms, was die Evaluierung beeinflusst haben könnte. 
 
Abbildung 6: Untersuchung verschiedener Positionierungen der virtuellen Avatare (Crivella et al. 
2003) 
 
Abseits von Anwendungen mit HMDs können auch Visualisierungen analysiert 
werden, welche für eine Projektion entwickelt wurden. Diese können eventuell 
auch für HMDs angepasst werden. In (Chan et al. 2011) werden dem Benutzer 
simplifizierte Avatare angezeigt, welche Fehler im Bewegungsablauf durch eine 
farbliche Kennzeichnung der einzelnen Gliedmaßen darstellen. Dabei werden 
innerhalb einer Szene bis zu vier Avatare angezeigt (siehe Abbildung 7a).  
Eine weitere Möglichkeit des Feedbacks wird durch eine Auflistung kumulierter 
Fehlerwerte gegeben (siehe Abbildung 7b). Jeder Gliedmaße wird ein Wert 
zwischen 0 und 100 zugewiesen, um die Richtigkeit der Bewegung aufzuzeigen. 
Auch diese Situation könnte in einem HMD-Setup eine hilfreiche Visualisierung 
darstellen. 
 
 
 
State-of-the-Art 
2015  15 
 
Eine auf den ersten Blick sehr einfach gehaltenen Variante, Benutzer in ihrer 
Bewegung zu leiten, zeigt Eaves et al. (Eaves et al. 2011) auf. Für das Erlernen 
von Bewegungsabfolgen werden, wie in Abbildung 8 zu sehen, Punkte 
visualisiert an denen sich die jeweiligen Gelenke zu einer bestimmten Zeit 
befinden sollten. Dabei spezialisierten sich die Autoren auf eine reduzierte 
Visualisierung, wobei zu bezweifeln ist ob dem Benutzer genug Information über 
die Tiefe der Punkte zu Verfügung stand, um diese richtig zu interpretieren. 
Obwohl die Präsentation auf einer Leinwand stattfand, könnte das Prinzip 
erweitert und für eine voll-immersive Umgebung angepasst werden. 
 
             
Abbildung 8: Eaves et al. verwenden Punkte um dem Benutzer die Position der Gelenke 
vorzugeben. (Eaves et al. 2011) 
 
   
Abbildung 7: (a) Echtzeit-Feedback mit vier Avataren in einer Szene; (b) Numerisches Feedback 
nach der Übung (Chan et al. 2011) 
(a) (b) 
 
 
State-of-the-Art 
16  2015 
3.3. Interaktionstechniken 
Eine Notwendigkeit bei einer autonomen Lernumgebung ist die Steuerung dieser 
durch den Benutzer. Da es sich bei dem vorliegenden Anwendungsfall um eine 
voll-immersive Applikation handelt und alle Körperteile für das Erlernen von 
Bewegungen verwendet werden, muss die Interaktion speziell hierfür passend 
gestaltet werden. In einigen verwandten Vorarbeiten wurden bereits 
Interaktionsmöglichkeiten angewendet.  
Hachimura et al. (Hachimura et al. 2004) verwenden für die Benutzereinabe 
einerseits ein handelsübliches Gamepad, welches laut Autoren den Benutzer 
jedoch beide Hände bindet. Aus diesem Grund wurde ein magnetischer Sensor 
am Finger montiert, welcher die Eingabe steuert. Die Evaluierung befasst sich 
leider nicht auf die Auswertung dieser Möglichkeiten. 
Viele Anwendungen, wie beispielsweise in (Fitzgerald et al. 2007), erlauben dem 
Benutzer die Steuerung nur per Maus und Tastatur. Auf diese Weise hat jede 
Eingabe ein Unterbrechen der Übung zufolge.  
In der Spieleindustrie kommen oft Gesten für die Menüsteuerung zum Einsatz, 
wie zum Beispiel das Spiel Kinect Training1 welches durch Gesten mit der Hand 
eine Menüsteuerung ermöglicht. Eine ähnliche Umsetzung kann auch für das 
vorgeschlagene Szenario in dieser Arbeit angedacht werden, da kein Gerät 
hierfür notwendig ist. Auf weitere Möglichkeiten Interaktion in VR zu erlauben 
wird im Kapitel 4.2.4 Interaktionsmöglichkeiten für VR-Umgebungen 
eingegangen.  
                                            
1 Microsoft XBOX Spiel: Kinect Training http://www.xbox.com/en-
NZ/Marketplace/SplashPages/nike-kinect-training 
 
 
Analyse der Kernkomponenten 
2015  17 
4. Analyse der Kernkomponenten 
Für die Entwicklung von Interaktions- und Visualisierungstechniken für den 
Einsatz in einer HMD-basierten Virtual-Reality-Umgebung, ist es notwendig alle 
relevanten Kernkomponenten eingehend zu analysieren. Aus diesem Grund 
werden im Folgenden zuerst verschiedene Aspekte motorischen Lernens 
betrachtet, wie der Zusammenhang von Wahrnehmung und Motorik und der 
Rolle von Feedback. Anschließend werden wichtige, für das Setup geeignete, 
Komponenten beschrieben. Zuerst das in dieser Arbeit eingesetzte Motion-
Tracking-System. Danach wird die Applikation MoCapGym beschrieben, wovon 
bereits existierende Grundfunktionalität herangezogen wurde um sich in der 
vorliegenden Arbeit auf die Visualisierung und Interaktion konzentrieren zu 
können. Abschließend werden verschiedene geeignete Ein- und Ausgabegeräte, 
sowie deren Eigenschaften beleuchtet. 
4.1. Aspekte motorischen Lernens 
In diesem Abschnitt werden Aspekte motorischen Lernens betrachtet, die 
besonderen Einfluss auf den Entwurf von geeigneten Visualisierungstechniken 
haben. Im Speziellen wird daher zuerst der Zusammenhang visueller 
Wahrnehmung mit dem Lernen von Bewegungsabläufen präsentiert. Danach 
werden die Mechanismen von Feedback im Sport diskutiert. 
4.1.1. Visuelles Lernen 
Die visuelle Wahrnehmung ist beim Menschen sehr eng mit der 
Bewegungssteuerung verbunden (Neumaier 1982). Im Allgemeinen wird dieser 
Umstand bei der Reaktion auf sich bewegende Gegenstände (z.B. einem Ball) 
oder einem Gegner ersichtlich, er spielt aber auch eine wichtige Rolle um die 
eigene Bewegung zu kontrollieren. Besonders maßgeblich ist diese Eigenschaft 
zu Beginn des Lernprozesses einer Bewegung, wo es durch Beobachten anderer 
Personen, z.B. einem Lehrer, zur Bildung einer Bewegungsvorstellung, 
sozusagen als Lernziel einer optimalen Bewegung, kommt. Panzer et al. (Panzer 
et al. 2007) beschreiben den Lernprozess anhand aktueller Erkenntnisse so: Um 
eine ganzheitliche Bewegung zu lernen, wird diese zuerst basierend auf 
Beobachtungen aus einzelnen Elementen zusammengesetzt und diese nach und 
 
 
Analyse der Kernkomponenten 
18  2015 
nach zu zusammenhängenden Blöcken kombiniert. Erst nach langem Üben kann 
eine Bewegung als Einheit ohne Unterbrechungen durchgeführt werden. 
Das Lernen findet dabei laut Panzer et al. parallel in zwei unterschiedlichen 
mentalen Systemen statt, dem visuell-räumlichen System und dem motorischen 
System. In einer Studie demonstrieren die Autoren, dass besonders in frühen 
Lernphasen das visuell-räumliche System die Bewegung leitet. Die visuell-
räumliche Repräsentation wird sehr früh erworben und bildet sich viel schneller 
aus als die motorische, weshalb dieser Prozess besonders unterstützt werden 
sollte. 
Der Zusammenhang zwischen der Wahrnehmung, der visuell-räumlichen 
Repräsentation und der motorischen Fähigkeiten ist so stark, dass im 
Leistungssport häufig beim Mentaltraining die Technik der Visualisierung zum 
Einsatz kommt (Heibel & Heuer 2009). Der Sportler stellt sich dazu eine 
Bewegung im Detail so vor, als würde er diese tatsächlich durchführen. In der 
Vorstellung kann dabei sowohl die Ich-Perspektive eingesetzt werden, als auch 
eine Ansicht von außen, als würde sich der Sportler selbst beobachten. 
Untersuchungen zeigen (Jeannerod 1995), stellt man sich die Bewegung 
realistisch vor, so ist bezüglich des Lernprozesses für das Gehirn kein 
Unterschied zu einer tatsächlich durchgeführten Bewegung. Abläufe und 
Techniken können so verbessert und vertieft werden, wobei der Erfolg von der 
Vorstellungsfähigkeit des Sportlers abhängig ist (Heibel & Heuer 2009). 
Insbesondere ist es wichtig, dass die Bewegungsvorstellung korrekt ist. Ein 
Fehler in der Bewegungsvorstellung kann sich motorisch festigen und ist dann 
laut Heibel & Heuer nur noch mit erhöhtem Aufwand zu korrigieren. 
Um eine korrekte Bewegungsvorstellung zu bilden und zu festigen, können schon 
früh im Lernprozess Videoaufnahmen eines optimalen Ablaufes zum Einsatz 
kommen, wobei der Sportler sich selbst oder eine andere Person von außen 
betrachtet und analysiert. Einige Forscher (Rothstein & Arnold 1976) warnen 
allerdings vor einem möglichen negativen Effekt, wenn der Lernende von der 
Fülle an Information überfordert ist und nicht weiß auf was er sich konzentrieren 
soll. Um dies zu vermeiden sollen Hinweise, z.B. von einem Lehrer, für den 
Schüler hervorheben, welche Aspekte im Video besonders zu beachten sind. Im 
Gegensatz dazu weisen andere Studien (Aiken et al. 2012) darauf hin, dass das 
selbstständige Steuern verfügbarer Information den Erfolg beim Lernen 
 
 
Analyse der Kernkomponenten 
2015  19 
motorischer Fähigkeiten fördert. Dieser Zusammenhang konnte von Aiken et al. 
auch bei Videoaufzeichnungen belegt werden. 
4.1.2. Feedback 
Neben den soeben beschriebenen Effekten der visuellen Wahrnehmung bei der 
Ausbildung einer korrekten Bewegungsvorstellung, ist Feedback ein 
unerlässlicher Faktor für erfolgreiches Lernen von Bewegungsabläufen. Die 
damit zusammenhängenden Effekte wurden bereits von einer Vielzahl an 
Forschern über Jahrzehnte untersucht (Schmidt & Lee 2011; Wulf 2009), und 
dieses Thema bildet aufgrund ständig neuer technischer Möglichkeiten, wie 
Computer, Biosensoren, etc., auch weiterhin ein sehr aktives Forschungsgebiet. 
Schmidt & Lee (Schmidt & Lee 2011) beschreiben die Unterscheidung von 
Feedback für das Lernen motorischer Fähigkeiten anhand des derzeitigen 
Wissensstandes: Vor, während und nach der Durchführung einer Bewegung 
stehen einem Sportler verschiedene relevante Informationen zur Verfügung, 
beispielsweise die Positionen seiner Gliedmaßen oder auch die Eigenschaften 
der Umgebung. Jene Informationen, die durch die Bewegungsdurchführung 
selbst produziert werden, werden als Feedback bezeichnet. Intrinsisches 
Feedback bezeichnet dabei Informationen, die der Sportler durch körpereigene 
Wahrnehmung erhält und es ihm damit ermöglichen zu beurteilen, ob bei einer 
Bewegung etwas richtig bzw. falsch gemacht wurde. Beispielsweise deuten 
unerwartete Schmerzen, das Verfehlen eines Balles, etc., den Sportler darauf 
hin, dass etwas falsch gemacht wurde. Ebenso wichtig ist für den Sportler jedoch 
auch extrinsisches Feedback. So wird Information bezeichnet, die zusätzlich zur 
Verfügung steht, z.B. von einem Lehrer gegeben wird. 
In der Literatur zu diesem Thema werden bei extrinsischem Feedback zwei 
wichtige Kategorien unterschieden: Knowledge of Results (KR) auf der einen 
Seite bezeichnet Feedback, welches sich aus dem Ergebnis der Bewegung in 
Zusammenhang mit der Umgebung ergibt. Es kann sowohl sehr detailliert sein, 
z.B.: Das Ziel wurde um 1 m verfehlt, oder auch vollkommen allgemein, z.B.: 
sehr gut. Laut Schmidt & Lee belegen verschiedene Studien, dass präziseres 
Feedback viel nützlicher im Lernprozess ist als allgemeines, z.B. mit Angabe des 
Ausmaßes eines Fehlers oder darüber hinaus mit zusätzlicher Richtungsangabe. 
Normalerweise ist KR besonders hilfreich, wenn es direkt nach der 
 
 
Analyse der Kernkomponenten 
20  2015 
Bewegungsausführung gegeben wird. Es führt damit den Sportler zur optimalen 
Form, entsprechend der Guidance Hypothese von Salmoni et al. (Salmoni et al. 
1984). Allerdings warnen Salmoni et al. auch, dass zu häufiges Feedback oder 
ein ungünstiger Zeitpunkt, intrinsisches Feedback blockieren kann. In diesem Fall 
kann es sein, dass ein Sportler sich nur noch auf das ständige extrinsische 
Feedback verlässt, und seine Leistung stark abnimmt sobald kein solches mehr 
vorhanden ist. 
Die zweite wichtige Kategorie von extrinsischem Feedback ist Knowledge of 
Performance (KP). Es handelt sich dabei um Information die das 
Bewegungsmuster beschreibt, beispielsweise der Rücken war nicht gestreckt. 
Schmidt & Lee verweisen hier auf verschiedene Studien die besagen, dass KP 
das Ausbilden von effektiven Bewegungsmustern bei Anfängern massiv fördern 
kann. Da die relevanten Aspekte manchmal nicht leicht von einem Lernenden 
erkennbar sind, erweist sich KP als besonders hilfreich, wenn diese besonders 
hervorgehoben werden, z.B. von einem Lehrer anhand einer Videoaufzeichnung. 
Sowohl KR als auch KP kann sich mit intrinsischem Feedback decken, es ist 
daher besonders wirksam wenn Information gegeben wird, die nicht oder nicht in 
dieser Genauigkeit bereits von diesem abgedeckt wird. Außerdem besitzen beide 
Arten extrinsischen Feedbacks zusätzlich zu den beschriebenen Eigenschaften 
generell einen sehr wichtigen motivierenden Effekt (Schmidt & Lee 2011). 
Wulf (Wulf 2009) streicht besonders hervor, dass es einen wichtigen Unterschied 
macht, welchen Fokus der Aufmerksamkeit Feedback auslöst. Demzufolge lenkt 
KR die Aufmerksamkeit eher auf den Effekt einer Bewegung auf die Umwelt und 
ruft damit einen externen Fokus hervor. KP lenkt hingegen die Aufmerksamkeit 
auf die eigenen Körperbewegungen, was einem internen Fokus entspricht. In 
mehreren Studien konnte Wulf belegen, dass Aufmerksamkeit mit externem 
Fokus das Lernergebnis motorischer Fähigkeiten verbessert, während ein 
interner Fokus sogar negative Auswirkungen haben kann. Da neue motorische 
Fähigkeiten immer auf Basis bereits vorhandener Bewegungsmuster erlernt 
werden wird vermutet, dass zu viel Aufmerksamkeit auf die eigenen 
Körperbewegungen diesen Prozess stören kann. Wulf berichtet von einer 
anderen Studie in welcher die Bewegungen eines Sportlers in Echtzeit auf einem 
Bildschirm dargestellt wurden, doch obwohl das Feedback einen internen Fokus 
auslöste, konnte ein positiver Effekt auf Leistung und Lernen beobachtet werden. 
 
 
Analyse der Kernkomponenten 
2015  21 
Als Grund für dieses Resultat wird angenommen, dass die Konzentration auf den 
Bildschirm von einem Übermaß an Kontrolle der eigenen Bewegungen ablenkt. 
4.2. Setup 
Im Folgenden werden Basiskomponenten beschrieben welche für die entwickelte 
Anwendung herangezogen, bzw. für den speziellen Anwendungsfall adaptiert 
werden. 
4.2.1. Tracking Technologiegrundlagen 
Das folgende Kapitel konzentriert sich auf die Hard- und Softwarebasis auf die 
das vorgestellte Konzept der Arbeit aufbaut. Hierbei wird zunächst das Tracking-
System vorgestellt welche für das Erfassen der Bewegungsabfolgen in Echtzeit 
verantwortlich ist. Darüber hinaus wird der verwendete Motion-Suit kurz 
beschrieben und der dazu notwendige Kalibrierungsvorgang. Abschließend wird 
die Funktionalität der Anwendung MoCapGym beschrieben, welche in dieser 
Arbeit um eine Vielzahl von visuellen Entwicklungen erweitert wird. 
 
Iotracker 
Für das Erkennen von Bewegungen im Raum wird der iotracker (Pintaric & 
Kaufmann 2007) verwendet. Dieses optische Tracking-System basiert auf einer 
Anordnung multipler Kameras. In der Konfiguration, die für diese Arbeit 
eingesetzt wird, decken acht Infrarotkameras einen Trackingbereich mit einer 
Grundfläche von etwa vier Metern Seitenlänge und einer Höhe von drei Metern 
ab. Jede Kamera verfügt über eine Infrarotlichtquelle, einen IR-Filter und ist in 
der Lage bei einer Auflösung von 752x480 Pixel 60 Bilder pro Sekunde zu 
erfassen. Durch die Verwendung von kugelförmigen Markern überzogen mit 
einer retroreflektierenden Folie entsteht in jeder Kamera ein annähernd binäres 
Bild, welches in den hellen Bereichen die Marker definiert. Aufgrund der 
Tatsache, dass die genauen Kamerapositionen bekannt sind, kann durch 
Triangulation die Position einer Kugel im Raum mit einer Genauigkeit im Sub-
Millimeterbereich bestimmt werden. Um nicht nur die Position sondern auch die 
Ausrichtung im Raum zu bestimmen, ist es notwendig sogenannte 
 
 
Analyse der Kernkomponenten 
22  2015 
Rigid-Body-Targets zu definieren, eine Anordnung von zumindest drei Markern 
in einem konstanten Abstand zueinander.  
 
Kalibrierung und Motion-Suit 
Für die Bewegungserkennung muss der Benutzer einen Motion-Suit anlegen 
(siehe Abbildung 9). Dieser besteht aus drei Teilen: einer Hose, einer Weste und 
einer Haube. Der Anzug ist dabei mit 37 Markern bestückt, wobei jeder Körperteil 
über zumindest drei Markern verfügt um eine Orientierung bestimmen zu können. 
Die einzelnen Teile des Anzugs können mit Klettverschluss aneinander fixiert 
werden, um ein Verrutschen zu verhindern. Für die Zuweisung der Marker zu den 
einzelnen Körperteilen muss zu Beginn einer Session der Anzug kalibriert 
werden. Die Implementierung von Schönauer et al. (Schönauer 2007), basierend 
auf einem Algorithmus von Kirk et al. (Kirk et al. 2005), ordnet die vorhandene 
Menge an Markern aufgrund von Bewegungsmustern anhand einer kurzen 
Bewegungsaufnahme den Körperteilen zu. Dabei muss der Benutzer in einer 
kurzen Bewegungsabfolge möglichst alle Gelenke bewegen.  
 
 
Abbildung 9: Proband mit Motion-Suit in T-Pose 
 
Als bewährter Bewegungsablauf werden zunächst aus der T-Pose (siehe 
Abbildung 9) heraus die rechten Extremitäten in einer leichten Drehbewegung 
auf und ab bewegt. Danach wird das gleiche Bewegungsmuster mit den linken 
 
 
Analyse der Kernkomponenten 
2015  23 
Extremitäten durchgeführt, bis der Benutzer wieder die T-Pose einnimmt. Das 
Ergebnis dieser Kalibrierung ist eine Skelettstruktur bestehend aus 11 Teilen. 
Während des Erfassens eines Benutzers werden somit 11 Gelenke beobachtet 
und deren Orientierung 60-mal pro Sekunde ausgelesen und für eine weitere 
Verarbeitung zur Verfügung gestellt.  
4.2.2. MoCapGym 
Für das beschriebene Vorhaben der vorliegenden Arbeit wird als Softwarebasis 
das Ergebnis der Arbeit in (Vonach 2015) herangezogen. In der darin 
entwickelten Applikation MoCapGym wurde ein 6-Phasen Lernmodell für VR 
entwickelt, welches auf konventionellen Lerntheorien motorischen Lernens 
basiert. Diese Arbeit konzentriert sich jedoch weniger auf die Erprobung 
verschiedener Visualisierungen, sondern auf das Übertragen von Praktiken zum 
Erlernen von Bewegungen in den virtuellen Raum. Die Anwendung wurde mit 
Hilfe der Spiele-Engine Unity 3D entwickelt. Darüber hinaus fokussiert sich der 
Autor auf die Ausgabe über eine einfache Projektionsfläche welche gegenüber 
des Benutzers platziert ist. Die vorliegende Arbeit baut auf Basis von MoCapGym 
ein eigenständiges Anwendungsszenario mit verschiedenen 
Visualisierungstechniken auf und konzentriert sich auf die Möglichkeiten und 
technischen Anpassungen in Hinsicht auf die Verwendung von HMDs. 
MoCapGym bietet bereits einige nützliche Features, auf welche im vorliegenden 
Projekt zurückgegriffen wurde. So existiert bereits eine funktionale Anbindung an 
das Tracking-System und eine Verarbeitung der eintreffenden Skelettdaten. 
Dabei besteht die Möglichkeit die eintreffenden Daten in einer Datenbank 
aufzuzeichnen, um sie später für eine Visualisierung heranziehen zu können. Die 
Bewegungsdaten können auf einen oder mehrere Avatare angewendet werden, 
dabei wird zwischen Live-Daten und Daten aus der Bewegungsdatenbank 
unterschieden. Ein übliches Szenario aus der Anwendung MoCapGym beinhaltet 
einen Avatar, welcher die Bewegung des Benutzers imitiert und einen weiteren, 
welcher die aufgezeichnete Bewegung in Echtzeit abspielt (siehe Abbildung 10). 
Dabei kann zwischen verschiedenen Abspielgeschwindigkeiten gewählt werden. 
Des Weiteren können verschiedene Perspektiven gewählt und zusätzlich die 
Avatare zur Laufzeit im Raum verschoben werden. Für die Animation stehen zwei 
 
 
Analyse der Kernkomponenten 
24  2015 
Avatare zur Verfügung. Des Weiteren kann die Transparenz von Teilen des 
Avatars oder auch der ganze Avatar beliebig verändert werden.  
 
 
Abbildung 10: Auszug aus MoCapGym. (a) Bewegungsvergleich mit Echtzeitdaten. (b) Alternativer 
Avatar (Vonach 2015) 
 
Darüber hinaus wird ein aktiver, visueller Feedbackmodus bereitgestellt, welcher 
einen Vergleich zwischen der Bewegung des Benutzers und der des 
vorzeigenden Avatars durchführt. Die Abweichungen werden dabei anhand von 
Farben an den jeweiligen Gelenken dargestellt. 
4.2.3. Analyse von HMDs als Ausgabegerät 
Da das Sehen gemeinhin als wichtigster der menschlichen Sinne betrachtet wird, 
ist für das Eintauchen in eine Virtual-Reality-Umgebung ein geeignetes, visuelles 
Ausgabegerät unerlässlich. Besonders beliebt bei VR-Anwendungen sind Head-
Mounted-Displays. Je nach Modell sind hierbei ein oder zwei kleine Bildschirme 
mit einer speziellen Optik direkt vor den Augen des Betrachters positioniert. 
Optisch abgekoppelt von der physischen Welt, ist für den Benutzter somit ein 
komplettes Eintauchen in die virtuelle Umgebung möglich. Sogar das Potential 
mehrere Betrachter jeweils mit ihrem persönlichen Blickpunkt an derselben 
Simulation teilhaben zu lassen ist gegeben, sofern jeder mit einem HMD 
ausgestattet ist (Bowman et al. 2005). 
Bisher war der Einsatz von HMDs besonders aufgrund hoher Anforderungen an 
die Computerleistung, noch nicht ausgereifter Displaytechnologie und hoher 
Kosten hauptsächlich auf Militär und Forschung beschränkt. Gegenwärtig 
(a) (b) 
 
 
Analyse der Kernkomponenten 
2015  25 
herrscht jedoch eine Art Aufbruchsstimmung und es scheint der Zeitpunkt 
erreicht, an dem diese Technologie allgemein verfügbar wird. Laufend kündigen 
namhafte Hersteller das Erscheinen neuer HMDs für den allgemeinen 
Konsumenten an und es wird ein Durchbruch von Virtual-Reality für das Jahr 
2016 erwartet (Nicol 2015). 
 
Um verschiedene HMDs zu charakterisieren und deren Eignung für den Einsatz 
in einer VR-Umgebung für motorisches Lernen analysieren zu können, sind 
bestimmte Eigenschaften wichtig. Diese werden im Folgenden kurz beschrieben, 
wobei weitgehend Informationen aus 3D User Interfaces: Theory and Practice 
von Bowman et al. (Bowman et al. 2005) als Grundlage dienten: 
Jener Winkel in Grad um den Benutzer, in welchem eine visuelle Darstellung 
erfolgen kann, wird als Field of Regard (FOR) bezeichnet. Gerade diese 
Charakteristik macht die Überlegenheit von HMDs in Bezug auf VR-Umgebungen 
gegenüber anderen Ausgabegeräten aus, da diese mit 360° FOR den 
vollständigen Bereich um den Benutzer abdecken können. Nur großvolumige 
Displays wie sogenannte CAVE, also drei oder mehr Leinwände in der Höhe 
eines Raumes um den User herum, kommen bei vergleichsweise hohen Kosten 
an diesen Wert heran. 
Der maximale Winkel in Grad der vom Benutzer auf einmal wahrnehmbar ist, wird 
Field of View (FOV) genannt. Da der horizontale FOV des menschlichen Auges 
bei etwa 150° liegt bzw. mit beiden Augen bei etwa 180° (Burdea & Coiffet 2003), 
erschwerte der vergleichsweise schlechte FOV der meisten bisher verfügbaren 
HMDs von horizontal nur 30° bis 60° die Immersion des Betrachters. So erscheint 
es etwa beim weit verbreiteten Z800 3DVisor von eMagin2 mit 33° horizontalem 
FOV so, als ob ein Fenster in die virtuelle Welt mit 2,7 m Diagonale etwa 3,5 m 
vor einem Benutzer schwebte. Bei einem solchen FOV ist peripheres Sehen nicht 
möglich und das Erfassen von räumlicher Information und Zusammenhängen in 
der virtuellen Welt erschwert. Diese Eigenschaften könnten sich auch negativ auf 
einen Lernprozess auswirken. Die nun angekündigten bzw. gerade erschienenen 
HMDs bieten jedoch einen horizontalen FOV von 90° und mehr (siehe unten), 
was die beschriebenen Probleme massiv verbessert. 
                                            
2 eMagin: http://www.emagin.com/ 
 
 
Analyse der Kernkomponenten 
26  2015 
Die Auflösung beschreibt die Anzahl der Pixel die darstellbar sind. Diese 
Charakteristik ist allerdings immer in Zusammenhang mit der Größe des Displays 
bzw. dem Abstand des Betrachters zu setzen. Befindet sich der Betrachter weiter 
weg, wie bei einem herkömmlichen Display, so kann sich die wahrgenommene 
Auflösung verbessern, bei einem HMD befindet sich das Display jedoch direkt 
vor den Augen. In diesem Fall ist eine hohe Auflösung besonders wichtig, da 
ansonsten die Tiefenwahrnehmung und die Immersion leiden. Die Häufigkeit mit 
welcher das dargestellte Bild pro Sekunde aktualisiert werden kann ist die 
Bildwiederholfrequenz und wird in Hz angegeben. Diese sollte ebenfalls hoch 
sein, da unter etwa 50 - 60 Hz ein unangenehmes Flimmern wahrgenommen 
werden kann. 
Gerade in Zusammenhang mit Virtual-Reality ist auch die stereoskopische 
Darstellung wichtig. Hierfür wird für jedes Auge des Benutzers ein leicht 
versetztes Bild präsentiert, wobei durch die Fusion dieser beiden Bilder ein 
Tiefeneindruck entsteht. Um eine wirklichkeitsnahe Einschätzung der Tiefe zu 
Ermöglichen muss der Unterschied zwischen den beiden Bildern genau dem 
Abstand der Pupillen der beiden Augen des Betrachters, der Interpupillary 
Distance (IPD), entsprechen (Burdea & Coiffet 2003). Diese Distanz ist für jeden 
Menschen unterschiedlich und kann zwischen 53 und 73 mm betragen. Für die 
korrekte Tiefenwahrnehmung muss die persönliche Distanz berechnet und für 
die Darstellung berücksichtigt werden, sowie im Idealfall der Abstand der 
Displays bzw. der Optik konfigurierbar sein. Nicht alle HMDs können 
dementsprechend angepasst werden. 
Alle modernen HMDs bieten eine Möglichkeit die Rotation des Kopfes zu 
bestimmen um die dargestellte Szene entsprechend des persönlichen 
Betrachtungswinkels des Benutzers darzustellen. Allerdings ist dabei die 
Präzision und Reaktionsfähigkeit unterschiedlich und nicht bei allen Systemen 
wird auch die Position des Kopfes verfolgt. Bewegt sich der Benutzer in der 
virtuellen Welt, kann es daher zu einer Diskrepanz zwischen den präsentierten 
Bildern und der mit anderen Sinnen wahrgenommenen Bewegung auftreten. 
Darüber hinaus fokussiert das Auge normalerweise je nach Tiefe unterschiedlich. 
Die dargestellte Szene in einer virtuellen Welt steht jedoch immer genau im 
Fokus, was eine Belastung der Augen bewirken kann. Vor allem bei längerer 
Benutzung oder nicht optimal konfigurierten Geräten können diese Faktoren zu 
 
 
Analyse der Kernkomponenten 
2015  27 
Unbehagen oder sogar Übelkeit und Schwindel führen, den typischen 
Symptomen sogenannter Simulator Sickness oder auch Cybersickness (Johnson 
2005). 
Schließlich sind auch noch Ergonomie und Gewicht relevante Faktoren um 
längeres unbeschwertes Tragen zu ermöglichen, sowie besonders im Falle von 
Heimanwendern der Preis. 
 
Die unglaubliche Vielfalt an erwarteten HMDs würde den Rahmen dieser Arbeit 
sprengen, daher werden im folgenden Abschnitt vorrangig einige Geräte kurz 
beschrieben, welche für den Einsatz in einer Motion-Capture-Umgebung in Frage 
kommen, und diese in Tabelle 1 gegenübergestellt. Für einen umfassenderen 
Überblick soll hier auf (Andronico 2015) und (Nicol 2015) verwiesen werden. 
Einer der bekanntesten Namen im Zusammenhang mit modernen HMDs ist 
Oculus Rift3 (Abbildung 11). Obwohl die finale Version erst für das erste Quartal 
2016 angekündigt wurde, lieferte Oculus mittlerweile bereits zwei sogenannte 
Developer Kits (DK) aus. Das neuere DK2 bietet bereits eine Auflösung von 
960x1080 Pixel per Auge, 100° FOV und Positionstracking in einem 
beschränkten Bereich, zu einem Preis von rund 350 USD. Diese Spezifikationen 
machen die Möglichkeiten moderner HMDs in Bezug immersive VR-Erfahrungen 
für den Heimanwender erreichbar. Die angekündigte finale Version soll diese 
Daten noch weit übertreffen (siehe Tabelle 1). 
 
Name Auflösung FOV Bildwdhr. Preis Erscheinen
Rift DK2 
      Final 
960x1080 px 
1080x1200 px 
100° 
>100° 
75 Hz 
90 Hz 
350 USD 
n. V. 
- 
Q1 2016 
Vive 1200x1080 px 110° 90 Hz n. V. Q1 2016 
Playstation VR 960x1080 px 100° 120 Hz n. V. Q1 2016 
Razer OSVR 960x1080 px 100° 60 Hz 200 USD - 
Gear VR 1280x1440 px 96° 60 Hz 99 USD Q4 2015 
Tabelle 1: Gegenüberstellung angekündigter HMDs (Vgl. (Andronico 2015; Nicol 2015)). 
 
                                            
3 Oculus Rift: https://www.oculus.com/en-us/rift/ 
 
 
Analyse der Kernkomponenten 
28  2015 
 
Abbildung 11: Oculus Rift Developer Kit 2 
 
Das HTC Vive4 ist ebenfalls für immersive VR-Umgebungen zuhause ausgelegt. 
Eine Besonderheit ist die Kombination mit der SteamVR Tracking Station5. 
Dieses System ermöglicht Positionstracking in einem Bereich von 
4,5 x 4,5 Metern, wobei sogar Hindernisse innerhalb dieses Bereichs 
aufgezeichnet werden um den Benutzer davor zu warnen (Nicol 2015). Leider 
wurde bisher kein DK zur Verfügung gestellt, eine erste Version wird für das erste 
Quartal 2016 erwartet. 
Des Weiteren wurden verschiedene mobile HMD-Lösungen angekündigt. 
Beispielsweise können mit dem Gear VR6 von Samsung verschiedene 
Smartphones des Herstellers als HMD genutzt werden. Die Spezifikationen sind 
durchaus mit jenen PC-gestützter Lösungen vergleichbar (siehe Tabelle 1). 
Erwähnenswert ist in diesem Zusammenhang auch Googles Cardboard7, ein 
Bausatz der entweder selbst gebastelt oder um rund 20 USD bestellt werden 
kann, um in Kombination mit einer breiten Auswahl an Smartphones eine 
durchaus respektable VR-Erfahrung zu ermöglichen. 
 
                                            
4 HTC Vive: http://www.htcvr.com/ 
5 SteamVR: http://store.steampowered.com/universe/vr 
6 Samsung Gear VR: http://www.samsung.com/global/microsite/gearvr/index.html 
7 Google Cardboard: https://www.google.com/get/cardboard/get-cardboard/ 
von Ats Kurvet via Wikimedia Commons 
 
 
Analyse der Kernkomponenten 
2015  29 
Aus den betrachteten Alternativen bieten sich mehrere HMDs für den Einsatz in 
der in dieser Arbeit beschriebenen Studie an. Das HTC Vive zeichnet sich sowohl 
aufgrund der hervorragenden Spezifikationen aus, aber besonders das 
Positionstracking wäre für den Heimanwender optimal um das Lernen von 
motorischen Fähigkeiten mittels HMD zu unterstützen. Da dieses Gerät aber 
noch nicht verfügbar ist und auch kein DK angeboten wird, kann es nicht in dieser 
Arbeit herangezogen werden. Eine mobile Lösung wie Samsungs Gear VR 
würde sich anbieten, da es ohne zusätzliche Kabel auskommt. Die in diesem Fall 
notwendige kabellose Übertragung der Daten des Tracking-Systems könnte aber 
zu zusätzlichen Verzögerungen führen, was auf jeden Fall zu vermeiden ist um 
das Auftreten von Simulator Sickness zu minimieren. Abgesehen davon sind die 
Werte für die Bildwiederholrate und FOV etwas unter jenen kabelgebundener 
Alternativen und betrachtet man den Preis inklusive eines notwendigen 
Smartphones ist es relativ teuer. 
Insgesamt betrachtet hat das Oculus Rift DK2 sehr gute Werte in allen 
Kategorien. Die kabelgebundene Übertragung sowie eine verfügbare direkte 
Einbindung in verschiedene Grafikengines ermöglicht eine nahezu 
verzögerungsfreie Darstellung virtueller Inhalte. Des Weiteren wird eine 
Möglichkeit angeboten, den IPD jedes Nutzers schnell und einfach zu bestimmen 
und die Darstellung auf Seite der Software dementsprechend anzupassen. Aus 
diesen Gründen wurde dieses Gerät in dieser Arbeit ausgewählt. 
4.2.4. Interaktionsmöglichkeiten für VR-Umgebungen 
Nachdem der Betrachter mit einem HMD in der Regel ausschließlich die virtuelle 
Szene sieht und die physische Welt komplett ausgeblendet wird, muss 
besonderes Augenmerk auf die Interaktionsmöglichkeiten gelegt werden. Die 
Verwendung herkömmlicher Eingabegeräte, wie beispielsweise einer Tastatur, 
kann in einer immersiven VR-Umgebung unpraktisch sein (Bowman et al. 2005) 
und die Immersion stören, wenn der Benutzer quasi blind nach dem Gerät bzw. 
den Tasten suchen muss (Kogelnig 2013). 
Laut Bowman et al. (Bowman et al. 2005) sind bei der Auswahl einer geeigneten 
Eingabemöglichkeit der Umfang an Interaktionsmöglichkeiten und die Art der 
Daten wichtige Kriterien. Wie viele voneinander unabhängige 
Bewegungsmöglichkeiten im Raum ein Gerät erfassen kann, wird als 
 
 
Analyse der Kernkomponenten 
30  2015 
Freiheitsgrade bzw. Degrees-of-Freedom (DOF) bezeichnet. Des Weiteren ist es 
wichtig ob die Eingabedaten diskret oder kontinuierlich sind, beispielsweise 
liefern die Tasten einer Computermaus diskrete Werte während die Bewegung 
kontinuierliche Daten produziert. Besonders für den Einsatzzweck in dieser 
Arbeit spielen ergonomische Überlegungen eine ebenso wichtige Rolle, 
beispielsweise muss ein Gerät welches am Körper getragen wird leicht sein und 
die Bewegungen nicht behindern. Es gibt für die Interaktion mit einer VR-
Umgebung keine universelle Lösung (Foster 2015). Die möglichen Modalitäten 
haben verschiedene Vor- und Nachteile, weshalb in dieser Arbeit mehrere 
Interaktionsmöglichkeiten genauer untersucht werden. 
 
Eine einfache Methode zur Steuerung sind unterschiedliche Gamecontroller für 
PC oder Konsole. Viele sind dafür gedacht in der Hand gehalten zu werden und 
bieten normalerweise sowohl diskrete Buttons als auch kontinuierliche Joysticks. 
Moderne Varianten sind oft auch mit Lagesensoren ausgestattet welche 6 DOF 
erfassen können. Diese Informationen können auf unterschiedliche Weise für die 
Interaktion eingesetzt werden z.B. um auf etwas zu zeigen (Bowman et al. 2005). 
Aufgrund ihrer einfachen Verwendung und Vielfältigkeit kommen Gamecontroller 
sehr häufig in VR-Szenarien zum Einsatz. Beispielsweise soll das Oculus Rift 
HMD bei Erscheinen mit einem Microsoft Xbox Controller ausgeliefert werden 
(Andronico 2015). Gleichzeitig wird auch an einem eigenen Controller 
Oculus Touch gearbeitet, welcher aus einer Art Joystick und Fingertracking für 
beide Hände besteht (Foster 2015). Auch die Wii Remote oder kurz Wiimote 
(Abbildung 12), ein Gamecontroller der von Nintendo für die Spielekonsole Wii8 
entwickelt wurde, kommt gerne in VR-Umgebungen zum Einsatz. Diese kann 
mittels Bluetooth mit dem PC verbunden werden und bietet mehrere Buttons, ein 
Steuerkreuz als auch Beschleunigungssensoren zur Bewegungs- und 
Lagebestimmung mit 6 DOF. Eine optionale Sensorleiste kann außerdem eine 
infrarote LED im Controller im Raum lokalisieren, allerdings ist die 
Positionsbestimmung nicht besonders genau (Kogelnig 2013). Eine 
Besonderheit sind unzählige Halterungen für die Wiimote um auf diese Weise 
unterschiedlichste Formfaktoren zu erzielen, von einem Tennisschläger bis zu 
                                            
8 Nintendo Wii: www.nintendo.com/wii 
 
 
Analyse der Kernkomponenten 
2015  31 
einem Bogen9. Die Wiimote erlaubt auch verschiedene Erweiterungen 
beispielsweise um einen analogen Joystick, dem Nunchuck, oder einem Wii 
MotionPlus Aufsatz um die Bewegungs- und Lagebestimmung zusätzlich zu 
verbessern. Aufgrund ihrer Vielseitigkeit, einfachen Bedienbarkeit und einem 
Design, welches eine einhändige Bedienung unterstützt, wird die Wiimote als 
eine Möglichkeit zur Interaktion in dieser Arbeit herangezogen.  
 
 
Abbildung 12: Wii Remote Gamecontroller 
 
Ein Nachteil von Gamecontrollern ist, dass diese in einer oder sogar beiden 
Händen gehalten werden (Kogelnig 2013), was die natürliche Bewegung 
behindern kann (Burdea & Coiffet 2003). Nachdem durch das HMD 
normalerweise bereits die Rotation des Kopfes bestimmt wird, kann diese 
Information auch für die Interaktion verwendet werden ohne dass ein 
zusätzliches Eingabegerät nötig wäre. Beim Gaze Tracking wird festgestellt, 
wohin der Benutzer gerade blickt, und damit beispielsweise eine 
Bewegungsrichtung gesteuert (Bowman et al. 2005). Wird nur die Blickrichtung 
herangezogen sind die Interaktionsmöglichkeiten allerdings begrenzt, daher 
kann auch die Beschleunigungsänderung verwendet werden, beispielsweise 
Kopfschütteln oder Nicken (Kogelnig 2013). Dies kann jedoch über längere Zeit 
                                            
9 CTA: http://www.ctadigital.com/item.asp?item=2558 
 
 
Analyse der Kernkomponenten 
32  2015 
den Nacken belasten und gerade vermehrte Kopfbewegungen können das 
Auftreten von Simulator Sickness verstärken. Eine andere Methode ist ein Zeiger 
in der Mitte des Blickfelds der sich mit dem Kopf bewegt. Auf diese Weise können 
Bedienfelder in einer VR-Umgebung betätigt werden indem man einige Zeit 
darauf blickt, wobei eine Art Ladebalken die Zeit bis zur Betätigung anzeigt. Diese 
Art der Interaktion ist jedoch eher langsam und erlaubt generell eher limitierte 
Eingabemöglichkeiten (Kogelnig 2013). Auch kann es unangenehm sein wenn 
auf bestimmte Stellen nicht geblickt werden darf um nicht unbeabsichtigt eine 
Interaktion auszulösen. 
Eine Methode die eine breite Variation an Interaktionen ermöglicht sind Gesten. 
Dabei können Datenhandschuhe zum Einsatz kommen welche entweder durch 
Beugesensoren oder Kontaktflächen erkennen wenn sich Finger berühren oder 
beispielsweise auf ein virtuelles Objekt gezeigt wird (Bowman et al. 2005). Eine 
moderne Variante basierend auf Inertialsensoren ist Control VR10, wobei eine 
Version welche den Körper und einen Arm verfolgt für das vierte Quartal 2015 
angekündigt ist und rund 350 USD kosten soll. Datenhandschuhe sind generell 
eher teuer und brauchen meist eine Kalibrierung da sich Form und Größe der 
Hand bei allen Menschen unterscheiden (Burdea & Coiffet 2003). Außerdem 
kann das Tragen eines Handschuhs stören. Eine alternative Art der 
Gestensteuerung ermöglichen Tiefensensoren wie die Microsoft Kinect11 
(Kammergruber et al. 2012) (siehe Abbildung 13). Diese nutzt Video und ein 
Infrarotmuster um ohne zusätzliches Gerät oder Marker am Körper die 
Bewegungen eines Benutzers zu erkennen. Auf diese Weise kann das Gerät 
ohne gesonderte Kalibrierung das Skelett des Anwenders schätzen und so 
Position und Rotation der Körperteile bestimmen. Diese Methode ist als 
ausschließliche Motion-Capture-Technologie für eine immersive VR-Umgebung 
zu ungenau und anfällig für Verdeckungen. Jedoch erlaubt sie bestimmte 
Kombinationen von Bewegungen und Körperhaltungen, beispielsweise Winken, 
zu erkennen und diese Gesten zur Eingabe zu verwenden. Damit werden 
vielfältige Interaktionsmöglichkeiten denkbar wobei die Hände frei bleiben. Diese 
                                            
10 Control VR: http://controlvr.com/ 
11 Microsoft Kinect: http://www.xbox.com/en-US/xbox-360/accessories/kinect 
 
 
Analyse der Kernkomponenten 
2015  33 
Eigenschaften passen hervorragend in eine VR-Umgebung für motorisches 
Lernen, weshalb sie in dieser Arbeit weiter untersucht wird. 
 
 
Abbildung 13: Microsoft Kinect Tiefensensor 
 
Doch auch Gestensteuerung birgt einige Nachteile. Wendet sich der Benutzer 
vom Tiefensensor ab, könnten Gesten aufgrund von Verdeckungen nicht mehr 
erkannt werden. Außerdem könnten normale Bewegungen unbeabsichtigt als 
Befehl missverstanden werden. Bowman et al. (Bowman et al. 2005) 
beschreiben, dass auch Spracheingabe sehr gut funktionieren kann. Die Hände 
bleiben frei und es können praktisch beliebig viele Befehle definiert werden. Die 
Steuerung kann auch sehr intuitiv sein, da die verwendeten Wörter der 
ausgelösten Funktion entsprechen. Ein wichtiger Faktor ist, wo das Mikrophon 
platziert wird. Im Idealfall befindet sich dieses nahe am Mund des Benutzers, 
allerdings kann ein zusätzliches Gerät am Körper gerade in Zusammenhang mit 
motorischem Lernen stören. Wird das Mikrophon im Raum platziert, so können 
Nebengeräusche oder Gespräche die Spracherkennung behindern. Eine 
normale Unterhaltung oder lautes Denken kann unbeabsichtigt Befehle auslösen. 
Eine mögliche Lösung ist Push-to-Talk, wobei dem System auf geeignete Weise 
mitgeteilt wird, wann es auf Befehle reagieren soll. Auch Sprachsteuerung könnte 
sich hervorragend für eine VR-Umgebung für motorisches Lernen eignen, daher 
wird auch diese als dritte Interaktionsmöglichkeit in dieser Arbeit weiter 
untersucht. 
  
 
 
Entwickelte Visualisierungstechniken 
34  2015 
5. Entwickelte Visualisierungstechniken 
Auf Basis der Erkenntnisse aus der Analyse der relevanten Kernkomponenten 
im vorigen Kapitel, werden in diesem Kapitel Entwurf und Umsetzung der neuen 
Visualisierungstechniken beschrieben. Zu diesem Zweck werden zuerst 
Anpassungen und Erweiterungen der bestehenden Software MoCapGym 
beschrieben, um die notwendige Grundlage für die weitere Implementierung zu 
schaffen. Im Anschluss werden dann die zugrundeliegenden Überlegungen 
sowie die praktische Umsetzung verschiedener neuer Visualisierungstechniken, 
speziell auf eine virtuelle Trainingsumgebung und den Einsatz eines HMDs 
abgestimmt. Dabei werden zum einen Möglichkeiten präsentiert, um eine ideale 
Bewegung zu präsentieren, welche vom Schüler gelernt werden soll. Danach 
werden eine Reihe von Visualisierungstechniken beschrieben, um sich selbst 
und die gesamte Trainingsumgebung auch während des Lernens in Blick 
behalten zu können. Abschließend werden Techniken präsentiert um dem 
Lernenden Feedback zu geben und so den Lernprozess zu unterstützen. 
5.1.  Erweiterung der bestehenden Software 
In dieser Arbeit sollen neue Visualisierungs- und Interaktionstechniken 
implementiert und evaluiert werden, welche sich besonders für den Einsatz in 
einer voll-immersiven VR-Lernumgebung und einem HMD eignen. Als Basis 
wurde die bestehende Software MoCapGym (Vonach 2015) herangezogen, 
welche das Lernen motorischer Fähigkeiten mittels Motion-Capture in einer 
projektionsbasierten VR-Umgebung ermöglichen soll (siehe auch Kapitel 4.2.2 
MoCapGym). Diese stellte zwar eine Grundfunktionalität bereit, für eine voll 
immersive VR-Umgebung waren aber umfangreiche Neuimplementierungen und 
Anpassungen notwendig. Die wichtigsten werden in diesem Kapitel beschrieben. 
Für die vollständige ursprüngliche Implementierung sei auf (Vonach 2015) 
verwiesen und soll daher hier nur kurz zusammengefasst werden: 
Wie auch in Kapitel 4.2.1 Tracking Technologiegrundlagen beschrieben erfasst 
das iotracker Motion-Capture-System die Bewegungen eines Benutzers und 
liefert diese bis zu 60 Mal pro Sekunde per Netzwerksocket an MoCapGym. Die 
Daten werden dabei in Form einer XML-Textdatei seriell übertragen und 
beschreiben die genaue Skelettkonstellation (Skeleton-Pose) des Benutzers zu 
 
 
Entwickelte Visualisierungstechniken 
2015  35 
einem Zeitpunkt. Diese beinhaltet seine absolute Position als 3D-Koordinate 
sowie die Orientierung als Quaternion (Pivotpoint), ebenso wie auch die Rotation 
aller seiner erfassten Gelenke mittels ID und Quaternion. Dazwischen wir immer 
wieder Information über die konkrete Zuweisung der IDs zu bestimmten 
Körperteilen übermittelt (Skeleton). 
Auf Seite der Applikation werden die empfangenen Daten geparst und direkt auf 
einen Schüler-Avatar angewendet. Alternativ können die Daten auch mit einer 
Zeitmarke versehen werden und zur späteren Wiedergabe als XML-Datei 
aufgezeichnet werden bzw. aus einer bestehenden Datei wiedergegeben 
werden. 
Die ursprüngliche Applikation war auf der Entwicklungsplattform Unity12 in der 
Version 2.3.5 geschrieben worden. Um jedoch die Möglichkeiten eines modernen 
HMDs nutzen zu können, musste die Software auf die mittlerweile aktuelle 
Version 5.2.1 portiert werden. Dieser gewaltige Versionssprung erforderte 
umfangreiche Änderungen der Implementierung der Netzwerkkommunikation als 
auch des Thread-Managements. 
Die Netzwerkkommunikation zum einen und die Wiedergabe von bereits 
aufgezeichneten Bewegungen zum anderen, laufen jeweils in eigenen Threads 
um den verzögerungsfreien Ablauf der übrigen Funktionalität zu gewährleisten. 
Die Manipulation von Objekten einer virtuellen Szene (GameObjects) darf jedoch 
mittlerweile nur noch vom Haupt-Thread, der Klasse Control, aus erfolgen. Um 
trotzdem ein möglichst unabhängiges Ablaufen der Netzwerk- und Wiedergabe-
Threads zu erlauben, wurde ein Anknüpfungspunkt im Haupt-Thread 
implementiert, eine sogenannte Queue für Funktionsaufrufe (Action). Auf diese 
Weise können Funktionsaufrufe von separaten Threads aus gesammelt werden 
welche dann asynchron zu einem bestimmten Zeitpunkt in jedem Frame vom 
Haupt-Thread ausgeführt werden. 
Für die Netzwerkkommunikation wurde in der ursprünglichen Version von 
MoCapGym nicht die mittlerweile von Unity bereit gestellte 
Netzwerkimplementierung verwendet sondern eine eigene Entwicklung. In der 
neuen Version darf aber ein Netzwerksocket nur noch vom Haupt-Thread 
verwaltet werden. Um dieser Anforderung zu entsprechen, wurde die 
                                            
12 Unity http://unity3d.com/ 
 
 
Entwickelte Visualisierungstechniken 
36  2015 
Netzwerkkommunikation in der Klasse Client zu großen Teilen neu 
implementiert. Dieser Thread läuft unabhängig vom Haupt-Thread, jedoch kann 
Letzterer mittels sogenannter Messages mit dem Netzwerk-Thread 
kommunizieren und diesem nach Start der Applikation den Netzwerksocket 
übergeben. Im Netzwerk-Thread wird der gesamte Verbindungsaufbau und 
Abbau zum Motion-Capture-System gehandhabt. Empfangene Datenpakete 
werden zu vollständigen Dateien zusammengefügt und diese dann mittels Queue 
an den Haupt-Thread übergeben. Das Parsen der Skelettkonstellationen erfolgt 
nun im Gegensatz zur ursprünglichen Implementierung im Haupt-Thread, da 
dieser Vorgang eng mit dem Anwenden der empfangenen Daten auf 
GameObjects verknüpft ist. 
Beim Wiedergabe-Thread verhält es sich ähnlich. Dieser liest aufgezeichnete 
Daten aus einer XML-Datei aus und handhabt das korrekte Timing, alle Zugriffe 
auf GameObjects müssen aber über eine Queue im Haupt-Thread asynchron 
passieren. 
 
 
Abbildung 14: Virtuelle Trainingsumgebung mit Markierung für den Bewegungsbereich. 
 
Aufgrund des immersiven Charakters des neuen Einsatzgebietes war der 
bestehende visuelle Aufbau der VR-Trainingsumgebung nicht ausreichend. 
Stattdessen wurde eine einfache aber ansprechende Szene neu erstellt (siehe 
Abbildung 14). Diese war mit einer Skybox ausgestattet und einem Boden mit 
 
 
Entwickelte Visualisierungstechniken 
2015  37 
Gras-Textur. Als virtueller Trainingsbereich wurde ein Bereich erstellt, dessen 
Größe in der realen Welt 5 x 5 m entsprechen würde, und mit einer Sand-Textur 
versehen. Innerhalb des virtuellen Trainingsbereichs wurde außerdem ein 
Bereich von etwa 2,3 x 2,3 m markiert, was dem Bereich entspricht in welchem 
das Motion-Capture-System den Benutzer am besten erfassen kann. 
 
Auch die vorhandenen Avatare wurden ersetzt sowie der Code entsprechend 
adaptiert, um der Standard-Hierarchie für Unity besser zu entsprechen. Dies 
erlaubt es nun verschiedene neue Avatare mit relativ wenig Aufwand in die 
Lernumgebung zu integrieren. In diesem Fall wurde das kostenlose 3D-Modell 
Vincent aus dem Male Character Pack13 von Mixamo verwendet (siehe Abbildung 
15). Um die Kompatibilität zur Skelettstruktur des iotracker-Systems zu 
garantieren, wurde die Hierarchie minimal verändert indem ein Gelenk beim 
Übergang zwischen Becken und Rücken namens Sacroiliac, sowie ein 
übergeordneter Drehpunkt Pivotpoint hinzugefügt wurde. 
 
 
Abbildung 15: Der Avatar Vincent mit adaptierter Skelett-Hierarchie. 
 
                                            
13 Mixamo Male Character Pack: https://www.assetstore.unity3d.com/en/#!/content/124 
 
 
Entwickelte Visualisierungstechniken 
38  2015 
Um die virtuellen Lernumgebung auf dem Oculus Rift DK2 HMD darstellen zu 
können muss der Virtual-Reality-Support in Unity aktiviert werden. Dadurch wird 
eine aktive virtuelle Kamera automatisch entsprechend verzerrt und 
stereoskopisch für ein HMD gerendert. Allerdings ist es notwendig diese Kamera 
in korrekte Abhängigkeit zu den Daten des Motion-Capture-Systems zu setzen. 
Zu diesem Zweck wird bei Verbindungsaufbau zum iotracker dem Schüler ein 
Avatar zugewiesen und diesem auch die Kamera zugeordnet. Diese wird aber 
nicht in die Hierarchie eingegliedert, stattdessen wird die Blickrichtung des 
Benutzers direkt vom Kopf-Tracking des HMDs übernommen. Das hat den 
Vorteil, dass Kopfbewegungen besonders schnell auf die aktuelle Perspektive 
angewendet werden und auch Verdeckungen oder Verlassen des idealen 
Trackingbereichs des Motion-Capture-Systems, keine Auswirkungen auf die 
Qualität haben. Für die Änderungen der Position des Kopfes werden hingegen 
die Daten des iotracker-Systems herangezogen. Dafür wird in jedem Frame die 
globale Position der Schädelbasis des Avatars herangezogen und auf die 
Kamera angewendet. Dann wird diese auf Augenhöhe und in Blickrichtung nach 
vorne verschoben, sodass sie schließlich genau zwischen den Augen des 
Avatars sitzt. Diese Kombination ergibt eine sehr realistische Kopfbewegung, da 
die virtuelle Kamera somit um den Nacken rotiert und nicht um sich selbst. Da 
die absolute Rotation des Kopfes des Avatars, wie auch des restlichen Körpers, 
vom iotracker bereitgestellt wird und das Tracking des HMDs nur relative 
Kopfbewegungen liefert, muss die Blickrichtung nach Verbindungsaufbau 
einmalig mit dieser globalen Rotation synchronisiert werden. Außerdem können 
die Daten beim relativen Kopf-Tracking des HMDs nach einer gewissen Zeit 
abweichen und in diesem Fall ebenfalls synchronisiert werden. Zu diesem Zweck 
nimmt der Benutzer bei Verbindungsaufbau oder für eine eventuelle weitere 
Synchronisation die T-Pose ein: Eine aufrechte Haltung, den Blick geradeaus 
gerichtet und beide Arme seitlich von sich gestreckt. Nun kann ein Reset des 
Kopf-Trackings des HMDs mittels Tastendruck ausgelöst werden. 
Gleichzeitig mit diesem Reset wird auch die Größe des Avatars an den aktuellen 
Benutzer angepasst. Dafür wurde eine Funktion implementiert welche das 
Verhältnis der Höhe der Pivotpoints bestimmt, zwischen den Daten des 
unveränderten Avatars und jenen des Benutzers, welche vom Motion-Capture-
System übermittelt werden. Anhand dieses Verhältnisses wird die Größe des 
 
 
Entwickelte Visualisierungstechniken 
2015  39 
Avatars und aller Körperteile skaliert. Die Position wird anhand der Differenz der 
Höhe ebenfalls angepasst, und sowohl das Verhältnis als auch die Differenz zur 
späteren Verwendung gespeichert. 
Die grafische Benutzerschnittstelle (GUI) musste auch komplett neu 
implementiert werden, da ein herkömmliches GUI nicht auf dem HMD angezeigt 
werden kann. Stattdessen wurde ein Panel erstellt welches in nur 3 cm Abstand 
vor der virtuellen Kamera des Benutzers das gesamte Blickfeld abdeckt und sich 
mit der Blickrichtung synchron bewegt. Die Transparenz dieses Panels kann wie 
gewünscht gesetzt und beliebige GUI-Elemente, wie Text, Bilder, etc., darauf 
angeordnet werden. 
Da im Rahmen dieser Arbeit eine Vielzahl neuer Funktionen implementiert 
wurde, war es besonders wichtig diese miteinander bzw. mit den bereits 
vorhandenen abzustimmen. Um ein konsistentes Wechseln zwischen 
verschiedenen Modi zu garantieren, wurde die Verwaltung dieser global 
umgesetzt. Die implementierten Visualisierungstechniken werden in den 
folgenden Kapiteln erläutert. 
5.2. Darstellung der optimalen Bewegung 
In Kapitel 4.1.1 Visuelles Lernen wurde bereits erläutert, wie wichtig das 
Ausbilden einer korrekten Bewegungsvorstellung für den Lernprozess ist. Zu 
diesem Zweck ist eine geeignete Darstellung für die Wiedergabe des optimalen 
Bewegungsablaufes wichtig, welche es dem Schüler ermöglicht diese optimal zu 
analysieren und so ein Verständnis der Bewegung zu erlangen. 
Als Lehrer-Avatar, welcher die optimale Bewegung vorführt, kommt das gleiche 
Modell zum Einsatz wie auch für den Schüler. Im Normalfall befindet sich der 
Lehrer leicht zurück versetzt vorne rechts neben dem Bewegungsbereich des 
Schülers (siehe Abbildung 16). Auf diese Weise kann Letzterer den Ablauf der 
optimalen Bewegung auch von vorne betrachten. Für die Wiedergabe nimmt der 
Lehrer-Avatar die gleiche Größe ein wie der Schüler ein. Dafür wird auf die 
bereits im vorigen Kapitel beschriebenen Werte des angepassten Schüler-
Avatars zugegriffen. Die gleiche Größe des Lehrer-Avatars könnte förderlich für 
das Verständnis der Bewegung sein, da damit auch die Proportionen, Länge der 
Schritte, etc. übereinstimmen. In Bezug auf Kapitel 4.1.1 Visuelles Lernen könnte 
 
 
Entwickelte Visualisierungstechniken 
40  2015 
außerdem das gleiche Aussehen auf mentaler Ebene eine positive Rolle spielen, 
da man sozusagen bereits sich selbst bei der Durchführung des idealen 
Bewegungsablaufs betrachtet. 
 
 
Abbildung 16: Wiedergabe der idealen Bewegung in normaler Größe. 
 
Aufgrund der Größe des Lehrer-Avatars ist es allerdings nicht immer leicht, alle 
Aspekte eines Bewegungsablaufs zur Gänze zu erfassen. Daher wurde eine 
alternative Visualisierung entworfen welche nur in Virtual-Reality in dieser Form 
möglich ist. Dabei wird im Zentrum des Bewegungsbereichs des Schülers ein 
Podest mit 60 x 60 cm und einer Höhe von 1 m eingeblendet und auf diesem der 
Lehrer zur Wiedergabe einer Bewegung platziert (Abbildung 17). Der Lehrer-
Avatar ist zu diesem Zweck auf eine Größe von etwa 70 cm verkleinert und auch 
Positionsänderungen, etc. dementsprechend angepasst. Auf diese Weise kann 
der Lernende den ganzen Bewegungsablauf im Detail von allen Seiten 
betrachten. Andererseits könnte der beträchtliche Größenunterschied das 
Umlegen der Bewegung auf sich selbst auch erschweren. 
 
 
 
Entwickelte Visualisierungstechniken 
2015  41 
 
Abbildung 17: Wiedergabe als Mini-Avatar im Zentrum des Bewegungsbereichs. 
 
Immersive Virtual-Reality bietet noch weitere Möglichkeiten welche in einer 
physischen Trainingsumgebung nur schwer realisierbar wären. Beispielsweise 
kann der Schüler in der VR-Lernumgebung auch Betrachtungswinkel einnehmen, 
die in der echten Welt nicht erreichbar wären, wie etwa über dem Lehrer. 
Außerdem lässt sich die Blickrichtung der virtuellen Kamera abhängig vom 
Kontext anpassen. So kann Perspektive und Position des Benutzers aktiv gesetzt 
werden, um damit zum gewünschten Zeitpunkt die Aufmerksamkeit auf 
bestimmte Teile der Bewegung zu lenken. Ebenso wäre es leicht möglich 
Markierungen, z.B. Pfeile, zu setzen um dem Schüler zu signalisieren: Begib dich 
an diese Position und sieh dir die Bewegung von dort an. 
Die Funktionalität zur Steuerung der Wiedergabe, etwa Start, Stopp, Pause, und 
der Geschwindigkeit, wie Schneller und Langsamer, und der Position des 
Lehrers, wurde wie in der ursprünglichen Implementierung beibehalten und 
entsprechend der im vorigen Kapitel beschriebenen notwendigen Anpassungen 
implementiert. 
 
 
Entwickelte Visualisierungstechniken 
42  2015 
5.3. Visualisierung zur Selbstwahrnehmung 
Nachdem der Benutzer über das HMD die virtuelle Welt, ebenso wie die 
physische Welt, aus einer Ich-Perspektive wahrnimmt, sieht er seinen eigenen 
Körper normalerweise nur wenn er direkt darauf blickt oder einzelne Körperteile 
in sein Sichtfeld streckt. Wie schon in 4.1.1 Visuelles Lernen beschrieben, ist es 
jedoch gerade zu Beginn eines Lernprozesses wichtig, die Ausführung der 
eigenen Bewegungen visuell zu überprüfen bzw. gegen jene des Lehrers 
abzugleichen. In diesem Kapitel werden nun verschiedene Alternativen 
entworfen und implementiert, um möglichst den gesamten Trainingsbereich, also 
sowohl sich selbst als auch den Lehrer, während der Bewegungsdurchführung 
im Blick zu behalten. 
5.3.1. Einfacher Spiegel 
Das Problem, sich selbst bzw. den Lehrer während der Bewegungsausführung 
nicht sehen zu können, haben Lernende auch in der realen Welt. Die einfachste 
Lösung hierfür ist demnach die gleiche wie auch in vielen realen 
Trainingsräumen, nämlich ein Spiegel frontal an der Wand (Abbildung 18). Diese 
Form der Darstellung der Trainingsumgebung entspricht auch am nächsten der 
Umsetzung in der ursprünglichen Implementierung von MoCapGym (Vonach 
2015), wo diese mit Hilfe eines Beamers an die Wand projiziert wurde. 
Für die Implementierung dieses einfachen Spiegels wurde in der virtuellen Szene 
frontal ein Panel platziert. Dessen Größe würde in der realen Welt 4,8 m Breite 
und 2,7 m Höhe entsprechen (ein Seitenverhältnis von 16:9) und sich vom 
Zentrum des Trainingsbereichs 2,5 m entfernt befinden. Eine virtuelle Kamera 
wurde der Szene hinzugefügt, welche von vorne aus den Trainingsbereich 
erfasst. Diese Ansicht wird dann auf eine spezielle Render-Textur auf dem Panel 
gerendert, wobei dieses noch in x-Richtung invertiert ist um damit das Verhalten 
eines echten Spiegels zu imitieren. Eine Lichtquelle wurde direkt vor dem Panel 
platziert. 
Um sofort intuitiv für den Benutzer verständlich zu sein, sollte die Ansicht auf dem 
Panel einerseits glaubwürdig einem echtem Spiegel entsprechen, aber 
gleichzeitig alles innerhalb des Trainingsbereichs möglichst groß darstellen. Um 
dieses Ergebnis zu erzielen hat sich eine Positionierung der virtuellen Kamera in 
einer Höhe von 1,35 m mit etwa 5,4 m Entfernung zum Zentrum vorteilhaft 
 
 
Entwickelte Visualisierungstechniken 
2015  43 
erwiesen, wobei diese durch einen schmalen FOV von nur 40° den gesamten 
Trainingsbereich wie durch eine Zoom-Aufnahme erfasst. 
 
 
Abbildung 18: Einfacher Spiegel frontal vor dem Trainingsbereich 
 
Ein klarer Vorteil dieser Visualisierungsmethode ist, dass sie sehr einfach 
verständlich ist und Sportlern diese ebenso aus der echten Welt bekannt ist. 
Daher sollte das Verständnis der gespiegelten Ansicht bzw. das Umlegen auf 
den eigenen Körper intuitiv und ohne großen kognitiven Aufwand möglich sein. 
Ein Nachteil ist, dass auch mit dem Spiegel nur an einer Stelle in der virtuellen 
Welt die ganze Szene sichtbar ist. Der Lernende muss also seinen Blick bzw. 
sich selbst immer nach vorne wenden, um die Übung zu sehen, was seine 
Bewegungen, besonders bei Drehungen im Bewegungsablauf, mitunter stark 
verfälschen kann. 
5.3.2. Spiegelwände 
Um die Avatare und die Trainingsumgebung immer im Blick zu behalten, ohne 
deshalb den Kopf oder Körper übermäßig verdrehen zu müssen, kann das 
Prinzip auf mehrere Spiegel um den gesamten Trainingsbereich herum erweitert 
werden (Abbildung 19). Dies wäre zumindest theoretisch auch in der echten Welt 
 
 
Entwickelte Visualisierungstechniken 
44  2015 
vorstellbar und auch der kognitive Mehraufwand für den Schüler sollte sich in 
Grenzen halten. 
 
 
Abbildung 19: Der gesamte Trainingsbereich ist von vier Spiegelwänden umgeben 
 
Die Implementation erfolgte hier analog zum einfachen Spiegel, nur sind hier vier 
Panels auf alle Seiten der Trainingsumgebung verteilt. Diese sind gleich weit vom 
Zentrum entfernt wie der einfache Spiegel und auch gleich groß. Auch besitzt 
jeder Spiegel eine entsprechende virtuelle Kamera mit den gleichen Werten wie 
beim einfachen Spiegel. In einem weiteren Punkt entsprechen die einzelnen 
Spiegel nicht der Realität, diese wurden nämlich so implementiert, dass die 
virtuellen Kameras die jeweils anderen Panels nicht rendern, also ein Spiegel 
keinen anderen Spiegel wiedergibt. In der echten Welt würde hier nämlich ein 
Parallelspiegeleffekt auftreten, also ein endloses Wiederspiegeln, was für 
Verwirrung sorgen würde. 
Diese Darstellungsform entspricht insgesamt trotzdem noch relativ nahe der 
echten Welt und sollte damit auch verhältnismäßig einfach verständlich sein. Ein 
möglicher Nachteil ist jedoch die unterschiedliche Perspektive in jeder Richtung, 
 
 
Entwickelte Visualisierungstechniken 
2015  45 
welche jeweils ein kurzes Umdenken des Schülers erfordert. Außerdem kann es 
zu Verdeckungen zwischen Lehrer- und Schüler-Avatar kommen. 
5.3.3. Avatare in Blickrichtung 
Auch vier Spiegel in allen Himmelsrichtungen erfordern ein Hinwenden zu den 
jeweiligen Spiegeln, wenngleich sich dieser Umstand weit weniger problematisch 
auswirkt, als beim einfachen Spiegel. Außerdem kann es wie eben beschrieben 
bei vier Spiegeln zu Verdeckungen kommen. Eine weitere implementierte 
Visualisierungsmöglichkeit geht daher noch einen weiteren Schritt weg von der 
Realität. Dabei bewegt sich ein Spiegel in Echtzeit mit der Orientierung des 
Schülers mit und ist somit immer in Blickrichtung (Abbildung 20). 
 
 
Abbildung 20: Der Spiegel bewegt sich mit der Orientierung des Schülers mit. 
 
Die Implementierung der Spiegelfläche selbst ist auch hier in Größe und 
Funktionsweise analog zu den bisher beschriebenen Varianten. Um das 
Mitbewegen mit der Orientierung des Benutzers zu realisieren besitzt der Spiegel 
jedoch einen Ankerpunkt im Zentrum der Trainingsumgebung. Zur Laufzeit wird 
nun in jedem Frame die Orientierung der Schädelbasis des Schülers zur 
Bestimmung des Blickvektors herangezogen und der Spiegel um diesen Wert um 
 
 
Entwickelte Visualisierungstechniken 
46  2015 
den Ankerpunkt rotiert. Der Spiegel bewegt sich somit wie auf Schienen in einer 
Kreisbahn um den Trainingsbereich, wobei virtuelle Kamera, Lichtquelle, etc. mit 
dem Panel eine Einheit bilden und sich entsprechend mitbewegen. Der Abstand 
zum Zentrum wurde im Vergleich zu den bisherigen Spiegeln auf 2,75 m 
vergrößert um zu verhindern, dass sich das Panel in den Ecken zu nahe an den 
Trainingsbereich annähert. 
Diese Art der Visualisierung bietet theoretisch unendlich viele mögliche 
Ansichten, wodurch sich beispielsweise auch mögliche Verdeckungen weit 
weniger auswirken sollten. Auch der Fakt, dass die Ansicht vom Schüler selbst 
immer ähnlich bleibt könnte vorteilhaft sein. Auf der anderen Seite ändert sich die 
Perspektive auf den Lehrer relativ stark und schnell, was wiederum kognitiv sehr 
fordernd sein könnte. 
5.3.4. Bild-in-Bild 
Eine weitere Möglichkeit der Darstellung wurde implementiert, um die 
Trainingsumgebung immer in Blick zu haben. Diese ähnelt einem virtuellen See-
Through-Display wie Google’s Glass oder einem Head-Up-Display (HUD) im 
Helm wie es bei Kampfpiloten zum Einsatz kommt. Dabei wird die Szene direkt 
im Blickfeld angezeigt, wie eine Art Bildschirm der vor dem Kopf montiert ist 
(Abbildung 21). 
Zur Implementierung dieser Visualisierungstechnik wurde eine Render-Texture 
direkt an das GUI angebracht und leicht nach rechts oben verschoben. Dieses 
befindet sich wie bereits in Kapitel 5.1 Erweiterung der bestehenden Software 
beschrieben, direkt im Blickfeld des Benutzers. Da dadurch ein großer Teil der 
Sicht des Schülers blockiert wird, wird die Ansicht mit 40 % Transparenz 
gerendert. Die virtuelle Kamera für diese Ansicht wurde etwa 4 m vom Zentrum 
entfernt in 1 m Höhe fix in der Szene platziert. Um den Platz der für diese Art der 
Visualisierung zur Verfügung steht optimal zu nutzen wurde ein noch schmalerer 
FOV von 37,5° und ein Seitenverhältnis von 4:3 gewählt, womit die beiden 
Avatare den vollen Bereich des virtuellen HUD zur Gänze füllen. Um keine 
zusätzliche Erschwernis bei der Umstellung auf diese Visualisierung zu 
verursachen, wurde auch diese Ansicht gespiegelt. 
 
 
Entwickelte Visualisierungstechniken 
2015  47 
 
Abbildung 21: Bild-in-Bild Visualisierung ähnlich einem Head-Up-Display. 
 
Diese Visualisierungstechnik wurde gewählt, da sie möglicherweise kognitiv 
weniger fordernd ist weil sich wie beim einfachen Spiegel die Perspektive nicht 
ändert. Dabei bleiben die Avatare trotzdem immer im Blickfeld, unabhängig von 
der jeweiligen Lage des Kopfes. Auf der anderen Seite könnte es trotz 
Transparenz als störend empfunden werden, da ein großer Teil der Sicht 
verdeckt wird. Außerdem muss sich im Gegensatz zu den übrigen 
Visualisierungstechniken der Szene das komplette HUD im Blickfeld platziert 
werden, wodurch im Verhältnis weniger Platz zur Verfügung steht. 
  
 
 
Entwickelte Visualisierungstechniken 
48  2015 
5.4. Fehlervisualisierung 
Als zusätzliche Informationsquelle für den Benutzer der Lernumgebung dienen in 
der vorliegenden Arbeit Unterschiede zur idealen Bewegungsabfolge. Wichtig 
dabei ist jedoch die richtige Präsentation dieser Daten. Aus bloßen numerischen 
Werten kann der Schüler nur schwer brauchbare Schlüsse ziehen, die zu einer 
Verbesserung der Bewegung führen. In diesem Kapitel werden drei Varianten 
der Fehlervisualisierung beschrieben, wobei jede unterschiedliche Aspekte 
hervorhebt. Die Visualisierungstechniken beschäftigen sich mit ganzheitlicher 
Analyse oder spezialisieren sich auf Körperteile, sowie der Präsentation in 
Echtzeit oder als Zusammenfassung. 
Zunächst wird die Erweiterung der bereits in MoCapGym zur Verfügung 
stehenden Visualisierungstechnik beschrieben. Im Anschluss daran wird eine 
Methode vorgestellt, welche die Bewegungen des Benutzers mit Hilfe mehrerer 
Avatare leiten soll. Als Abschluss wird eine Technik vorgestellt, welche eine 
Berechnung und Präsentation einer zeitabhängigen Fehlerzusammenfassung 
beinhaltet. 
5.4.1. Feedback durch farbliche Kennzeichnung 
Der erste Modus zur Fehlervisualisierung basiert auf der Implementierung von 
(Vonach 2015). Dabei wird jeder Körperteil je nach Abweichung zur optimalen 
Bewegung anhand eines Fehlerintervalls zwischen 0 und 1 in einer 
entsprechenden Farbe dargestellt. Für die Farbgebung werden die Rot- und 
Grünanteile jeweils komplementär in Echtzeit gesetzt. Der Einsatz dieser 
Methode hat jedoch Einschränkungen, da dadurch auf den Avatar keine 
komplexeren Texturen appliziert werden können. Aus diesem Grund musste die 
vorhandene Darstellungsvariante angepasst werden. Die vorliegende Arbeit 
integriert einen Avatar mit einer realistischen Textur. Im Gegensatz zur 
Implementierung aus (Vonach 2015) verwendet die neue Variante einen einzigen 
Mesh-Renderer für das Erscheinungsbild des Avatars. Um auf verschiedene 
Körperteile dennoch individuell zuzugreifen, wurden im 
3D-Modellierungsprogramm Maya einzelne Segmente des Meshes, 
entsprechend der Körperteile, unterschiedliche Shader zugewiesen. Dabei 
verweist jeder dieser Shader auf einen anderen Bereich derselben Textur. So ist 
es möglich in Unity 3D eine Kombination aus realer Textur und künstlicher 
 
 
Entwickelte Visualisierungstechniken 
2015  49 
Farbgebung zu erstellen, unter der Verwendung von ein und demselben Avatar. 
Dadurch ist es auch leichter möglich verschiedene Transparenzstufen zu setzen, 
um beispielsweise die Repräsentation des Benutzers in der virtuellen Welt 
anzupassen. Dies wird beispielsweise verwendet um den Kopf des Avatars aus 
dem Sichtfeld zu nehmen, sodass dieses nicht beeinflusst oder verdeckt wird. 
 
 
Abbildung 22: (a) MoCapGym: Avatar verwendet nur Farben mit multiplen Meshes; (b) neue 
Implementierung: ein Mesh mit multiplen Shadern, welche auf unterschiedliche Bereiche der 
Textur verweisen 
5.4.2. Nachzieheffekt 
Damit eine Visualisierung nicht nur einen allgemeinen Fehler, sondern zusätzlich 
die richtige Abweichungsrichtung vermittelt, muss einiges beachtet werden. 
Richtungen mit einem Pfeil anzuzeigen klingt als erster Ansatz zwar logisch, ist 
aber vermutlich aus mehreren Gründen nicht zu Empfehlen. Einerseits werden 
die Pfeile durch Körperteile und durch die Perspektive des Benutzers verdeckt 
und so können kleine Änderungen nicht mehr wahrgenommen werden. 
Andererseits ist es schwer aus Pfeilen die korrekte Ausrichtung zu erkennen, vor 
allem wenn sich die Länge dynamisch anpasst. Auch sollte der Benutzer kognitiv 
nicht mit zu vielen Informationen überfordert werden. Wie schon in (Eaves et al. 
2011) beschrieben, ist oft reduzierte Information in VR einfacher für den Benutzer 
zu verarbeiten, wobei die von ihm präsentierte punktuelle Darstellung durch die 
fehlende Tiefeninformation vermutlich zu wenige Schlüsse auf die richtige Pose  
zulässt.  
(a) (b) 
 
 
Entwickelte Visualisierungstechniken 
50  2015 
Aus diesen Gründen wurde das Konzept des Schatten-Avatars entwickelt. Dieser 
soll durch Überlagerung sowohl auf die richtige Pose hinweisen, als auch zur 
notwendigen Korrekturbewegung führen. Dies wir dadurch ermöglicht, dass die 
Position des vorführenden Avatars in Abhängigkeit des Schüler-Avatars gesetzt 
wird. Somit stehen beide Avatare in ihrer Ausgangsposition an derselben Stelle 
im globalen Koordinatensystem. Mittels einer Berechnung der Unterschiede der 
einzelnen Gelenke werden die Abweichungen ermittelt und im Verhältnis 1:3 
geteilt. Ziel ist es, zwei weitere Avatare zwischen dem Schüler und dem Lehrer 
zu visualisieren, welche die Richtung vorgeben. Diese interpolierten Avatare 
werden durch die berechneten und gleichmäßig verteilten Abweichungen 
gesteuert. Der Benutzer sieht dann sowohl aus der Ich-Perspektive als auch in 
einer der Spiegeldarstellungen zusätzlich zum eigenen Avatar drei weitere. Je 
genauer die Übung durchgeführt wird, desto mehr überlagern sich die einzelnen 
Avatare und leichte Abweichungen bleiben sichtbar. Ein weiterer Vorteil dieser 
Methode ist, dass vermutlich sowohl Drehungen leichter erkannt werden, als 
auch die Unterscheidung zwischen links und rechts leichter fällt. Abbildung 
23zeigt dabei einen Screenshot des Resultats. 
 
 
Abbildung 23:.Schatten-Avatar im Spiegel 
 
 
 
Entwickelte Visualisierungstechniken 
2015  51 
5.4.3. Kumulatives Feedback 
Als dritte Möglichkeit des Feedbacks wurde eine über die Zeit kumulierte 
Fehlervisualisierung implementiert. Diese soll es ermöglichen über die Dauer 
eines bestimmten Zeitfensters den Fehler aller Gelenke individuell 
aufzusummieren und in einer zusammenfassenden Ausgabe dem Benutzer zu 
präsentieren.  
Zur Berechnung der Fehlerwerte der einzelnen Gelenke über die Zeit werden die 
Unterschiede respektive die Fehler der Pose herangezogen. Dabei werden die 
eintreffenden Daten des Benutzers mit der aktuellen Pose des Lehrer-Avatars 
verglichen und die Unterschiede berechnet. Zur zeitlichen Zusammenfassung 
der Fehlerwerte wurden zwei Varianten implementiert. Zunächst wurden die 
Fehler in einer Fensterfunktion jeweils über die vergangenen 10 Sekunden der 
Übung als normierten Fehler zusammengefasst, abhängig von der Anzahl der 
eintreffenden Datensätze. So kann dem Benutzer für jedes Gelenk zu jedem 
Zeitpunkt ein Fehlerwert zwischen 0 und 1 gezeigt werden. Hierfür musste eine 
eigene Datenstruktur geschaffen werden, welche ältere Werte verwirft und neue 
Werte anhand des definierten Zeitintervalls hinzufügt. Bei der zweiten Variante 
handelt es sich um eine Zusammenfassung der Bewegung über den gesamten 
Zeitraum einer Übung. Dabei werden alle Abweichungen während einer 
vollständigen Bewegungsabfolge gesammelt und normiert.  
 
 
Abbildung 24: Präsentation der Fehler als kumulatives Feedback nach Abschluss eines 
Übungsdurchlaufs 
 
 
Entwickelte Visualisierungstechniken 
52  2015 
Die Ergebnisse der beiden Varianten werden durch 11 normierte Fehlerwerte 
repräsentiert. Diese müssen dem Benutzer in geeigneter Form präsentiert 
werden. Hierzu wird zunächst die Übung pausiert und mitten im Sichtfeld eine 
Visualisierung auf dem GUI (siehe Kapitel 5.1 Erweiterung der bestehenden 
Software) eingeblendet, welche einen Avatar in T-Pose zeigt (Abbildung 24). Die 
Fehlerwerte werden dabei anhand von Balken unterschiedlicher Länge an den 
Gelenken dargestellt. Die Länge und Farbgebung der Balken ist dabei abhängig 
von Fehlergrad des gemessenen Intervalls. Da die fehlerbehafteten Gelenke mit 
größeren Balken dargestellt werden kann der Benutzer innerhalb kürzester Zeit 
die Problemstellen identifizieren und sich in Folge auf diese Gelenke stärker 
konzentrieren.  
 
  
 
 
Interaktionstechniken 
2015  53 
6. Interaktionstechniken 
Im folgenden Kapitel werden Interaktionstechniken beschrieben, welche für das 
vorliegende Szenario herangezogen werden. Aufgrund des speziellen Setups 
(beschrieben in Kapitel 4.2 Setup) können keine konventionellen 
Eingabemöglichkeiten wie Tastatur oder Maus herangezogen werden. Die 
Anforderungen an geeignete Techniken sind vielfältig und wurden im Kapitel 
4.2.4 Interaktionsmöglichkeiten für VR-Umgebungen bereits ausführlich 
diskutiert. Die daraus resultierenden Schlüsse und das Design der 
Lernumgebung bzw. der Visualisierungsvarianten führten zur Auswahl der 
Interaktionstechniken. Im nun folgenden Abschnitt werden die Integration von 
Sprachsteuerung, Gestensteuerung und eines über Bluetooth verbundenen 
Gamecontrollers genauer beschrieben. 
6.1. Gamecontroller 
Als erste Variante der Steuerung wurde der Gamecontroller der Spielekonsole 
Wii herangezogen (siehe Abbildung 25). Dieser kann mittels Bluetooth mit dem 
PC verbunden werden und verfügt über 12 Tasten. Der Vorteil dieses Controllers 
besteht darin, dass er sich mit einer Hand bedienen lässt und über eine 
ausreichende Reichweite von ca. 10 m verfügt.  
Für die Bedienung der Lernumgebung wurden vier Tasten herangezogen. Die 
Home-Taste für das Wechseln der verschiedenen Wiedergabevarianten, Taste 
A für die Visualisierungsvarianten der Trainingsumgebung, Taste B für die 
Feedbackmodi, und die Taste 1 für die Kalibrierung. Der Benutzer muss sich die 
Zuordnung der Tasten zu den Funktionen aneignen, da keine intuitive Zuordnung 
möglich ist. 
Da der Gamecontroller für eine Spielekonsole entwickelt wurde, war es für die 
Integration in die Lernumgebung notwendig, diesen über einen Eingabeemulator 
anzusteuern. Hierfür wurde der frei zur Verfügung stehende Emulator GlovePIE14 
in der Version 0.42 herangezogen. Diese Software ermöglicht es durch eine 
Skriptsprache bestimmte Eingabewerte auf beliebige Funktionen abzubilden. 
                                            
14 GlovePie: http://glovepie.org/ 
 
 
Interaktionstechniken 
54  2015 
Abbildung 26 zeigt das erstellte Skript welches für diese Eingabevariante 
angelegt wurde.  
 
 
Abbildung 25: Wiimote Controller 
 
 
Abbildung 26: GlovePIE Skript für Wiimote Controller 
6.2. Sprachsteuerung 
Als weitere Möglichkeit der Steuerung der VR-Anwendung wird eine 
Sprachsteuerung evaluiert. Diese bietet viele Freiheiten. Der Befehlssatz kann 
beliebig erweitert werden, es ist gleichsam ergonomisch und leicht und schränkt 
die Bewegungsfreiheit in keiner Weise ein. Ein Auslösen der Befehle in Echtzeit 
ist jedoch nur bedingt gegeben, da die Verarbeitung von Sprache bedingt durch 
die Komplexität einige Millisekunden in Anspruch nehmen kann. Zur Verwendung 
einer Spracheingabe sind drei Komponenten nötig: ein Mikrophon, eine Sprach-
Engine und ein Emulator. 
 
 
Interaktionstechniken 
2015  55 
 
Abbildung 27: AKG Funkmikrophon 
 
Die Aufnahme der Stimme des Benutzers erfolgt im vorliegenden Setup über das 
Funkmikrophon-System AKG SR 40 (siehe Abbildung 27), welches es durch eine 
Basisstation und einen mobilen Sender ermöglicht, das Mikrophon beliebig im 
Raum zu platzieren. Durch die Basisstation ist es möglich das eintreffende Signal 
zu verstärken, um größere Distanzen zu überbrücken. 
Das eintreffende Audiosignal wird durch die Spracherkennungs-Engine von 
Microsoft Windows 7 analysiert. Dabei ist es notwendig das Mikrophon einmalig 
durch eine standardisierte Kalibrierung einzurichten. Zur Definition der Auslöser-
Worte wurde die Software GlovePIE15 verwendet. Diese bildet jede definierte 
Phrase auf einen bestimmten Ausgabewert ab. Um eine Verwechslung zu 
vermeiden, wurden die Befehle aus zumindest zwei Silben zusammengestellt. 
Aufgrund der verwendeten Plattform wurden Wörter aus dem englischen 
Sprachschatz gewählt (siehe Abbildung 28). Zur Steuerung wurden folgende 
Befehle herangezogen: change view; play mode, other feedback und calibrate 
me. Darüber hinaus ermöglicht der Befehl Microphone.Said(String, int) nicht nur 
die Definition der Phrase, sondern bietet auch die Möglichkeit eine 
Konfidenzstufe zu definieren. Um ein möglichst fehlerfreies Arbeiten zu 
ermöglichen wurde die Stufe 5 von 6 möglichen gewählt. Dabei ist es notwendig 
die gesamte Phrase deutlich zu sprechen um einen Effekt zu erzielen.  
 
                                            
15 GlovePIE Microphone.Said: 
http://glovepie.org/w/index.php?title=Preliminary_Documentation_v0.43#Speech  
 
 
Interaktionstechniken 
56  2015 
 
Abbildung 28: GlovePIE Skript für Sprachsteuerung 
6.3. Gestensteuerung 
Die dritte Interaktionstechnik basiert auf Gestensteuerung. Dies ermöglicht es 
dem Benutzer durch bestimmte Bewegungsmuster, bestimmte Funktionen in der 
Anwendung auszulösen. Der Vorteil dieser Eingabemöglichkeit liegt darin, dass 
Befehle schlüssig je nach Funktionalität gestaltet werden können und des 
Weiteren keine zusätzlichen Geräte am Körper angebracht werden müssen. 
Aufgrund mehrmaliger Wiederholungen könnte es jedoch zu 
Ermüdungserscheinungen kommen oder bestimmte Bewegungen könnten den 
Übungsablauf beeinflussen. Da nicht jedes VR-Setup über einen teures Motion-
Tracking-System verfügt wurde für die Umsetzung eine vom Tracking-System 
unabhängige Technologie verwendet. Dies ermöglicht es, die Ergebnisse der 
Benutzerstudie auch auf andere Projekte zu reflektieren.  
 
 
Abbildung 29: Tiefensensor Kinect für Gestensteuerung 
 
Für die Erkennung der Gesten wurde ein Tiefensensor verwendet. Die Microsoft 
Kinect (siehe Abbildung 29) ermöglicht es in einem Bereich von bis zu fünf Metern 
Tiefendaten zu ermitteln. Dies entspricht etwa der Bewegungsfreiheit im 
vorgestellten Motion-Tracking-Setup. Um die Tiefendaten zu verarbeiten wird auf 
die Applikation FAAST von Suma et al. (Suma et al. 2012) zurückgegriffen (siehe 
Abbildung 30). Dabei handelt es sich um eine sogenannte Middleware welche 
 
 
Interaktionstechniken 
2015  57 
eine Ganzkörpersteuerung für VR-Applikationen ermöglicht. Sie baut dabei auf 
die Implementierung der Microsoft Kinect Skelett-Tracking-Software auf. 
 
 
Abbildung 30: FAAST zeigt ein Tiefenbild mit erkannter Person und 
eingeblendetem Skelett 
 
Für die Umsetzung der konkreten vier Befehle wurde darauf geachtet, dass die 
ausgelöste Funktion auch inhaltlich zur Geste zuzuordnen ist. Um nicht 
versehentlich während der Übung eine Aktion auszulösen, muss der Benutzer 
jeden der Befehle zwei Mal innerhalb von einer Sekunde durchführen. Für das 
Wechseln des Wiedergabemodus muss die rechte Hand über den Kopf gestreckt 
und wieder angezogen werden. Für das Durchschalten der verschiedenen 
Spiegel muss mit der rechten Hand geradeaus nach vorne gezeigt und die Hand 
danach wieder zum Körper geführt werden. Der Feedbackmodus verlangt es die 
linke Hand kurz über den Kopf zu strecken und wieder zurückzuziehen. Um eine 
Kalibrierung durchzuführen muss mit beiden Händen auf den Kopf gezeigt 
werden und danach die T-Pose eingenommen werden.  
 
 
Evaluierung 
58  2015 
7. Evaluierung 
Um eine Aussage über die Zweckmäßigkeit der in dieser Arbeit entwickelten 
Visualisierungs- und Interaktionstechniken treffen zu können, wurde eine 
Benutzerstudie durchgeführt. Der Entwurf dieser Studie, die geplante Prozedur 
und das eingesetzte Setup werden in diesem Kapitel dargelegt. Im Anschluss 
werden auch die gemachten Beobachtungen und die Auswertung der Resultate 
im Detail präsentiert. 
7.1. Studiendesign 
Der Schwerpunkt der vorliegenden Arbeit liegt auf dem Entwurf und der 
Entwicklung neuer Visualisierungs- und Interaktionstechniken, speziell auf die 
Anforderungen sportmotorischen Lernens in Zusammenhang mit einer voll-
immersiven VR-Lernumgebung abgestimmt. Um diese zu evaluieren wurde eine 
Studie durchgeführt in welcher eine Reihe an Benutzern eine komplexe 
Bewegung, nur mit Hilfe der entwickelten Techniken, mittels HMD einstudieren 
sollte. 
7.1.1. Setup 
In Abbildung 31 ist eine Skizze der Studienumgebung dargestellt. Wie schon in 
Kapitel 4.2.1 Tracking Technologiegrundlagen beschrieben kam ein iotracker-
System mit 8 Kameras für das Tracking der Bewegungen des Benutzers zum 
Einsatz (Abbildung 31a). Daraus ergibt sich ein Bereich von etwa 4 m x 4 m und 
3 m Höhe in der Mitte des Raumes in welchem die Bewegungen eines 
Studienteilnehmers registriert werden konnten (Abbildung 31b). Eine 
entsprechende Markierung ist auch in der virtuellen Welt für den Betrachter 
ersichtlich (siehe Kapitel 5.1 Erweiterung der bestehenden Software). Um 
Körperbewegungen aufzeichnen zu können wurde ein passiver Motion-Suit 
(Kapitel 4.2.1 Tracking Technologiegrundlagen) angezogen. Die virtuelle 
Umgebung wurde für den Teilnehmer auf einem Oculus Rift DK2 HMD 
(Abbildung 31c) dargestellt, wie in Kapitel 4.2.3 Analyse von HMDs als 
Ausgabegerät dargelegt, wobei die gesamte visuelle Ausgabe während eines 
Testdurchlaufs zur späteren Analyse aufgezeichnet wurde. 
 
 
 
Evaluierung 
2015  59 
 
Abbildung 31: Skizze der Studienumgebung: (a) iotracker-Kamera, (b) erfassbarer Trackingbereich, (c) 
Oculus Rift DK2 HMD, (d) Videokamera, (e) PC und Position für die direkte Beobachtung, (f) Mikrophon 
für Sprachbefehle, (g) Kinect für Gestensteuerung und (h) Sitzmöglichkeit für Studienteilnehmer. 
Wie unten näher erläutert, wurden dem Teilnehmer die verfügbaren 
Visualisierungsmöglichkeiten nach und nach gezeigt, er konnte jedoch jederzeit 
frei zwischen allen Möglichkeiten wechseln. Dabei wurde die Zeit die in jedem 
Modus verbracht wurde getrennt aufsummiert, um später auf diese Weise 
Präferenzen ableiten zu können. Ebenso wurde der Test zum einen mit einer 
Videokamera aufgenommen, welche auf einem Tisch platziert wurde (Abbildung 
31d), als auch vom Autor direkt beobachtet, wobei dieser besondere 
Vorkommnisse notierte. Der Autor befand sich dafür an einem Tisch im Raum an 
einem PC (Abbildung 31e) von welchem aus das Experiment kontrolliert werden 
konnte. Sowohl der Server des Tracking-Systems, als auch die VR-
Lernumgebung und alle notwendigen Tools für die Interaktionstechniken (siehe 
Kapitel 6 Interaktionstechniken) liefen auf demselben Computer. Dieser ist mit 
einem Intel Core i7 X 980 Prozessor mit 3,33 GHz, 12 GB Arbeitsspeicher und 
einer NVIDIA GeForce GTX 690 Multi-GPU-Grafikkarte ausgestattet. Als 
Betriebssystem kam Microsoft Windows 7 zum Einsatz. Um eine bestmögliche 
Soundqualität für die Sprachsteuerung zu gewährleisten, wurde ein Funk-
Mikrophon zentral in Kniehöhe an der Wand befestigt (Abbildung 31f). Am Rand 
 
 
Evaluierung 
60  2015 
des Trackingbereichs wurde eine Microsoft Kinect für Xbox so platziert, dass 
dieser für die Gestensteuerung komplett erfasst werden konnte (Abbildung 31g). 
Der Wii Remote Gamecontroller wurde mittels Bluetooth mit dem PC verbunden 
und bereit gelegt. Eine zusätzliche Sitzmöglichkeit stand den Studienteilnehmern 
zur Verfügung um dort sowohl den Fragebogen (siehe unten) ausfüllen zu 
können als auch für eine eventuelle Pause zu nutzen (Abbildung 31h). 
7.1.2. Bewegungsablauf 
Der Bewegungsablauf welcher im Rahmen der Studie gelernt werden soll basiert 
auf einer sogenannten Form oder Poomsae aus der Kontaktsportart Taekwondo. 
Dabei handelt es sich um festgelegte Bewegungsabfolgen bestimmter Schlag- 
und Blocktechniken, wobei ein hoher Wert auf Präzision und Timing gelegt wird 
(Pottle 2013). Um das Erlernen in der verhältnismäßig kurzen Zeitspanne 
innerhalb eines Testdurchlaufs zu ermöglichen wurde für die Studie die erste und 
einfachste Poomsae Taeguek Il Jang herangezogen und auf die ersten 10 von 
insgesamt 16 Schritten beschränkt. Diese wurden mit einem Sportler mit grünem 
Gürtel (8. Kup) in Taekwondo vorab aufgezeichnet. Die einzelnen Schritte 
ergeben eine bestimmte Abfolge aus 90° oder 180° Drehungen jeweils gefolgt 
von einer Blocktechnik mit einem Arm, oder einer Schritt- und Schlagkombination 
(siehe Abbildung 32). Dabei wiederholen sich ähnliche Muster auch mehrmals. 
 
Abbildung 32: Einige Schritte des Bewegungsablaufs: (a) niederer Block mit rechtem Arm, (b) Schritt 
vorwärts mit Schlag, (c) mittlerer Block mit rechtem Arm 
 
(a) (b) (c) 
 
 
Evaluierung 
2015  61 
Da diese Formen üblicherweise relativ zügig durchgeführt werden, wird die 
Bewegungsabfolge für die Studie nur mit 2/3 der tatsächlichen Geschwindigkeit 
wiedergegeben, um den fehlenden Vorkenntnissen der Teilnehmer 
entgegenzukommen. 
Dieser Bewegungsablauf wurde für die Studie ausgewählt, weil er eine gewisse 
Komplexität aufweist: Besonders aufgrund der zahlreichen Drehungen ist er im 
Selbststudium auf herkömmlichen Weg, beispielsweise mittels Bildfolgen, 
2D-Animationen oder Videos, nicht leicht zu erlernen. Deshalb könnten sich hier 
Vor- als auch Nachteile einer HMD-basierten VR-Lernumgebung besonders klar 
zeigen. 
7.1.3. Fragebogen 
Es sei hier noch einmal betont, dass nicht der Lernerfolg im Fokus der 
Untersuchung steht. Ein einzelner Testdurchlauf wäre zu wenig Zeit um eine 
solche Bewegung ohne jede Vorkenntnisse wirksam zu lernen. Zu diesem Zweck 
müssten mehrere aufeinanderfolgende Sitzungen erfolgen, was den Rahmen 
dieser Arbeit sprengen würde. Vielmehr soll erforscht werden, inwieweit die 
verschiedenen entwickelten Visualisierungs- und Interaktionstechniken durch die 
Studienteilnehmer als Unterstützung empfunden werden, um auf diesem Weg 
eine Vorstellung der Bewegungsabfolge ausbilden zu können. Da dies sehr auf 
subjektiven Eindrücken der Teilnehmer beruht, wurde ein umfangreicher 
Fragebogen erstellt, um diese zu erfassen. Dieser wurde in Anhang 10 Appendix 
– Fragebogen dieser Arbeit beigefügt und beinhaltet eingangs eine kurze 
Beschreibung der Studie, sowie eine Einverständniserklärung zur Verwendung 
der Foto- und Videoaufzeichnung. Mit dieser Erklärung bestätigte der 
Studienteilnehmer auch, dass die gesammelten Daten anonymisiert ausgewertet 
werden dürfen und keine besonderen gesundheitlichen Probleme vorlagen. Auf 
der ersten Seite befanden sich auch allgemeine Fragen betreffend Alter, 
Geschlecht, Körpergröße und Vorerfahrung mit VR-Systemen, sowie eine 
Selbsteinschätzung zur Sportlichkeit des Teilnehmers. 
Die zwei darauffolgenden Seiten entsprachen dem Simulator Sickness 
Questionnaire (SSQ) von Kennedy et al. (Kennedy et al. 1993). Dabei handelt es 
sich um eine Liste von 16 Symptomen die oft während oder nach einer VR-
Simulation auftreten können. Die Studienteilnehmer gaben dazu jeweils vor und 
 
 
Evaluierung 
62  2015 
nach der VR-Erfahrung an, wie sehr jedes Symptom in diesem Moment auf ihn 
zutraf von None (Leicht) bis Severe (Stark). Daraus ergibt sich eine Bewertung 
für verschiedene Aspekte und der Stärke des Auftretens von Simulator Sickness 
bzw. Cybersickness. Da einige der Begriffe für Personen mit anderer 
Muttersprache als Englisch möglicherweise nicht eindeutig verständlich sein 
könnten, wurde vom Autor jeweils zusätzlich zum originalen Wortlaut eine 
deutsche Übersetzung hinzugefügt. 
Um verschiedene mögliche Einflussfaktoren auf spätere Antworten einschätzen 
zu können, wurden nach Besuch der VR-Lernumgebung einige Fragen zur 
subjektiven Erfahrung gestellt. Ein wichtiger Faktor in diesem Zusammenhang ist 
Immersion bzw. Presence. Wie Slater (Slater 1999) ausführt, bezeichnet 
Immersion in welchem Ausmaß es das System ermöglicht, den Benutzer 
komplett mit der virtuellen Welt zu umgeben, während sich Presence auf das 
Gefühl bezieht, sich tatsächlich dort an diesem virtuellen Ort zu befinden und 
nicht mehr in der tatsächlichen physischen Umgebung. Um diese Faktoren zu 
erfassen wurde, basierend auf den Erläuterungen von Usoh et al. (Usoh et al. 
2000), beispielsweise gefragt, ob die Studienteilnehmer das Gefühl hatten sich 
frei in dieser virtuellen Welt bewegen zu können und sich dort zu befinden. 
Außerdem wurde erfragt ob die Bewegung bereits vertraut war bzw. ob der 
Teilnehmer glaubte diese aus dem Gedächtnis wiedergeben zu können. All diese 
Fragen konnten anhand einer Likert-Skala (Likert 1932) mit 5 Items, also 
Auswahlmöglichkeiten, beantwortet werden, wobei jeweils ganz links einer sehr 
positiven oder starken und rechts einer sehr negativen oder schwachen Aussage 
entsprach. 
Im Anschluss wurde die persönliche Vorliebe aller visuellen Darstellungsformen 
abgefragt, gruppiert nach Wiedergabe (Lehrer neben der Übungszone oder auf 
dem Podest), Visualisierung der Trainingsumgebung und der Avatare (Spiegel 
vorne, rundherum, mit bewegend oder als Head-Up-Display) und Feedback 
(Farben, Schatten-Avatar oder Zusammenfassung). Wieder stand zur 
Beantwortung eine Likert-Skala mit 5 Items von sehr gut bis sehr schlecht zur 
Verfügung. Zusätzlich konnten in einem freien Feld zu jeder 
Visualisierungstechnik Anmerkungen notiert werden, um auf diese Weise auch 
unerwartete Informationen oder nähere Erläuterungen zu einer Wahl äußern zu 
können. Zwei offene Fragen erlaubten es dem Teilnehmer darauf einzugehen, 
 
 
Evaluierung 
2015  63 
ob eine bestimmte Kombination als besonders hilfreich empfunden wurde, oder 
er sich eine andere, hilfreichere Darstellung vorstellen könnte. 
In Zusammenhang mit der Interaktionstechnik wurde erfragt, inwiefern man mit 
dieser gezielt Funktionen auswählen konnte oder ob diese als hinderlich 
empfunden wurde. Beantwortet wurden die Fragen ebenso wie die zur 
Visualisierungstechnik mittels Likert-Skala und freier Anmerkung. Auch konnte 
der Teilnehmer angeben, ob er eine andere Interaktionstechnik vorziehen würde. 
Abschließend wurde noch in offenen Fragen die drei positivsten und drei 
negativsten Ereignisse erfragt, eine Methode basierend auf der Critical Incident 
Technique (CIT) (Flanagan 1954), die es auf diese Weise ermöglicht 
unerwartete, kritische Probleme der VR-Anwendung zu identifizieren. Außerdem 
stand ein Feld für freie Anmerkungen, Kritik, etc. zur Verfügung. 
7.2. Studienablauf 
Um eine Konstanz der einzelnen Testdurchläufe sicherzustellen, wurde der 
genaue Ablauf detailliert geplant und schriftlich festgehalten. Anhand dieser 
Vorlage führte der Autor alle Teilnehmer durch die Studie. 
Noch bevor die Testperson den Raum betrat, traf der Autor notwendige 
Vorbereitungen wie sicherzustellen, dass alle Systemkomponenten in der 
richtigen Reihenfolge aktiviert wurden und ein Getränk bereit stand. 
Anschließend wurde der Studienteilnehmer hereingebeten. Diesem wurde für die 
Bereitschaft zur Teilnahme gedankt und kurz Ziel und Ablauf der Untersuchung 
näher gebracht. Dabei wurde noch einmal explizit auf die Verwendung der Foto- 
und Videoaufnahmen hingewiesen und betont, dass die Studie jederzeit 
abgebrochen werden konnte, sollten Schwindel, Übelkeit oder ähnliche 
Symptome auftreten. Daraufhin wurde der Teilnehmer eingeladen auf dem 
Sessel Platz zu nehmen und den Teil des Fragebogens mit der 
Einverständniserklärung, allgemeinen Fragen und dem Pre-SSQ auszufüllen 
(siehe Kapitel 7.1.3 Fragebogen). 
Danach setzte der Benutzer das HMD auf und der Autor erklärte den Ablauf der 
Kalibrierung zur Bestimmung des IPD (siehe Kapitel 4.2.3 Analyse von HMDs als 
Ausgabegerät), welche im Anschluss durchgeführt wurde. Dafür wurde eine Linie 
mit beiden Augen solange verfolgt bis sie nach links bzw. rechts aus dem 
 
 
Evaluierung 
64  2015 
Blickfeld verschwand und dieser Vorgang je Auge und Seite durchgeführt. Als 
nächstes wurde die Testperson gebeten, das HMD abzusetzen und den Motion-
Suit anzulegen. 
Währenddessen wählte der Autor eine Interaktionstechnik für den Testdurchlauf 
und traf letzte notwendige Vorbereitungen. Sobald der Studienteilnehmer bereit 
war, wurde die Kalibrierung des Motion-Suit durchgeführt (siehe Kapitel 4.2.1 
Tracking Technologiegrundlagen). Sicherheitshalber wurde die notwendige 
Kalibrierungsbewegung gleich zweimal durchgeführt, um zu garantieren, dass 
eine davon erfolgreich ist. Der gesamte Prozess bis zu diesem Zeitpunkt dauerte 
im Normalfall etwa 10 bis 20 Minuten. 
Nun wurden die Video- und Bildschirmaufzeichnung sowie die VR-
Lernumgebung gestartet. Der Benutzer durfte das HMD wieder aufsetzen und 
um die Verbindung zum Tracking-System aufzubauen und die Größe des Avatars 
an den Benutzer anzupassen, wurde dieser gebeten kurz die T-Pose 
einzunehmen. Nun durfte sich der Teilnehmer frei in der Szene bewegen, um 
sich an seinen Avatar und die Umgebung zu gewöhnen. 
Nach zwei Minuten wurden die beiden Visualisierungsmöglichkeiten zur 
Wiedergabe vorgestellt (siehe Kapitel 5.2 Darstellung der optimalen Bewegung), 
also der Lehrer-Avatar neben der Zone für den Schüler und die Wiedergabe auf 
dem Podest. Zu diesem Zweck zeigte der Autor beide Modi kurz vor, deaktivierte 
dann beide wieder und erklärte dann wie der Benutzer diese aktivieren konnte. 
Um die Teilnehmer nicht zu überfordern, wurden die Steuerungsmöglichkeiten im 
Rahmen der Studie stark eingeschränkt. Je nach ausgewählter 
Interaktionstechnik konnte dieser auf die nächste Wiedergabeform schalten 
indem entweder die Taste Home auf dem Gamecontroller betätigt wurde, als 
Geste die rechte Hand kurz hintereinander zweimal über den Kopf gestreckt 
wurde oder im Falle der Sprachsteuerung die Worte Start Play gesprochen 
wurden. 
Da alle Menschen unterschiedlich lernen, wurde für das Experimentieren mit den 
verschiedenen Darstellungsformen keine maximale Zeit festgelegt. Stattdessen 
achtete der Autor in diesem Fall auf erste, ernsthafte Versuche des Teilnehmers, 
die Bewegung nachzuahmen, woraufhin der nächste Schritt der Studie 
eingeleitet wurde. Üblicherweise war dies jeweils nach ungefähr 10 Minuten der 
Fall. 
 
 
Evaluierung 
2015  65 
In der nächsten Phase der Untersuchung wurde dem Teilnehmer die 
verschiedenen Möglichkeiten der Visualisierung der Trainingsumgebung und der 
Avatare (siehe Kapitel 5.3 Visualisierung zur Selbstwahrnehmung) kurz 
vorgeführt, also der einfache Spiegel frontal, Spiegel rundherum, der 
mitbewegende Spiegel sowie die Spiegelansicht im Head-Up-Display, und 
wieder deaktiviert. Dem Teilnehmer wurde je nach Interaktionsform erklärt, dass 
er diese Darstellungsformen mit der Taste A auf dem Gamecontroller, als Geste 
durch zweimal kurz hintereinander mit der gestreckten rechten Hand nach vorne 
zeigen bzw. per Sprache mit den Worten Change View wechseln konnte. Im Zuge 
dessen wurde auch noch einmal darauf hingewiesen, dass die Modi jederzeit frei 
gewechselt werden durften. 
Um die nächste Phase einzuleiten wartete der Autor auf erste Ansätze von 
Korrektheit bzw. richtiger Abfolge der Bewegungen. Nun wurde dem Teilnehmer, 
ähnlich wie zuvor, die Möglichkeiten zur Fehlervisualisierung gezeigt (siehe 
Kapitel 5.4 Fehlervisualisierung), also die gefärbten Körperteile, der Lehrer-
Avatar mit interpoliertem Schatten und das zusammenfassende Feedback. Diese 
konnten mittels Gamecontroller mit der Taste B, mit der Geste linke Hand 
zweimal über den Kopf strecken oder mit den Worten Other Feedback 
gewechselt werden. 
Wenn der Bewegungsablauf annähernd richtig ausgeführt wurde oder der 
Teilnehmer merklich weniger mit den Darstellungsformen experimentierte, wurde 
die Übung beendet und der Studienteilnehmer durfte die Ausrüstung ablegen. Zu 
diesem Zeitpunkt wurde er gefragt, ob er die erlernte Bewegung auch außerhalb 
der VR-Umgebung vorführen mochte. Insgesamt wurden etwa 30 bis 40 Minuten 
in der virtuellen Welt verbracht. 
Die Videoaufzeichnung wurde nun beendet und dem Teilnehmer eine kurze 
Pause angeboten. Danach wurde er gebeten, den zweiten Teil des Fragebogens 
zu beantworten. Abschließend wurde allen Teilnehmern noch einmal 
ausdrücklich gedankt und jeder erhielt eine kleine, süße Belohnung. 
Ein gesamter Studiendurchlauf dauerte je nach Teilnehmer zwischen 1 und 1,5 
Stunden. 
 
 
Evaluierung 
66  2015 
7.3. Resultate 
In der durchgeführten Benutzerstudie wurden 9 Teilnehmer durch den im vorigen 
Abschnitte beschriebenen Testablauf geführt. Dabei waren zwei weibliche und 
sieben männliche Personen zwischen 19 und 34 Jahren beteiligt. Die Hälfte der 
Teilnehmer gab an keinerlei Erfahrung mit Virtual-Reality-Anwendungen zu 
haben. Darüber hinaus bezeichneten sich die Teilnehmer ausschließlich als 
durchschnittlich sportlich. Im Schnitt dauerte ein Test 72 Minuten, gemessen ab 
dem Zeitpunkt der einführenden Erklärung bis zur Fertigstellung des 
Fragebogens. Bei zwei Personen verlängerte sich die Dauer überdurchschnittlich 
um ca. 30 Minuten, aufgrund von Kalibrierungsproblemen des Skeletts. 
 
Im Zuge der Benutzerstudie mussten die Teilnehmer den standardisierten SSQ 
Fragenbogen von Kennedy et al. (Kennedy et al. 1993) vor bzw. nach dem 
virtuellen Erlebnis ausfüllen, anhand des momentanen Zustands bestimmter 
körperlicher Symptome. Die Berechnungen basierend auf Kennedy et al. 
ergaben, dass sich die Symptome von sechs Personen nicht verschlechtert 
haben und zum großen Teil sogar eine Verbesserung eingetreten ist (siehe 
Tabelle 2). Die Berechnung des Medians der Unterschiede zwischen dem 
Zustand vor und nach der virtuellen Erfahrung zeigt, dass mit einem Wert von -
37,4 gesamt gesehen eine deutliche Verbesserung bei einer Mehrzahl der 
Beteiligten eingetreten ist. Die zwei Personen mit Kalibrierungsproblemen 
ergaben zwei Ausreißer mit einem Wert von über +200, wobei der Wert nicht 
hoch genug war um die Benutzerstudie abbrechen zu müssen. 
 
# 
TOTAL pre 
SSQ 
TOTAL post 
SSQ 
TOTAL DIFF
1  108,7592 71,3592 ‐37,4
2  56,6984 317,2268 260,5284
3  160,82 87,7404 ‐73,0796
4  144,4388 71,3592 ‐73,0796
5  352,9064 99,7084 ‐253,198
6  80,41 376,618 296,208
7  151,7692 64,0288 ‐87,7404
8  28,3492 35,6796 7,3304
9  193,8068 193,8068 0
Tabelle 2: Ergebnisse des SSQ 
 
 
Evaluierung 
2015  67 
Diese Ergebnisse des SSQ sind in der vorliegenden Benutzerstudie jedoch mit 
Vorsicht zu betrachten aufgrund der Tatsache, dass der Faktor Sweating 
(Schwitzen) in die Berechnung einfließt. Dies verzerrt das Ergebnis leicht, da 
davon ausgegangen werden kann, dass die Benutzer unabhängig von der 
virtuellen Erfahrung alleine aufgrund der Durchführung der Bewegung zu 
schwitzen begannen. Daraus lässt sich schließen, dass sich noch mehr 
Teilnehmer nach der Übung in einem besseren Zustand befanden als vor dem 
Test. Einige der Benutzer erwähnten auch nach dem Test verbal, ohne 
Aufforderung, dass es ihnen nun körperlich besser ging als zuvor. 
 
Bezüglich der Presence gaben die Benutzer überwiegend an, sich frei in der 
Umgebung bewegen zu können, empfanden es ebenso als angenehme 
Erfahrung und fühlten sich in der virtuellen Welt auch präsent (siehe Abbildung 
33). Darüber hinaus war der Mehrheit der Studienteilnehmer während der Übung 
die reale Umgebung wenig bis nicht bewusst. Daraus lässt sich schließen, dass 
die sogenannte Presence (siehe Kapitel 7.1.3 Fragebogen) sehr hoch 
einzuschätzen ist, was unter anderem bedeutet, dass keine äußerlichen 
Einflüsse das Ergebnis verzerren. 
 
 
Abbildung 33: Presence - Ergebnisse 
 
 
 
Evaluierung 
68  2015 
In Bezug auf die konkret vorgezeigte Übung aus Taekwondo gaben die 
Studienteilnehmer an, dass niemand mit der Übungsabfolge vertraut war, bzw. 
eine überwiegende Mehrheit die Bewegungsabfolge als sehr komplex 
einschätzte (siehe Abbildung 34). Dies bedeutet, dass alle Teilnehmer mit den 
gleichen Vorrausetzungen in Bezug auf den Lernfortschritt in den Test 
eingestiegen sind. 
 
 
Abbildung 34: Ergebnisse in Bezug auf die Bewegungsabfolge 
Visualisierungstechniken 
Die ersten Visualisierungstechniken für das Vorführen der Bewegungsabfolge 
wurden von den Probanden unterschiedlich bewertet. Der vorführende Avatar 
neben dem Benutzer in Lebensgröße wurde nur von einer Person eher negativ 
beurteilt. Die überwiegende Mehrheit von sechs Personen bewertete diese 
Technik als gut bis sehr gut. Drei der Nutzer erwähnten, dass sie eine andere 
Position des Lehrer-Avatars bevorzugen würden, wobei keine eindeutige Position 
aus den Antworten herauszulesen ist. Darüber hinaus wurde durch mehrere 
Anmerkungen klar, dass diese Art der Visualisierungsmethode bei Drehungen im 
Bewegungsablauf schlecht geeignet ist. 
Die Variante des verkleinerten Avatars auf dem Podest wurde von der Mehrheit 
als schlecht bis sehr schlecht eingestuft, jedoch von einigen auch gut und sehr 
gut. Die Anmerkungen lassen darauf schließen, dass etwas zu wenig Platz im 
 
 
Evaluierung 
2015  69 
Trackingvolumen zur Verfügung stand, um den Avatar ganz beobachten zu 
können. 
 
 
Abbildung 35: Benutzereinschätzung der Wiedergabemöglichkeiten 
 
Die erweiterten Möglichkeiten der Visualisierungen zur Selbstwahrnehmung 
wurden von den Studienteilnehmern teilweise sehr gut angenommen (siehe 
Abbildung 36). Dabei zeigt sich, dass der Frontalspiegel, obwohl er nur wenig 
mehr Informationen liefert, im Vergleich zu den anderen Varianten nur von einer 
Person eher schlecht bewertet wurde. Ein leicht besseres Ergebnis erhält die 
Variante der Spiegelwände, und ist somit die am besten bewertete Technik. Fünf 
von neun Probanden vergaben dabei ein sehr gut. Was auch die Messung der 
Zeiten bestätigt, da sieben von neun Personen die meiste Zeit in diesem Modus 
verbracht haben. Als Anmerkung von zwei Personen wurde erwähnt, dass sie mit 
der Koordination Schwierigkeiten hatten. 
Die Variante des sich mitbewegenden Spiegels ergab ein eindeutig negatives 
Ergebnis und scheint daher für den Anwendungsfall nicht brauchbar zu sein. 
Nicht nur die Bewertung, sondern auch die Messung der Zeiten zeigte, dass die 
Nutzer mit dieser Darstellung nicht zurechtkamen. Ein Großteil der Tester befand 
sich nur rund eine Minute in diesem Modus. Aus den Anmerkungen scheint der 
 
 
Evaluierung 
70  2015 
Grund dafür in Koordinationsproblemen und beim Verfolgen bei schnellen 
Bewegungen zu liegen. 
Über die Visualisierungsvariante im HUD lässt sich keine eindeutige Tendenz 
feststellen, da die Bewertungen sehr gleichmäßig über den gesamten Bereich 
verteilt sind. 
 
 
Abbildung 36: Benutzereinschätzung der Visualisierungen zur Selbstwahrnehmung 
Die Benutzereinschätzungen betreffend der Fehlervisualisierung (siehe 
Abbildung 37) ergaben durchaus ein positives Feedback. Hervorzuheben ist die 
Beurteilung des zusammenfassenden Feedbacks, da hier alle Teilnehmer 
mindestens eine gute Bewertung abgegeben haben. Die farbliche 
Kennzeichnung des Fehlers wurde ebenfalls im Schnitt mit gut bewertet, obwohl 
zwei Personen diese als verwirrend beschrieben.  
Über die Variante des Schatten-Avatars kann nur schwer eine Präferenz erkannt 
werden, da sich die Ergebnisse über die gesamte Skala recht gleichmäßig 
verteilen. Es gab jedoch eine Anzahl an drei Personen, welche diese Art des 
Feedbacks als sehr gut empfanden. Anmerkungen bezogen sich hierbei auf eine 
notwendige Eingewöhnungszeit und einem Problem bei der virtuellen Kamera, 
wobei ein Teilnehmer ein auftretendes clipping als störend empfand. 
 
 
Evaluierung 
2015  71 
Bei den Anmerkungen wird bei allen Fehlervisualisierungen erwähnt, dass diese 
zu einem späteren Zeitpunkt, bei bessere Beherrschung der Übung, nützlicher 
wären. 
 
Abbildung 37: Benutzereinschätzung der Fehlervisualisierungen 
Im Zuge der Studie wurden die Probanden gebeten die bevorzugte Kombination 
der zur Verfügung stehenden Varianten zu notieren. Hieraus geht eindeutig 
hervor, dass die Variante der umgebenden Spiegelwände in Zusammenhang mit 
Farbe oder Schatten bevorzugt wurde. 
 
Interaktionstechniken 
Abbildung 38 und Abbildung 39 zeigen das Ergebnis der Evaluierung in Bezug 
auf die Interaktionstechniken, wobei nur Benutzer der jeweiligen Interaktion diese 
auch bewertet haben. Aus Abbildung 38 ist ersichtlich, dass alle zur Auswahl 
stehenden Möglichkeiten für die Teilnehmer sehr gezielt verwendet werden 
konnten. Besonders eindeutig ist die Steuerung mit den Controller 
hervorzuheben, da alle beteiligten Personen den höchst möglichen Wert gewählt 
haben. Gemäß der Frage, ob die Interaktionstechnik hinderlich gewirkt habe 
(siehe Abbildung 39), wurde die Sprachausgabe als einzige Interaktionstechnik 
einmalig negativ eingestuft. In der Anmerkung dazu wurde erwähnt, dass eine 
Unterhaltung während des Tests zu fehlerhaftem Verhalten geführt hatte. Sowohl 
 
 
Evaluierung 
72  2015 
die Steuerung durch den Controller, als auch durch Gesten befanden allen Nutzer 
als nicht hinderlich, wobei zwei Nutzer als Anmerkung eine kleinere 
Fernbedienung bevorzugt hätten. 
 
Abbildung 38: Bewertung der gezielten Auswahl durch 
die Interaktionstechniken 
 
 
Abbildung 39: Ausmaß der Behinderung durch die Interaktionsform 
 
 
Evaluierung 
2015  73 
 
Critical Incident Technique 
Abschließend konnten die Nutzer noch drei positive und drei negative Aspekte 
anführen. Als negativer Punkt wurde angemerkt, dass das Trackingvolumen klein 
war. In Zusammenhang damit wurde auch erwähnt, dass zu wenig Platz für 
Lehrer- und Schüler-Avatar zur Verfügung stand. Auch wurde eine fehlende 
Unterscheidungsmöglichkeit zwischen Lehrer-Avatar und Schüler-Avatar 
angesprochen. Eine Wiedergabesteuerung, beispielsweise für die Anpassung 
der Geschwindigkeit, wurde von vier Nutzern gefordert. 
Positiv herausgestrichen wurden im Zuge dieser offenen Frage die gute Kontrolle 
über das System und die ansprechende Szene. Darüber hinaus merkten mehrere 
Benutzer an, dass die Lernumgebung ein selbständiges Lernen ermöglicht. Die 
Mehrzahl der Nutzer gab an, dass sie ein gutes virtuelles Gefühl hatte, die 
virtuellen Bewegungen flüssig und die Immersion hoch war.  
 
 
Diskussion & Conclusio 
74  2015 
8. Diskussion & Conclusio 
Aus den Ergebnissen der Benutzerstudie konnten viele Schüsse gezogen 
werden. Vor allem die Tatsache, dass die Presence als sehr hoch eingestuft 
wurde und die Qualität der verwendeten Technologien in keinem der 
Benutzertests negativ erwähnt wurde, lässt darauf schließen, dass hier kein 
nennenswerter Einfluss von außen bestand und die Resultate aussagekräftig 
sind. Einzig das begrenzte Trackingvolumen wurde der Visualisierung des 
Avatars am Podest zum Verhängnis, da die Benutzer sich nicht weit genug davon 
entfernen konnten. Abgesehen davon konnten drei von vier 
Visualisierungstechniken zur Selbstwahrnehmung die Benutzer überzeugen. 
Auch alle drei Feedbackvarianten wurden von den Studienteilnehmern sehr gut 
angenommen und haben offensichtlich ein verständliches Feedback 
bereitgestellt. Favorisiert wurde eindeutig die Variante mit umgebenden 
Spiegelwänden, welche am liebsten in Kombination mit der Farbdarstellung, 
gefolgt von der Schatten-Avatar-Darstellung eingesetzt wurden.  
Auch die nicht in der Kombination vorgekommene Feedbackvariante nämlich die 
Zusammenfassung der Fehlerwerte, wurde überaus positiv beurteilt. Die 
Benutzerstudie brachte ein wichtiges Detail hervor: Der Großteil der 
Fehlervisualisierungsvarianten bringt mehr Nutzen, wenn die Person die Übung 
schon einigermaßen verinnerlicht hat. 
Alle ausgewählten Interaktionstechniken wurden durchaus ohne Probleme 
angenommen und korrekt verwendet. Überraschend zeigte sich, dass der 
Gamecontroller in der Hand wenig Ablenkung bot und ein positives und 
eindeutiges Ergebnis beim Fragebogen erzielen konnte. Auch die Gesten wurden 
von den Benutzern sehr gut angenommen. Einzig bei der Sprachsteuerung 
wurden leichte Defizite erkannt, da es bei unbedachtem Unterhalten zu 
Fehlerkennungen gekommen ist. 
Ein weiteres interessantes Ergebnis betrifft den Fragebogen SSQ: Die Mehrheit 
der Benutzer fühlte sich, bezogen auf die angegebenen Faktoren, nach der 
virtuellen Erfahrung besser als zuvor, obwohl sich die Nutzer für eine 
durchschnittliche Dauer von 26 Minuten in der virtuellen Welt befanden. 
Ziel der vorliegenden Arbeit war es eine VR-Umgebung für das Erlernen 
motorischer Fähigkeiten um Visualisierungs- und Interaktionstechniken zu 
 
 
Diskussion & Conclusio 
2015  75 
erweitern, um damit die speziellen Möglichkeiten und Eigenschaften eines HMDs 
bzw. einer voll-immersiven VR-Umgebung auszuschöpfen. Um dies zu 
ermöglichen wurde zunächst eine Reihe relevanter Kernkomponenten aus 
theoretischer Sicht betrachtet und darauf aufbauend verschiedene 
Visualisierungsvarianten für virtuelle Umgebungen entwickelt. Diese werden in 
drei Kategorien gegliedert: Zur Beobachtung der Bewegungsabfolge eines 
Avatars wurden zwei Varianten konzipiert. Aufgrund der Komplexität 
ganzheitlicher Bewegungen stellte sich heraus, dass speziell bei Drehungen und 
Positionen, welche die Blickrichtung beeinflussen, erweiterte 
Visualisierungsmöglichkeiten notwendig sind, da andernfalls bei Nachahmung 
der Blickkontakt zum vorführenden Avatar verloren wird. Hierfür wurden vier 
verschiedene Konzepte umgesetzt, welche teilweise Betrachtungsweisen 
ermöglichen, die in der Realität nicht möglich wären. Um dem Benutzer auch 
aktives Feedback in Bezug auf Fehler bereitzustellen, wurden drei Varianten 
implementiert, welche in Echtzeit oder als Zusammenfassung Abweichungen 
visuell darstellen. Für eine autonome Steuerung der implementierten Techniken 
wurden zusätzlich drei Interaktionstechniken integriert, welche die speziellen 
Anforderungen des Anwendungsbereichs erfüllen. 
Die Herausforderungen in der vorliegenden Arbeit lagen in erster Linie in der 
Anpassung der Visualisierungsvarianten an die Besonderheiten des 
Ausgabegeräts. Durch die Bewegungsfreiheit des Benutzers musste 
sichergestellt sein, dass die Kamerabewegung der realen Kopfbewegung 
entspricht, um das Risiko möglicher Cybersickness zu minimieren. Des Weiteren 
musste bei der Umsetzung auf Konsistenz geachtet werden, da die 
Visualisierungstechniken beliebig durch den Benutzer kombiniert werden 
können. Viel Zeit musste auch investiert werden um geeignete Befehlssätze für 
die integrierten Interaktionstechniken auszuwählen, um sie einerseits verlässlich 
und andererseits für den Benutzer intuitiv zu gestalten.  
Mit den oben erwähnten Implementierungen konnte eine abgeschlossene 
Anwendung umgesetzt und im Zuge einer Benutzerstudie die Akzeptanz der 
einzelnen Visualisierungstechniken bzw. deren Kombinationen analysiert 
werden.  
Darüber hinaus kann darauf geschlossen werden, dass sich durch die 
Verbreitung von VR im Zuge des aktuellen Hypes um VR-Ausgabegräte die 
 
 
Diskussion & Conclusio 
76  2015 
Bedeutung der vorliegenden Arbeit weiter erhöhen könnte, da immer mehr 
Menschen in Kontakt mit VR-Technologien kommen und lernen damit 
umzugehen.  
 
 
Ausblick 
2015  77 
9. Ausblick 
Aus wissenschaftlicher Sicht bietet die entwickelte Anwendung eine gute 
Grundlage für diverse Studienzwecke. Beispielsweise könnte es eine über ein 
Netzwerk verteilte Anwendung ermöglichen Choreographien mit mehreren 
Personen einzustudieren. Darüber hinaus kann erforscht werden ob eine 
realistischere Darstellung des virtuellen Lehrers bzw. Schülers, beispielsweise 
durch einen 3D-Scan, zur besseren Akzeptanz und somit zu besseren 
Ergebnissen führt.  
Des Weiteren wäre eine Zusammenarbeit mit Spezialisten aus den Bereichen 
Sport und Rehabilitation anzudenken um einzelne Komponenten weiter 
verfeinern zu können. Die entwickelte VR-Anwendung lehnt sich an reale 
Methoden zum Erlernen von Bewegungen an. Eine interessante Fragestellung 
dabei wäre inwieweit die VR-Anwendung der Realität hinterher hinkt, oder ob VR 
in manchen Bereichen sogar zu bevorzugen ist. Dazu ist eine Studie notwendig, 
welche sich auf die Gegenüberstellung zwischen dem Erlernen von Bewegungen 
ohne bzw. mit VR spezialisiert. Hierfür ist jedoch eine Definition konkreter 
Rahmenbedingungen notwendig, da es die Vielzahl an Einflussfaktoren 
erschwert eine objektive Bewertung zu erhalten. 
Aufbauend auf den Ergebnissen der vorliegenden Arbeit wäre es nun möglich 
entsprechende Anpassungen durchzuführen, um eine optimale Kombination der 
Visualisierungen in eine finale Lernumgebung zu integrieren. Dabei könnte eine 
für den Endanwender nutzbare Applikation entstehen. Es bestünde auch die 
Möglichkeit zur Implementierung eines Editors, welcher dem Benutzer je nach 
Präferenz die Möglichkeit gibt vorab eine individuelle Zusammenstellung der 
Visualisierungstechniken vorzunehmen. Nach diesen Anpassungen wäre es 
möglich die Applikation für die breite Masse zur Verfügung zu stellen. Dabei wäre 
die Integration eines günstigen Motion-Tracking-Systems wie der SteamVR 
Tracking Station aufgrund der Verfügbarkeit von Vorteil.  
 
 
Appendix – Fragebogen 
78  2015 
10. Appendix – Fragebogen 
 
 
 
 
Appendix – Fragebogen 
2015  79 
 
 
  
 
 
Appendix – Fragebogen 
80  2015 
 
  
 
 
Appendix – Fragebogen 
2015  81 
 
  
 
 
Appendix – Fragebogen 
82  2015 
 
  
 
 
Appendix – Fragebogen 
2015  83 
 
  
 
 
Appendix – Fragebogen 
84  2015 
 
  
 
 
Appendix – Fragebogen 
2015  85 
 
  
 
 
Literaturverzeichnis 
86  2015 
11. Literaturverzeichnis 
 
Aiken, C.A., Fairbrother, J.T. & Post, P.G., 2012. The Effects of Self-Controlled Video 
Feedback on the Learning of the Basketball Set Shot. Frontiers in Psychology, 
3(SEP), pp.1–8. Available at: 
http://journal.frontiersin.org/article/10.3389/fpsyg.2012.00338/abstract. 
Andronico, M., 2015. VR Headset Mega Guide: Features and Release Dates. tom’s 
guide. Available at: http://www.tomsguide.com/us/vr-headset-guide,news-
20644.html [Accessed November 20, 2015]. 
Bowman, D.A. et al., 2005. 3D user interfaces: theory and practice, Addison-Wesley. 
Burdea, G. & Coiffet, P., 2003. Virtual reality technology. In Presence: Teleoperators & 
Virtual Environments. pp. 663–664. 
Chan, J.C.P. et al., 2011. A Virtual Reality Dance Training System Using Motion 
Capture Technology. IEEE Transactions on Learning Technologies, 4(2), pp.187–
195. 
Covaci, A., Olivier, A.-H. & Multon, F., 2015. Visual Perspective and Feedback 
Guidance for VR Free-Throw Training. IEEE Computer Graphics and Applications, 
35(5), pp.55–65. Available at: 
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=7274420. 
Crivella, R. et al., 2003. Training for physical tasks in virtual environments: Tai Chi. In 
IEEE Virtual Reality, 2003. Proceedings. pp. 87–94. Available at: 
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1191125. 
Eaves, D.L., Breslin, G. & van Schaik, P., 2011. The Short-Term Effects of Real-Time 
Virtual Reality Feedback on Motor Learning in Dance. Presence: Teleoperators 
and Virtual Environments, 20(1), pp.62–77. Available at: 
http://www.mitpressjournals.org/doi/abs/10.1162/pres_a_00035. 
Fitzgerald, D. et al., 2007. Development of a wearable motion capture suit and virtual 
reality biofeedback system for the instruction and analysis of sports rehabilitation 
exercises. In Engineering in Medicine and Biology Society, 2007. EMBS 2007. 
29th Annual International Conference of the IEEE. pp. 4870–4874. Available at: 
http://ieeexplore.ieee.org/ielx5/4352184/4352185/04353431.pdf?tp=&arnumber=4
353431&isnumber=4352185. 
Flanagan, J.C., 1954. The critical incident technique. Psychological Bulletin, 51(4), 
pp.327–358. Available at: http://psycnet.apa.org/journals/bul/51/4/327/ [Accessed 
September 4, 2014]. 
 
 
Literaturverzeichnis 
2015  87 
Foster, C., 2015. Virtual Reality Input Devices Aim for Immersion. Tractica. Available 
at: https://www.tractica.com/user-interface-technologies/virtual-reality-input-
devices-aim-for-immersion/. 
Gerstweiler, G. & Vonach, E., 2011. Development of an Active Motion Capture Suit for 
Teaching Motion Skills. TU Wien. 
Hachimura, K., Kato, H. & Tamura, H., 2004. A prototype dance training support 
system with motion capture and mixed reality technologies. RO-MAN 2004. 13th 
IEEE International Workshop on Robot and Human Interactive Communication 
(IEEE Catalog No.04TH8759), pp.217–222. 
Heibel, M. & Heuer, J., 2009. Den Erfolg vor Augen – Visualisieren im Sport. 
Netzathleten Magazin. Available at: http://www.netzathleten.de/lifestyle/body-
soul/item/236-den-erfolg-vor-augen-visualisieren-im-sport [Accessed November 
20, 2015]. 
Jeannerod, M., 1995. Mental imagery in the motor context. Neuropsychologia, 33(11), 
pp.1419–1432. 
Johnson, D.M. (U. S.A.R.I., 2005. Introduction to and Review of Simulator Sickness 
Research, 
Kammergruber, F., Ebner, A. & Günthner, W.A., 2012. Navigation in virtual reality using 
Microsoft Kinect. In 12th international conference on construction application of 
virtual reality, Taipei, Taiwan. pp. 350–359. 
Kennedy, R.S. et al., 1993. Simulator Sickness Questionnaire: An Enhanced Method 
for Quantifying Simulator Sickness. The International Journal of Aviation 
Psychology, 3, pp.203–220. 
Kirk, A.G., O’Brien, J.F. & Forsyth, D. a., 2005. Skeletal Parameter Estimation from 
Optical Motion Capture Data. Computer Vision and Pattern Recognition, 2005. 
CVPR 2005. IEEE Computer Society Conference on., 2, pp.782–788 Vol. 2. 
Available at: 
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1467522. 
Kogelnig, R., 2013. Virtual Reality: All you need to know about Input Devices for the 
bright new future of gaming. Gamasutra. Available at: 
http://www.gamasutra.com/blogs/RichardKogelnig/20131101/203809/Virtual_Reali
ty_All_you_need_to_know_about_Input_Devices_for_the_bright_new_future_of_g
aming.php [Accessed November 20, 2015]. 
Likert, R., 1932. A technique for the measurement of attitudes. Archives of Psychology, 
22(140), pp.1–55. Available at: citeulike-article-id:2731047. 
Neumaier, A., 1982. Untersuchung zur Funktion des Blickverhaltens bei visuellen 
Wahrnehmungsprozessen im Sport. Sportwissenschaft, 12(1), pp.78–91. 
Available at: http://link.springer.com/10.1007/BF03177523. 
 
 
Literaturverzeichnis 
88  2015 
Nicol, W., 2015. Ready to jump into VR? We’ve found the best current and upcoming 
headsets. Digital Trends. Available at: http://www.digitaltrends.com/computing/vr-
headset-buying-guide/ [Accessed November 20, 2015]. 
Panzer, S. et al., 2007. Dominanz visuell-räumlicher Codierung beim Lernen von 
Bewegungssequenzen. Zeitschrift für Sportpsychologie, 14(3), pp.123–129. 
Available at: http://econtent.hogrefe.com/doi/abs/10.1026/1612-5010.14.3.123. 
Pintaric, T. & Kaufmann, H., 2007. Affordable Infrared-Optical Pose Tracking for Virtual 
and Augmented Reality. In IEEE VR Workshop on Trends and Issues in Tracking 
for Virtual Environments. pp. 44–51. Available at: 
http://publik.tuwien.ac.at/files/pub-inf_5236.pdf. 
Pottle, B., 2013. Taekwondo: A Practical Guide to the World’s Most Popular Martial Art, 
Sapphire Eye Press. Available at: 
http://download.audible.com/product_related_docs/BK_ACX0_012504.pdf. 
Rothstein, A.L. & Arnold, R.K., 1976. Bridging the gap: Application of research on 
videotape feedback and bowling. Motor skills: Theory into practice, 1, pp.35–62. 
Salmoni, a W., Schmidt, R. a & Walter, C.B., 1984. Knowledge of results and motor 
learning: a review and critical reappraisal. Psychological bulletin, 95(3), pp.355–
386. 
Schmidt, R. & Lee, T., 2011. Motor Control and Learning: A Behavioral Emphasis, 
Available at: http://www.amazon.com/Motor-Control-Learning-Behavioral-
Emphasis/dp/0736079610. 
Schönauer, C., 2007. Skeletal Structure Generation for Optical Motion Capture. 
Institute for Software Technology and Interactive Systems. Available at: 
http://www.ims.tuwien.ac.at/publication_detail.php?ims_id=233. 
Slater, M., 1999. Measuring presence: A response to the Witmer and Singer presence 
questionnaire. Presence: Teleoperators and Virtual Environments, 8(5), pp.1–13. 
Available at: 
http://www.mitpressjournals.org/doi/abs/10.1162/105474699566477\nhttp://discov
ery.ucl.ac.uk/136732/. 
Suma, E.A. et al., 2012. FAAST-R: Defining a Core Mechanic for Designing Gestural 
Interfaces. In The 3rd Dimension of CHI: Touching and Designing 3D User 
Interfaces. pp. 35–42. Available at: http://people.ict.usc.edu/~suma/papers/suma-
3dchi2012.pdf. 
Sun, G. et al., 2014. An Advanced Computational Intelligence System for Training of 
Ballet Dance in a Cave Virtual Reality Environment. In 2014 {IEEE} {International} 
{Symposium} on {Multimedia} ({ISM}). pp. 159–166. 
Usoh, M. et al., 2000. Using Presence Questionnaires in Reality. Presence: 
Teleoperators and Virtual Environments, 9(5), pp.497–503. Available at: 
http://www.mitpressjournals.org/doi/abs/10.1162/105474600566989. 
 
 
Literaturverzeichnis 
2015  89 
Vonach, E., 2015. MoCapGym: Erlernen motorischer Fähigkeiten mittels Motion 
Capture. TU Wien. 
Wulf, G., 2009. Aufmerksamkeit und motorisches Lernen, Urban & Fischer 
Verlag/Elsevier GmbH. 
 
  
 
 
Abbildungsverzeichnis 
90  2015 
12. Abbildungsverzeichnis 
Abbildung 1: (a): 2D Projektion zum Lernen von Tanzbewegungen mit virtuellen Avataren (Chan 
et al. 2011); (b) Erlenen von Tanzbewegungen anhand einer Projektion mit realen 
Video (Eaves et al. 2011) ........................................................................................... 10 
Abbildung 2: Video-See-Through HMD für eine Visualisierung von Avataren (Hachimura et al. 
2004) .......................................................................................................................... 11 
Abbildung 3: Ein CAVE System zum Wurftraining für Basketball (Covaci et al. 2015) ............... 12 
Abbildung 4: Vier verschiedene Avatar-Modelle aus (Hachimura et al. 2004) von links nach 
rechts: Wire Frame, Solid, Solid with Wire Frame, Solid with Texture ...................... 13 
Abbildung 5: Darstellung des Avatars bzw. der Bewegung in verschiedenen Varianten; von links 
nach rechts: Avatar in Lebensgröße, in Modellgröße, nebeneinander, als Self-
Superposition (Hachimura et al. 2004) ...................................................................... 13 
Abbildung 6: Untersuchung verschiedener Positionierungen der virtuellen Avatare (Crivella et al. 
2003) .......................................................................................................................... 14 
Abbildung 7: (a) Echtzeit-Feedback mit vier Avataren in einer Szene; (b) Numerisches 
Feedback nach der Übung (Chan et al. 2011) ........................................................... 15 
Abbildung 8: Eaves et al. verwenden Punkte um dem Benutzer die Position der Gelenke 
vorzugeben. (Eaves et al. 2011) ................................................................................ 15 
Abbildung 9: Avatar in T-Pose ..................................................................................................... 22 
Abbildung 10: Auszug aus MoCapGym. (a) Bewegungsvergleich mit Echtzeitdaten. (b) 
Alternativer Avatar (Doe 2015) .................................................................................. 24 
Abbildung 11: Oculus Rift Developer Kit 2 .................................................................................. 28 
Abbildung 12: Wii Remote Gamecontroller ................................................................................. 31 
Abbildung 13: Microsoft Kinect Tiefensensor .............................................................................. 33 
Abbildung 15: Virtuelle Trainingsumgebung mit Markierung für den Bewegungsbereich. ......... 36 
Abbildung 16: Der Avatar Vincent mit adaptierter Skelett-Hierarchie. ........................................ 37 
Abbildung 17: Wiedergabe der idealen Bewegung in normaler Größe. ...................................... 40 
Abbildung 18: Wiedergabe als Mini-Avatar im Zentrum des Bewegungsbereichs. .................... 41 
Abbildung 19: Einfacher Spiegel frontal vor dem Trainingsbereich ............................................ 43 
Abbildung 20: Der gesamte Trainingsbereich ist von vier Spiegelwänden umgeben ................. 44 
Abbildung 21: Der Spiegel bewegt sich mit der Orientierung des Schülers mit. ......................... 45 
Abbildung 22: Bild-in-Bild Visualisierung ähnlich einem Head-Up-Display. ................................ 47 
Abbildung 23: (a) MoCapGym: Avatar verwendet nur Farben mit multiplen Meshes; (b) neue 
Implementierung: ein Mesh mit multiplen Shadern, welche auf unterschiedliche 
Bereiche der Textur verweisen .................................................................................. 49 
Abbildung 22:.Schattenavatar im Spiegel ................................................................................... 50 
Abbildung 24: Präsentation der Fehler als kumulatives Feedback nach Abschluss eines 
Übungsdurchlaufs ...................................................................................................... 51 
Abbildung 25: Wiimote Controller ................................................................................................ 54 
Abbildung 26: GlovePIE Skript für Wiimote Controller ................................................................ 54 
 
 
Abbildungsverzeichnis 
2015  91 
Abbildung 27: AKG Funkmikrophon ............................................................................................ 55 
Abbildung 28: GlovePIE Skript für Sprachsteuerung .................................................................. 56 
Abbildung 29: Tiefensensor Kinect für Gestensteuerung ........................................................... 56 
Abbildung 30: FAAST zeigt ein Tiefenbild mit erkannter Person und eingeblendetem Skelett .. 57 
Abbildung 31: Skizze der Studienumgebung: a) iotracker Kamera, b) erfassbarer 
Trackingbereich, c) Oculus Rift DK2 HMD, d) Videokamera, e) PC und Position für 
die direkte Beobachtung, f) Mikrophon für Sprachbefehle, g) Kinect Tiefensensor für 
Gestensteuerung und h) Sitzmöglichkeit für Studienteilnehmer ............................... 59 
Abbildung 32: Einige Schritte des Bewegungsablaufs: a) Ausgangsstellung, b) niederer Block 
mit linkem Arm, c) Schritt vorwärts mit Schlag, d) mittlerer Block mit rechtem Arm . 60 
Abbildung 33: Presence - Ergebnisse ......................................................................................... 67 
Abbildung 34: Ergebnisse in Bezug auf die Bewegungsabfolge ................................................ 68 
Abbildung 35: Benutzereinschätzung der Wiedergabemöglichkeiten ......................................... 69 
Abbildung 36: Benutzereinschätzung der Visualisierungen zur Selbstwahrnehmung ................ 70 
Abbildung 37: Benutzereinschätzung der Fehlervisualisierungen .............................................. 71 
Abbildung 38: Bewertung der gezielten Auswahl durch die Interaktionstechniken .................... 72 
Abbildung 39: Ausmaß der Behinderung durch die Interaktionsform ......................................... 72