Technische Universität Wien A-1040 Wien ▪ Karlsplatz 13 ▪ Tel. +43-1-58801-0 ▪ www.tuwien.ac.at Visualisierungs- und Interaktionstechniken für das Lernen komplexer Bewegungen mit HMD MAGISTERARBEIT zur Erlangung des akademischen Grades Magister der Sozial- und Wirtschaftswissenschaften im Rahmen des Studiums Informatikmanagement eingereicht von Georg Gerstweiler Matrikelnummer 0225028 an der Fakultät für Informatik der Technischen Universität Wien Betreuer: Priv.-Doz. Mag. Dr. Hannes Kaufmann, Univ. Ass. Mitbetreuung: Dipl.-Ing. Dr.techn. Christian Schönauer; Wien, 27.11.2015 (Unterschrift Verfasser/in) (Unterschrift Betreuer/in) Die approbierte Originalversion dieser Diplom-/ Masterarbeit ist in der Hauptbibliothek der Tech- nischen Universität Wien aufgestellt und zugänglich. http://www.ub.tuwien.ac.at The approved original version of this diploma or master thesis is available at the main library of the Vienna University of Technology. http://www.ub.tuwien.ac.at/eng i 2015 Erklärung zur Verfassung der Arbeit Georg Gerstweiler 1220 Wien „Hiermit erkläre ich, dass ich die mit meinem Namen markierten Teile der Arbeit selbständig verfasst habe, dass ich die verwendeten Quellen und Hilfsmittel vollständig angegeben habe und dass ich die Stellen der Arbeit – einschließlich Tabellen, Karten und Abbildungen –, die anderen Werken oder dem Internet im Wortlaut oder dem Sinn nach entnommen sind, auf jeden Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht habe.“ Wien, am 27.11.2015, ___________________________ 2015 ii Abstract Learning motion skills in Virtual Reality environments requires not only a precise motion tracking system, but also adequate visualization possibilities of human motions and real-time feedback. Current head mounted displays allow users of such systems a realistic and immersive experience. For that reason, the work is presenting various visualization methods for complex motion sequences in VR in order to support the process of motion learning. The developed methods are especially adapted for use in systems equipped with a real-time motion detection system and an HMD as visual output device. The work at hand is presenting two different methods for observing complex holistic movement sequences of an avatar. Another four advanced visualization techniques are explored for viewing the training environment, which have advantages especially if the movement contains rotations that force the user to look away from the avatar. In addition, three variants have been developed to provide a visual and active user feedback, by presenting the motion error in real- time or as a summary. For autonomous control of the implemented techniques, three possibilities for interaction were integrated into the environment and analyzed for their suitability in context of motor learning. A report on a conducted study with nine users shows the acceptance of the developed visualization and interaction techniques based on a complex exercise of Taekwondo. Keywords: Virtual Reality, Visualization, Interaction, Education in Sports, Motor Learning, Head Mounted Display; iii 2015 Kurzfassung Das Aneignen komplexer motorischer Fähigkeiten in einer Virtual-Reality- Umgebung bedarf nicht nur präziser Motion-Tracking-Systeme, sondern auch einer angemessenen Visualisierung optimaler Bewegungsabfolgen und einer entsprechenden Präsentation von Echtzeit-Feedbackvarianten. Head-Mounted- Displays erzeugen für den Benutzer solcher Systeme eine realitätsnahe und daher immersive Lernumgebung. Aus diesem Grund beschreibt die vorliegende Arbeit die Entwicklung und die Analyse verschiedener Visualisierungsmethoden für das Erlernen komplexer Bewegungsabfolgen. Dabei wurden diese Methoden speziell für den Einsatz in Systemen angepasst, welche über eine Echtzeit- Bewegungserkennung verfügen und ein HMD als Ausgabegerät verwenden. Die vorliegende Arbeit präsentiert zwei verschiedene Methoden zur Beobachtung von Bewegungsabfolgen eines Avatars. Aufgrund der Komplexität ganzheitlicher Bewegungen werden vier erweiterte Visualisierungen umgesetzt, die speziell bei Drehungen und Positionen welche die Blickrichtung beeinflussen, Vorteile aufweisen. Darüber hinaus wurden drei Varianten entwickelt um Benutzer ein aktives Feedback bereitzustellen, welche in Echtzeit oder als Zusammenfassung Fehler im Bewegungsablauf visuell darstellen. Für eine autonome Steuerung der implementierten Techniken wurden zusätzlich drei Interaktionsmöglichkeiten integriert und deren Einsatz in einer VR-Lernumgebung für motorische Fähigkeiten studiert. Eine Benutzerstudie mit neun Probanden zeigt die Akzeptanz der entwickelten Visualisierungs- und Interaktionstechniken anhand einer komplexen Übung aus Taekwondo. Schlüsselwörter: Virtual Reality, Visualisierung, Interaktion, Pädagogik in Sport, Training motorischer Fähigkeiten, Head-Mounted-Display; 2015 iv Danksagung Für die hervorragende Leitung und ausgezeichnete Betreuung möchte ich mich einleitend bei meinem Betreuer, Herrn Priv.-Doz. Mag. Dr. Hannes Kaufmann, Univ. Ass., bedanken. Drüber hinaus möchte ich mich bei meinen Kollegen, besonders Emanuel Vonach und Christian Schönauer für die Unterstützung bei der Erstellung der Diplomarbeit bedanken. Besonderer Dank gebührt meiner Familie. Vor allem meiner Frau und unseren zwei Kindern, die mich tatkräftig unterstützt haben, möchte ich mich herzlich bedanken. Ihr und meinen beiden Söhnen, Tobias und Felix gilt das Versprechen, die hier gut investierte Zeit gemeinsam nachzuholen. Einleitung 2015 1 Inhalt 1. Einleitung ___________________________________________________ 3  2. Motivation und Ziele __________________________________________ 5  2.1. Motivation ........................................................................................................... 5  2.2. Ziele und Abgrenzung ....................................................................................... 6  3. State-of-the-Art ______________________________________________ 9  3.1. Visualisierungstechniken .................................................................................. 9  3.2. Avatar- und Fehlervisualisierung ................................................................... 12  3.3. Interaktionstechniken ...................................................................................... 16  4. Analyse der Kernkomponenten ________________________________ 17  4.1. Aspekte motorischen Lernens ........................................................................ 17  4.1.1. Visuelles Lernen ____________________________________________ 17  4.1.2. Feedback _________________________________________________ 19  4.2. Setup ................................................................................................................. 21  4.2.1. Tracking Technologiegrundlagen _______________________________ 21  4.2.2. MoCapGym ________________________________________________ 23  4.2.3. Analyse von HMDs als Ausgabegerät ____________________________ 24  4.2.4. Interaktionsmöglichkeiten für VR-Umgebungen ____________________ 29  5. Entwickelte Visualisierungstechniken __________________________ 34  5.1. Erweiterung der bestehenden Software ........................................................ 34  5.2. Darstellung der optimalen Bewegung ............................................................ 39  5.3. Visualisierung zur Selbstwahrnehmung ........................................................ 42  5.3.1. Einfacher Spiegel ___________________________________________ 42  5.3.2. Spiegelwände ______________________________________________ 43  5.3.3. Avatare in Blickrichtung _______________________________________ 45  5.3.4. Bild-in-Bild _________________________________________________ 46  5.4. Fehlervisualisierung ........................................................................................ 48  5.4.1. Feedback durch farbliche Kennzeichnung ________________________ 48  5.4.2. Nachzieheffekt _____________________________________________ 49  5.4.3. Kumulatives Feedback _______________________________________ 51  6. Interaktionstechniken ________________________________________ 53  Einleitung 2 2015 6.1. Gamecontroller ................................................................................................ 53  6.2. Sprachsteuerung ............................................................................................. 54  6.3. Gestensteuerung ............................................................................................. 56  7. Evaluierung _________________________________________________ 58  7.1. Studiendesign .................................................................................................. 58  7.1.1. Setup ____________________________________________________ 58  7.1.2. Bewegungsablauf ___________________________________________ 60  7.1.3. Fragebogen _______________________________________________ 61  7.2. Studienablauf ................................................................................................... 63  7.3. Resultate .......................................................................................................... 66  8. Diskussion & Conclusio ______________________________________ 74  9. Ausblick ___________________________________________________ 77  10. Appendix – Fragebogen _____________________________________ 78  11. Literaturverzeichnis _________________________________________ 86  12. Abbildungsverzeichnis ______________________________________ 90  Einleitung 2015 3 1. Einleitung Das Erlernen motorischer Fähigkeiten ist in vielen Bereichen des Lebens ein wichtiger Bestandteil. Vor allem im Sport oder der Rehabilitation ist es notwendig Bewegungsabfolgen richtig nachzuahmen bzw. zu verinnerlichen, wobei nicht immer eine Person zur Verfügung steht, die diese Übung auch entsprechend vorführen kann. An diesem Punkt kann eine Anwendung mit Virtual-Reality (VR) anknüpfen und eine Möglichkeit zum Vermitteln ganzheitlicher Bewegungen bieten. In der Literatur wurden bereits einige Versuche durchgeführt 3D- Animationen in Kombination mit Bewegungserkennung zu verknüpfen, um nicht auf bloßes Betrachten beschränkt zu sein, sondern diese Animationen auch in Beziehung zu einer aktuellen Bewegung eines Schülers zu setzen. In bisherigen Arbeiten wurden jedoch häufig 2D- oder 3D-Darstellungen auf Projektionsflächen für die visuelle Ausgabe benutzt, welche meist nur wenige Möglichkeiten der Interaktion bzw. der Betrachtung erlaubten. Nur sehr wenige Arbeiten untersuchten eine Umsetzung mittels eines Head-Mounted-Displays (HMD). Ein solches Ausgabegerät wird ähnlich einer Skibrille aufgesetzt und könnte durch eine 3D-Darstellung und ein hohes Maß an Bewegungsfreiheit für das Erlernen einer komplexen Bewegungsabfolge viele Vorteile bringen. Aufgrund des Umstands, dass diese Arbeiten in den Jahren zwischen 2003 und 2004 (Crivella et al. 2003; Hachimura et al. 2004) entstanden sind, entspricht die Qualität der Anzeigegeräte und der Systeme zur Echtzeit-Bewegungserkennung bei weitem nicht mehr dem mittlerweile verfügbaren Stand der Technik. Dies könnte die Ergebnisse dieser Studien im negativen Sinne beeinflusst haben. Neue HMDs bieten eine höhere Auflösung von mindestens 1080p im Vergleich zu 640x460 Pixel, ein Sichtfeld von 110° und mehr im Vergleich zu 50° und ein flüssiges Kopf- Tracking. Das alles sind Faktoren die einen längeren Einsatz der Technologie erlauben und massiven Einfluss auf die Eignung für motorisches Lernen haben könnten. Aus diesem Grund konzentriert sich die vorliegende Arbeit auf die Entwicklung von Visualisierungs- und Interaktionstechniken für ein voll-immersives VR-Setup, unter Verwendung eines HMDs, zum Erlernen motorischer Fähigkeiten. Zu Beginn der Arbeit werden verschiedene Einflüsse auf das motorische Lernen in der Theorie diskutiert und damit die Bedeutung des Ausbildens einer Einleitung 4 2015 Bewegungsvorstellung für den Lernprozess hervorgehoben. Darauf aufbauend präsentiert die vorliegende Arbeit eine Vielzahl an Visualisierungs- und Interaktionstechniken, welche in einer ausführlichen Benutzerstudie mit neun Probanden evaluiert werden. In dieser Arbeit wird auf vorhandene Grundfunktionalitäten der Anwendung MoCapGym (Vonach 2015) zurückgegriffen, beispielsweise die Anbindung an ein Tracking-System. Davon ausgehend wurden zunächst zwei unterschiedliche Methoden entwickelt, welche einem Lernenden die Bewegungsabfolge näher bringen sollen. Darüber hinaus wurden vier Konzepte umgesetzt um dem Schüler das Erfassen der Trainingsumgebung und seines eigenen Avatars im virtuellen Raum auch während einer Bewegungsausführung zu erlauben. Basierend auf Theorien zu allgemeinem Feedback im Sport wurden in Zuge dieser Arbeit auch drei visuelle Darstellungsvarianten implementiert, um Fehler im Bewegungsablauf auf unterschiedlichen Abstraktionsebenen zu beschreiben. Die so entstandenen Visualisierungstechniken können beliebig miteinander kombiniert als mächtiges Werkzeug für das Erlernen von Bewegungsabläufen dienen. Um dem Schüler die Möglichkeit zu geben die Applikation autonom zu steuern, beschreibt die vorliegende Arbeit darüber hinaus drei geeignete Interaktionstechniken für VR-Anwendungen, welche im Zuge einer Evaluierung analysiert werden. Eine ausführliche Präsentation und Analyse der durchgeführten Benutzerstudie schließt die Arbeit ab. Motivation und Ziele 2015 5 2. Motivation und Ziele Dieses Kapitel konzentriert sich auf die grundlegenden Aspekte der vorliegenden Arbeit, welche zur Struktur und allgemeinen Vorgehensweise geführt haben. Hierzu wird zunächst die Motivation für die behandelte Thematik beschrieben und eine zentrale Hypothese abgeleitet. Um die vorliegende Arbeit in einem vordefinierten Rahmen zu halten, werden ausgehend von der Hypothese genaue Ziele definiert, die im Zuge der Entwicklungs- bzw. Evaluierungsphase berücksichtigt wurden. Da die behandelte Thematik eine Vielzahl an wissenschaftlichen Aspekten zulässt werden abschließend Themenstellungen beschrieben, welche die Abgrenzung der Arbeit definieren. 2.1. Motivation Verschiedene Faktoren hatten auf die Entstehung dieser Diplomarbeit Einfluss. Der Autor beschäftigte sich bereits in der Vergangenheit im Zuge mehrerer Projekte mit dem Forschungsgebiet Virtual- und Augmented-Reality. Hierbei wurden unter anderen Thematiken wie Motion-Tracking, stereoskopische Anzeigegeräte und Interaktionstechniken in VR erforscht. Ein Vorprojekt widmete sich eingehend der Entwicklung eines aktiven Motion-Capture-Anzuges für das Erlernen motorischer Fähigkeiten im Sport (Gerstweiler & Vonach 2011). Aus diesen Gründen führt diese Arbeit einen weiteren Schritt in Richtung eines optimalen Lernens von Bewegungsabfolgen unter Zuhilfenahme von Virtual- Reality-Technologien und Visualisierungstechniken. Die Thematik des autonomen Erlernens von Bewegungsabfolgen ohne Beisein eines Lehrers ist ein komplexes Unterfangen. Aus dem momentanen Wissensstand ist es naheliegend eine VR-Anwendung zu entwickeln, da die dazu notwendigen Technologien bereits für den Endanwender leistbar sind, wenn auch teilweise mit geringerer Qualität. Hierzu zählen Beispielsweise die Asus Xiton oder Microsoft Kinect für Motion-Tracking oder Head-Mounted-Displays wie die Oculus Rift für eine stereoskopische Visualisierung. Eine Vielzahl an Projekten spezialisierte sich in der Vergangenheit auf die Entwicklung von technischen Hilfsmitteln für Motion-Tracking oder auch auf das Design von Lernmodellen. Dabei werden jedoch oft die Möglichkeiten einer VR- Lernumgebung in Bezug auf Visualisierungs- und Interaktionstechniken Motivation und Ziele 6 2015 vernachlässigt. Die Thematik des vorliegenden Projekts entstand einerseits aus dem Vorwissen des Autors in den Bereichen VR und andererseits aus den Resultaten der Entwicklung eines Motion-Suits. Hierbei zeigte sich, dass allein eine animierte dreidimensionale Darstellung einer Bewegung auf einem Bildschirm zwar hilfreich ist, diese für das Erlernen jedoch nicht genügend Feedback liefert um komplexere Bewegungsabfolgen in ihrer Gesamtheit zu Verstehen. Beispielsweise wenn der Benutzer durch Nachahmen von Drehungen dazu gezwungen wird die Blickrichtung zu ändern, sodass er die Vorführung nicht mehr verfolgen kann. Aus diesem Grund spezialisiert sich die vorliegende Arbeit auf drei Schwerpunkte, welche ein Erlernen erleichtern sollten. Darunter befinden sich: die Erweiterung der virtuellen Inhalte bzw. Feedbackmöglichkeiten, die Integration eines aktuellen stereoskopischen Displays und der Einsatz von verschiedenen Interaktionstechniken in der virtuellen Umgebung. Speziell eine Umsetzung von Visualisierungstechniken, die in der Realität nicht möglich wären, könnte das Verstehen einer Bewegung für den Benutzer vereinfachen. Die rasante Entwicklung von Head-Mounted-Displays in den letzten Jahren in Hinblick auf Auflösung, Größe des Sichtfelds und Reaktionszeit ermöglichen nun den längerfristigen Einsatz in VR-Umgebungen, da die Gefahr von Simulator Sickness reduziert wird. Daher könnte ein voll-immersives VR-Szenario massive Vorteile bei der Analyse von Bewegungsabfolgen bringen, vor allem wenn die Visualisierungstechniken genau auf diesen Fall zugeschnitten wurden. Aus diesem Grund wird für die vorliegende Arbeit folgende zentrale Hypothese definiert: Eine voll-immersive VR-Lernumgebung unter Verwendung von Motion- Tracking und HMD bietet durch speziell angepasster Visualisierungs- und Interaktionstechniken eine geeignete Plattform zum Lernen ganzheitlicher Bewegungen. 2.2. Ziele und Abgrenzung Die Definition von Zielen ist ein wesentlicher Schritt in einem derart vielfältigen Projekt wie diesem. Aus diesem Grund wurden Ziele in fünf verschiedene Kategorien gegliedert, welche in Folge sowohl den Designschritt als auch den Motivation und Ziele 2015 7 Evaluierungsschritt in eine gemeinsame Richtung leiten sollen. Die Kategorien betreffen den Einsatz eines HMDs, verschiedene Ansichtsmöglichkeiten von Bewegungsabfolgen, unterschiedliche Wiedergabemöglichkeiten optimaler Bewegungen, Varianten der Fehlervisualisierung und möglicher Interaktionstechniken. Head-Mounted-Display - Evaluierung der Verwendung eines HMDs beim Lernen von Bewegungsabläufen. - Evaluierung und Entwicklung zugeschnittener Visualisierungstechniken für die Darstellung von Bewegungen in einem HMD-Setup. Wiedergabemöglichkeiten der optimalen Bewegungsabfolge - Entwicklung und Evaluierung von verschiedenen Wiedergabemöglichkeiten einer optimalen Bewegungsabfolge. Möglichkeiten zur Ansicht der Trainingsumgebung und der Bewegungsabfolgen während der Bewegung - Entwicklung und Evaluierung verschiedener Ansichten der Trainingsumgebung und der Bewegungsabfolgen von Schüler und Lehrer während der Bewegung in unterschiedlichen Realitätsstufen. Fehlervisualisierung - Entwicklung und Evaluierung der Auswirkung einer zusammenfassenden Fehlervisualisierung nach der Übung. - Entwicklung und Evaluierung verschiedener Varianten zur Echtzeit- Fehlervisualisierung in verschiedenen Realitätsstufen. Interaktionsmöglichkeiten - Einsatz und Evaluierung von verschiedenen Interaktionsmöglichkeiten zur autonomen Steuerung der Lernumgebung und deren Eignung in Zusammenhang mit motorischem Lernen. Motivation und Ziele 8 2015 Abgesehen der oben beschriebenen Ziele gibt es Bereiche, deren Untersuchung zwar aus wissenschaftlicher Sicht auch interessant wäre, aber Aufgrund des Aufwands in dieser Arbeit nicht behandelt werden können. Hierzu zählt beispielsweise ein Vergleich zu herkömmlichen Lernmethoden motorischen Lernens, wie beispielsweise Text, Bildfolgen oder Animationen, da die Variationen an Einflussfaktoren zu vielfältig wäre um eine gültige Aussage in der zur Verfügung stehenden Zeit treffen zu können. Da die verschiedenen Visualisierungsmethoden speziell für den Einsatz mit HMDs zugeschnitten sind, können diese auch nicht in derselben Form mit anderen Ausgabegeräten, wie Projektoren oder Bildschirmen, verglichen werden. State-of-the-Art 2015 9 3. State-of-the-Art Das autonome Erlernen von Bewegungsabfolgen wurde im Forschungsgebiet Virtual- und Augmented-Reality bereits in verschiedenen Varianten behandelt. Die Komplexität und Vielfältigkeit von Bewegungsabfolgen erfordern ein Einbeziehen multipler Bereiche des Forschungsgebietes. Im vorliegenden Kapitel werden Projekte analysiert, welche Konzepte motorischen Lernens mittels 3D-Bewegungsdaten in Echtzeit behandeln. Aufgrund des Fokus der vorliegenden Arbeit auf Visualisierung, Feedback und Interaktion in Kombination mit HMDs, werden die hier präsentierten Arbeiten in drei Kapitel unterteilt: Visualisierungstechniken, Möglichkeiten zur Avatar- bzw. Fehlervisualisierung und Interaktionstechniken. Visualisierungstechniken beschreiben dabei die Verwendung verschiedener Ausgabegeräte bzw. die Erfahrungen die im Bereich motorischen Lernens damit gemacht wurden. In Folge dessen werden ähnliche Arbeiten zitiert, welche sich mit der Präsentation von Fehlern im Bewegungsablauf beschäftigen. Abschließend werden Arbeiten hervorgehoben die Interaktionstechniken zur Steuerung der Anwendung während einer virtuellen Übungseinheit verwendet haben. 3.1. Visualisierungstechniken In VR-Anwendungen für das Erlernen von Bewegungsabfolgen wird in einem Großteil der Arbeiten eine visuelle Darstellung für die Vermittlung verwendet. Hierbei wird üblicherweise die optimale Bewegung mehr oder weniger detailliert vorgeführt. Dabei kann grundsätzlich zwischen einer zweidimensionalen und einer stereoskopischen Anzeige unterschieden werden. Geräte die hier zum Einsatz kommen sind: Projektoren, Bildschirme, HMDs oder multiple Projektionen (CAVE). Die Darstellung virtueller Avatare mittels einer 2D-Projektion bzw. eines Monitors wurde bereits in mehreren Projekten (Fitzgerald et al. 2007; Chan et al. 2011) verwendet. Wobei Fitzgerald et al. (Fitzgerald et al. 2007) nicht auf die Auswirkungen von Anzeigegeräten geachtet wird. In dem Projekt wird eine optimale Bewegung durch eine 3D-Animation auf einem 2D-Monitor visualisiert. Die genaue Umsetzung wurde jedoch nicht beschrieben. Sehr deutlich sieht man die Auswirkung einer statischen zweidimensionalen Projektion in Abbildung 1a State-of-the-Art 10 2015 (Chan et al. 2011) oder in Abbildung 1b (Eaves et al. 2011). In beiden Fällen ist deutlich die Problematik eines solchen Ausgabegerätes zu erkennen: Der Benutzer muss den Kopf zur Anzeige wenden um Feedback zu bekommen. Dies hat zur Folge, dass in erster Linie die Kopfdrehung Fehler in der Bewegungsevaluierung verursacht. Des Weiteren ist diese Darstellung nicht für beliebige Übungen geeignet, da bestimmte Bewegungen den Benutzer dazu zwingen sich von der Projektionsfläche abzuwenden und daher den weiteren Verlauf nicht mehr folgen können. Abbildung 1: (a): 2D-Projektion zum Lernen von Tanzbewegungen mit virtuellen Avataren (Chan et al. 2011); (b) Erlenen von Tanzbewegungen anhand einer Projektion mit realen Video (Eaves et al. 2011) Hinzu kommt, dass es eine zweidimensionale Darstellung dem Benutzer erschwert, Bewegungen in die Tiefe richtig zu erkennen, die nicht parallel zur Projektionsebene durchgeführt werden. Auch verdeckte Posen, wie die Handposition hinter dem Körper, bleiben unter Verwendung dieser Technologie unerkannt. Diese Situationen könnten durch Steuerung der virtuellen Kamera anhand der Kopfposition und Orientierung des Benutzers verbessert werden. Der Benutzer kann bei Projektionen nur sehr eingeschränkt selbst explorativ tätig werden, obwohl sowohl in (Chan et al. 2011) als auch in (Eaves et al. 2011) ein Tracking-System eingesetzt wird und somit die Position des Benutzer bekannt ist. Arbeiten wie (Hachimura et al. 2004; Crivella et al. 2003) setzten auf den Einsatz von stereoskopischen HMDs um den Benutzer in eine voll-immersive Umgebung zu versetzen und geben ihm so die Möglichkeit explorativ Bewegungen zu (a) (b) State-of-the-Art 2015 11 erfahren. Publikationen welche sich auf das Erlernen von Bewegungsabfolgen konzentrieren wurden bisher nur mit HMDs kombiniert, welche aus heutiger Sicht für eine derartige Anwendung schlecht geeignet waren. Hachimura et al. beschreibt die negativen Auswirkungen, welche bei den Übungseinheiten zum Erlernen von Tanzschritten störend gewirkt haben. Darunter befinden sich: das eingeschränkte Sichtfeld (Field-of-View) von 51° bzw. 37°, die niedrige Auflösung von 640x480 Pixel, das hohe Gewicht bzw. der mangelhafte Tragekomfort und die Ungenauigkeit der Bewegungserkennung (siehe Abbildung 2). Crivella et al. (Crivella et al. 2003)berichtet von keinen derartigen Problemen obwohl eine ähnliche Brille (Olympus Eye-Trek Glasses) für das Erlernen von Tai-Chi Bewegungen zum Einsatz kam. Im präsentierten Setup wurde das HMD für eine möglichst hohe Bewegungsfreiheit auf kabellosen Betrieb umgebaut. Die oben erwähnten Nachteile von HMDs haben die Evaluierung der in den Arbeiten entwickelten Übungsapplikationen negativ beeinflusst. Durch die positiven Entwicklungen der letzten Jahre im Bereich von HMDs betreffend Auflösung, Sichtfeld und Reaktionszeit sollten weitaus weniger Störfaktoren gegeben sein und dadurch voraussichtlich andere Ergebnisse abzuleiten sein. Abbildung 2: Video-See-Through HMD für eine Visualisierung von Avataren (Hachimura et al. 2004) Eine weitere Möglichkeit der visuellen Präsentation von Bewegungsdaten stellt eine stereoskopische Projektion auf multiplen Flächen dar (Sun et al. 2014; Covaci et al. 2015). Dieser sogenannte CAVE wurde bereits für eine ähnliche Anwendung von Covaci et al. für ein Wurftrainingssystem (siehe Abbildung 3) eingesetzt. Diese immersive Großbilddarstellung unter Verwendung von vier Projektionsflächen ist ein sehr kostspieliges System mit hoher Bildqualität. Ziel dieser Studie war es im Zuge des Basketballwurfs zu analysieren, ob die Darstellung genau genug ist um Distanzen richtig einschätzen zu können. Covaci State-of-the-Art 12 2015 et al. sind zu dem Schluss gekommen, dass sich die Benutzer sehr schnell an die Annäherung der physikalischen Eigenschaften der virtuellen Realität anpassen, dies jedoch zu einem verzerrten Bild führt. Für das Erlernen von allgemeinen Bewegungsabläufen ist diese Art der Visualisierung aufgrund der Kosten nicht praktikabel. Auch ist eine Betrachtung einer Bewegung von allen Seiten nur dann möglich wenn eine weitere Projektionsfläche hinzugefügt wird und so den Benutzer komplett umschließen würde. Abbildung 3: Ein CAVE System zum Wurftraining für Basketball (Covaci et al. 2015) 3.2. Avatar- und Fehlervisualisierung Bei der Darstellung von Bewegungsabläufen sind in einer VR-Umgebung keine Grenzen gesetzt. Eine Limitierung wird jedoch durch die technischen Hilfsmittel festgesetzt. Die Verwendung eines Systems zur Bewegungserkennung ist in allen Ansätzen ein notwendiges Instrument und unterscheidet sich nur geringfügig, wohingegen die Art des visuellen Ausgabegeräts die Möglichkeiten unterschiedlich einschränkt. Aus diesem Grund werden im Folgenden Arbeiten untersucht, welche sich mit der visuellen Ausgabe von Bewegungsabläufen auf HMDs beschäftigt haben bzw. Visualisierungstechniken verwendet haben welche in ähnlicher Weise für HMDs herangezogen werden könnten. Hachimura et al. (Hachimura et al. 2004) beschäftigt sich mit der Vermittlung vom Tanzschritten mit Unterstützung eines Video-See-Through HMDs. Dabei wird die Videoaufnahme einer im HMD verbauten Kamera dargestellt und wie in Abbildung 4 ersichtlich vier verschiedene Avatar-Modelle damit kombiniert. State-of-the-Art 2015 13 Darunter befinden sich ein aus einfachen Strichen bestehender Avatar, ein Avatar aus soliden Elementen wie Zylindern und Kugeln, und eine Kombination aus beidem. Darüber hinaus wurde auch ein Avatar mit Textur dazu verwendet die Bewegung vorzuführen. Abbildung 4: Vier verschiedene Avatar-Modelle aus (Hachimura et al. 2004) von links nach rechts: Wire Frame, Solid, Solid with Wire Frame, Solid with Texture Außerdem wurden verschiedene Modi vorgestellt, mit denen die zuvor beschriebenen Avatar-Modelle kombiniert werden konnten: in Lebensgröße, in Modellgröße, als Überlagerung, nebeneinander und als Self-Superposition (siehe Abbildung 5). Viele dieser Visualisierungsarten sind erst durch den Einsatz von HMDs möglich. Speziell die Anzeige eines verkleinerten Modells bzw. die Überlagerung des realen Körpers mit einem Skelett bringen durch die explorativen Möglichkeiten des Benutzers einen Vorteil. Abbildung 5: Darstellung des Avatars bzw. der Bewegung in verschiedenen Varianten; von links nach rechts: Avatar in Lebensgröße, in Modellgröße, nebeneinander, als Self-Superposition (Hachimura et al. 2004) Hachimura et al. präsentiert in seiner Publikation eine Vielzahl an Visualisierungsmöglichkeiten unter anderen auch speziell für den Einsatz bei HMD-Applikationen. Leider wurde in der Arbeit eine sehr reduzierte Evaluierung durchgeführt, welche keine Hinweise auf die Eignung der verschiedenen Arten gibt. Aus diesem Grund wird in der vorliegenden Arbeit auf einige der State-of-the-Art 14 2015 präsentierten Ideen zurückgegriffen und an die heutigen technischen Möglichkeiten angepasst, erweitert und evaluiert. Eine andere Art der Präsentation verwendete Crivella et al. (Crivella et al. 2003)für eine Trainings-Applikation für Tai-Chi Bewegungen. Dabei wurden in der virtuellen Umgebung unterschiedlich viele Avatare rund um den Benutzer angezeigt, wobei aus fünf verschiedenen Varianten gewählt werden konnte. Damit sollte es dem Schüler möglich sein durch die verschiedenen Perspektiven auf den Bewegungsablauf, diesen leichter zu verstehen. Aus den Ergebnissen der durchgeführten Benutzerstudien ist zu entnehmen, dass keines der Layouts eine fundamentale Auswirkung auf den Lerneffekt hatte. Die Autoren erwähnen jedoch eine Latenz von 170 ms, was die Evaluierung beeinflusst haben könnte. Abbildung 6: Untersuchung verschiedener Positionierungen der virtuellen Avatare (Crivella et al. 2003) Abseits von Anwendungen mit HMDs können auch Visualisierungen analysiert werden, welche für eine Projektion entwickelt wurden. Diese können eventuell auch für HMDs angepasst werden. In (Chan et al. 2011) werden dem Benutzer simplifizierte Avatare angezeigt, welche Fehler im Bewegungsablauf durch eine farbliche Kennzeichnung der einzelnen Gliedmaßen darstellen. Dabei werden innerhalb einer Szene bis zu vier Avatare angezeigt (siehe Abbildung 7a). Eine weitere Möglichkeit des Feedbacks wird durch eine Auflistung kumulierter Fehlerwerte gegeben (siehe Abbildung 7b). Jeder Gliedmaße wird ein Wert zwischen 0 und 100 zugewiesen, um die Richtigkeit der Bewegung aufzuzeigen. Auch diese Situation könnte in einem HMD-Setup eine hilfreiche Visualisierung darstellen. State-of-the-Art 2015 15 Eine auf den ersten Blick sehr einfach gehaltenen Variante, Benutzer in ihrer Bewegung zu leiten, zeigt Eaves et al. (Eaves et al. 2011) auf. Für das Erlernen von Bewegungsabfolgen werden, wie in Abbildung 8 zu sehen, Punkte visualisiert an denen sich die jeweiligen Gelenke zu einer bestimmten Zeit befinden sollten. Dabei spezialisierten sich die Autoren auf eine reduzierte Visualisierung, wobei zu bezweifeln ist ob dem Benutzer genug Information über die Tiefe der Punkte zu Verfügung stand, um diese richtig zu interpretieren. Obwohl die Präsentation auf einer Leinwand stattfand, könnte das Prinzip erweitert und für eine voll-immersive Umgebung angepasst werden. Abbildung 8: Eaves et al. verwenden Punkte um dem Benutzer die Position der Gelenke vorzugeben. (Eaves et al. 2011) Abbildung 7: (a) Echtzeit-Feedback mit vier Avataren in einer Szene; (b) Numerisches Feedback nach der Übung (Chan et al. 2011) (a) (b) State-of-the-Art 16 2015 3.3. Interaktionstechniken Eine Notwendigkeit bei einer autonomen Lernumgebung ist die Steuerung dieser durch den Benutzer. Da es sich bei dem vorliegenden Anwendungsfall um eine voll-immersive Applikation handelt und alle Körperteile für das Erlernen von Bewegungen verwendet werden, muss die Interaktion speziell hierfür passend gestaltet werden. In einigen verwandten Vorarbeiten wurden bereits Interaktionsmöglichkeiten angewendet. Hachimura et al. (Hachimura et al. 2004) verwenden für die Benutzereinabe einerseits ein handelsübliches Gamepad, welches laut Autoren den Benutzer jedoch beide Hände bindet. Aus diesem Grund wurde ein magnetischer Sensor am Finger montiert, welcher die Eingabe steuert. Die Evaluierung befasst sich leider nicht auf die Auswertung dieser Möglichkeiten. Viele Anwendungen, wie beispielsweise in (Fitzgerald et al. 2007), erlauben dem Benutzer die Steuerung nur per Maus und Tastatur. Auf diese Weise hat jede Eingabe ein Unterbrechen der Übung zufolge. In der Spieleindustrie kommen oft Gesten für die Menüsteuerung zum Einsatz, wie zum Beispiel das Spiel Kinect Training1 welches durch Gesten mit der Hand eine Menüsteuerung ermöglicht. Eine ähnliche Umsetzung kann auch für das vorgeschlagene Szenario in dieser Arbeit angedacht werden, da kein Gerät hierfür notwendig ist. Auf weitere Möglichkeiten Interaktion in VR zu erlauben wird im Kapitel 4.2.4 Interaktionsmöglichkeiten für VR-Umgebungen eingegangen. 1 Microsoft XBOX Spiel: Kinect Training http://www.xbox.com/en- NZ/Marketplace/SplashPages/nike-kinect-training Analyse der Kernkomponenten 2015 17 4. Analyse der Kernkomponenten Für die Entwicklung von Interaktions- und Visualisierungstechniken für den Einsatz in einer HMD-basierten Virtual-Reality-Umgebung, ist es notwendig alle relevanten Kernkomponenten eingehend zu analysieren. Aus diesem Grund werden im Folgenden zuerst verschiedene Aspekte motorischen Lernens betrachtet, wie der Zusammenhang von Wahrnehmung und Motorik und der Rolle von Feedback. Anschließend werden wichtige, für das Setup geeignete, Komponenten beschrieben. Zuerst das in dieser Arbeit eingesetzte Motion- Tracking-System. Danach wird die Applikation MoCapGym beschrieben, wovon bereits existierende Grundfunktionalität herangezogen wurde um sich in der vorliegenden Arbeit auf die Visualisierung und Interaktion konzentrieren zu können. Abschließend werden verschiedene geeignete Ein- und Ausgabegeräte, sowie deren Eigenschaften beleuchtet. 4.1. Aspekte motorischen Lernens In diesem Abschnitt werden Aspekte motorischen Lernens betrachtet, die besonderen Einfluss auf den Entwurf von geeigneten Visualisierungstechniken haben. Im Speziellen wird daher zuerst der Zusammenhang visueller Wahrnehmung mit dem Lernen von Bewegungsabläufen präsentiert. Danach werden die Mechanismen von Feedback im Sport diskutiert. 4.1.1. Visuelles Lernen Die visuelle Wahrnehmung ist beim Menschen sehr eng mit der Bewegungssteuerung verbunden (Neumaier 1982). Im Allgemeinen wird dieser Umstand bei der Reaktion auf sich bewegende Gegenstände (z.B. einem Ball) oder einem Gegner ersichtlich, er spielt aber auch eine wichtige Rolle um die eigene Bewegung zu kontrollieren. Besonders maßgeblich ist diese Eigenschaft zu Beginn des Lernprozesses einer Bewegung, wo es durch Beobachten anderer Personen, z.B. einem Lehrer, zur Bildung einer Bewegungsvorstellung, sozusagen als Lernziel einer optimalen Bewegung, kommt. Panzer et al. (Panzer et al. 2007) beschreiben den Lernprozess anhand aktueller Erkenntnisse so: Um eine ganzheitliche Bewegung zu lernen, wird diese zuerst basierend auf Beobachtungen aus einzelnen Elementen zusammengesetzt und diese nach und Analyse der Kernkomponenten 18 2015 nach zu zusammenhängenden Blöcken kombiniert. Erst nach langem Üben kann eine Bewegung als Einheit ohne Unterbrechungen durchgeführt werden. Das Lernen findet dabei laut Panzer et al. parallel in zwei unterschiedlichen mentalen Systemen statt, dem visuell-räumlichen System und dem motorischen System. In einer Studie demonstrieren die Autoren, dass besonders in frühen Lernphasen das visuell-räumliche System die Bewegung leitet. Die visuell- räumliche Repräsentation wird sehr früh erworben und bildet sich viel schneller aus als die motorische, weshalb dieser Prozess besonders unterstützt werden sollte. Der Zusammenhang zwischen der Wahrnehmung, der visuell-räumlichen Repräsentation und der motorischen Fähigkeiten ist so stark, dass im Leistungssport häufig beim Mentaltraining die Technik der Visualisierung zum Einsatz kommt (Heibel & Heuer 2009). Der Sportler stellt sich dazu eine Bewegung im Detail so vor, als würde er diese tatsächlich durchführen. In der Vorstellung kann dabei sowohl die Ich-Perspektive eingesetzt werden, als auch eine Ansicht von außen, als würde sich der Sportler selbst beobachten. Untersuchungen zeigen (Jeannerod 1995), stellt man sich die Bewegung realistisch vor, so ist bezüglich des Lernprozesses für das Gehirn kein Unterschied zu einer tatsächlich durchgeführten Bewegung. Abläufe und Techniken können so verbessert und vertieft werden, wobei der Erfolg von der Vorstellungsfähigkeit des Sportlers abhängig ist (Heibel & Heuer 2009). Insbesondere ist es wichtig, dass die Bewegungsvorstellung korrekt ist. Ein Fehler in der Bewegungsvorstellung kann sich motorisch festigen und ist dann laut Heibel & Heuer nur noch mit erhöhtem Aufwand zu korrigieren. Um eine korrekte Bewegungsvorstellung zu bilden und zu festigen, können schon früh im Lernprozess Videoaufnahmen eines optimalen Ablaufes zum Einsatz kommen, wobei der Sportler sich selbst oder eine andere Person von außen betrachtet und analysiert. Einige Forscher (Rothstein & Arnold 1976) warnen allerdings vor einem möglichen negativen Effekt, wenn der Lernende von der Fülle an Information überfordert ist und nicht weiß auf was er sich konzentrieren soll. Um dies zu vermeiden sollen Hinweise, z.B. von einem Lehrer, für den Schüler hervorheben, welche Aspekte im Video besonders zu beachten sind. Im Gegensatz dazu weisen andere Studien (Aiken et al. 2012) darauf hin, dass das selbstständige Steuern verfügbarer Information den Erfolg beim Lernen Analyse der Kernkomponenten 2015 19 motorischer Fähigkeiten fördert. Dieser Zusammenhang konnte von Aiken et al. auch bei Videoaufzeichnungen belegt werden. 4.1.2. Feedback Neben den soeben beschriebenen Effekten der visuellen Wahrnehmung bei der Ausbildung einer korrekten Bewegungsvorstellung, ist Feedback ein unerlässlicher Faktor für erfolgreiches Lernen von Bewegungsabläufen. Die damit zusammenhängenden Effekte wurden bereits von einer Vielzahl an Forschern über Jahrzehnte untersucht (Schmidt & Lee 2011; Wulf 2009), und dieses Thema bildet aufgrund ständig neuer technischer Möglichkeiten, wie Computer, Biosensoren, etc., auch weiterhin ein sehr aktives Forschungsgebiet. Schmidt & Lee (Schmidt & Lee 2011) beschreiben die Unterscheidung von Feedback für das Lernen motorischer Fähigkeiten anhand des derzeitigen Wissensstandes: Vor, während und nach der Durchführung einer Bewegung stehen einem Sportler verschiedene relevante Informationen zur Verfügung, beispielsweise die Positionen seiner Gliedmaßen oder auch die Eigenschaften der Umgebung. Jene Informationen, die durch die Bewegungsdurchführung selbst produziert werden, werden als Feedback bezeichnet. Intrinsisches Feedback bezeichnet dabei Informationen, die der Sportler durch körpereigene Wahrnehmung erhält und es ihm damit ermöglichen zu beurteilen, ob bei einer Bewegung etwas richtig bzw. falsch gemacht wurde. Beispielsweise deuten unerwartete Schmerzen, das Verfehlen eines Balles, etc., den Sportler darauf hin, dass etwas falsch gemacht wurde. Ebenso wichtig ist für den Sportler jedoch auch extrinsisches Feedback. So wird Information bezeichnet, die zusätzlich zur Verfügung steht, z.B. von einem Lehrer gegeben wird. In der Literatur zu diesem Thema werden bei extrinsischem Feedback zwei wichtige Kategorien unterschieden: Knowledge of Results (KR) auf der einen Seite bezeichnet Feedback, welches sich aus dem Ergebnis der Bewegung in Zusammenhang mit der Umgebung ergibt. Es kann sowohl sehr detailliert sein, z.B.: Das Ziel wurde um 1 m verfehlt, oder auch vollkommen allgemein, z.B.: sehr gut. Laut Schmidt & Lee belegen verschiedene Studien, dass präziseres Feedback viel nützlicher im Lernprozess ist als allgemeines, z.B. mit Angabe des Ausmaßes eines Fehlers oder darüber hinaus mit zusätzlicher Richtungsangabe. Normalerweise ist KR besonders hilfreich, wenn es direkt nach der Analyse der Kernkomponenten 20 2015 Bewegungsausführung gegeben wird. Es führt damit den Sportler zur optimalen Form, entsprechend der Guidance Hypothese von Salmoni et al. (Salmoni et al. 1984). Allerdings warnen Salmoni et al. auch, dass zu häufiges Feedback oder ein ungünstiger Zeitpunkt, intrinsisches Feedback blockieren kann. In diesem Fall kann es sein, dass ein Sportler sich nur noch auf das ständige extrinsische Feedback verlässt, und seine Leistung stark abnimmt sobald kein solches mehr vorhanden ist. Die zweite wichtige Kategorie von extrinsischem Feedback ist Knowledge of Performance (KP). Es handelt sich dabei um Information die das Bewegungsmuster beschreibt, beispielsweise der Rücken war nicht gestreckt. Schmidt & Lee verweisen hier auf verschiedene Studien die besagen, dass KP das Ausbilden von effektiven Bewegungsmustern bei Anfängern massiv fördern kann. Da die relevanten Aspekte manchmal nicht leicht von einem Lernenden erkennbar sind, erweist sich KP als besonders hilfreich, wenn diese besonders hervorgehoben werden, z.B. von einem Lehrer anhand einer Videoaufzeichnung. Sowohl KR als auch KP kann sich mit intrinsischem Feedback decken, es ist daher besonders wirksam wenn Information gegeben wird, die nicht oder nicht in dieser Genauigkeit bereits von diesem abgedeckt wird. Außerdem besitzen beide Arten extrinsischen Feedbacks zusätzlich zu den beschriebenen Eigenschaften generell einen sehr wichtigen motivierenden Effekt (Schmidt & Lee 2011). Wulf (Wulf 2009) streicht besonders hervor, dass es einen wichtigen Unterschied macht, welchen Fokus der Aufmerksamkeit Feedback auslöst. Demzufolge lenkt KR die Aufmerksamkeit eher auf den Effekt einer Bewegung auf die Umwelt und ruft damit einen externen Fokus hervor. KP lenkt hingegen die Aufmerksamkeit auf die eigenen Körperbewegungen, was einem internen Fokus entspricht. In mehreren Studien konnte Wulf belegen, dass Aufmerksamkeit mit externem Fokus das Lernergebnis motorischer Fähigkeiten verbessert, während ein interner Fokus sogar negative Auswirkungen haben kann. Da neue motorische Fähigkeiten immer auf Basis bereits vorhandener Bewegungsmuster erlernt werden wird vermutet, dass zu viel Aufmerksamkeit auf die eigenen Körperbewegungen diesen Prozess stören kann. Wulf berichtet von einer anderen Studie in welcher die Bewegungen eines Sportlers in Echtzeit auf einem Bildschirm dargestellt wurden, doch obwohl das Feedback einen internen Fokus auslöste, konnte ein positiver Effekt auf Leistung und Lernen beobachtet werden. Analyse der Kernkomponenten 2015 21 Als Grund für dieses Resultat wird angenommen, dass die Konzentration auf den Bildschirm von einem Übermaß an Kontrolle der eigenen Bewegungen ablenkt. 4.2. Setup Im Folgenden werden Basiskomponenten beschrieben welche für die entwickelte Anwendung herangezogen, bzw. für den speziellen Anwendungsfall adaptiert werden. 4.2.1. Tracking Technologiegrundlagen Das folgende Kapitel konzentriert sich auf die Hard- und Softwarebasis auf die das vorgestellte Konzept der Arbeit aufbaut. Hierbei wird zunächst das Tracking- System vorgestellt welche für das Erfassen der Bewegungsabfolgen in Echtzeit verantwortlich ist. Darüber hinaus wird der verwendete Motion-Suit kurz beschrieben und der dazu notwendige Kalibrierungsvorgang. Abschließend wird die Funktionalität der Anwendung MoCapGym beschrieben, welche in dieser Arbeit um eine Vielzahl von visuellen Entwicklungen erweitert wird. Iotracker Für das Erkennen von Bewegungen im Raum wird der iotracker (Pintaric & Kaufmann 2007) verwendet. Dieses optische Tracking-System basiert auf einer Anordnung multipler Kameras. In der Konfiguration, die für diese Arbeit eingesetzt wird, decken acht Infrarotkameras einen Trackingbereich mit einer Grundfläche von etwa vier Metern Seitenlänge und einer Höhe von drei Metern ab. Jede Kamera verfügt über eine Infrarotlichtquelle, einen IR-Filter und ist in der Lage bei einer Auflösung von 752x480 Pixel 60 Bilder pro Sekunde zu erfassen. Durch die Verwendung von kugelförmigen Markern überzogen mit einer retroreflektierenden Folie entsteht in jeder Kamera ein annähernd binäres Bild, welches in den hellen Bereichen die Marker definiert. Aufgrund der Tatsache, dass die genauen Kamerapositionen bekannt sind, kann durch Triangulation die Position einer Kugel im Raum mit einer Genauigkeit im Sub- Millimeterbereich bestimmt werden. Um nicht nur die Position sondern auch die Ausrichtung im Raum zu bestimmen, ist es notwendig sogenannte Analyse der Kernkomponenten 22 2015 Rigid-Body-Targets zu definieren, eine Anordnung von zumindest drei Markern in einem konstanten Abstand zueinander. Kalibrierung und Motion-Suit Für die Bewegungserkennung muss der Benutzer einen Motion-Suit anlegen (siehe Abbildung 9). Dieser besteht aus drei Teilen: einer Hose, einer Weste und einer Haube. Der Anzug ist dabei mit 37 Markern bestückt, wobei jeder Körperteil über zumindest drei Markern verfügt um eine Orientierung bestimmen zu können. Die einzelnen Teile des Anzugs können mit Klettverschluss aneinander fixiert werden, um ein Verrutschen zu verhindern. Für die Zuweisung der Marker zu den einzelnen Körperteilen muss zu Beginn einer Session der Anzug kalibriert werden. Die Implementierung von Schönauer et al. (Schönauer 2007), basierend auf einem Algorithmus von Kirk et al. (Kirk et al. 2005), ordnet die vorhandene Menge an Markern aufgrund von Bewegungsmustern anhand einer kurzen Bewegungsaufnahme den Körperteilen zu. Dabei muss der Benutzer in einer kurzen Bewegungsabfolge möglichst alle Gelenke bewegen. Abbildung 9: Proband mit Motion-Suit in T-Pose Als bewährter Bewegungsablauf werden zunächst aus der T-Pose (siehe Abbildung 9) heraus die rechten Extremitäten in einer leichten Drehbewegung auf und ab bewegt. Danach wird das gleiche Bewegungsmuster mit den linken Analyse der Kernkomponenten 2015 23 Extremitäten durchgeführt, bis der Benutzer wieder die T-Pose einnimmt. Das Ergebnis dieser Kalibrierung ist eine Skelettstruktur bestehend aus 11 Teilen. Während des Erfassens eines Benutzers werden somit 11 Gelenke beobachtet und deren Orientierung 60-mal pro Sekunde ausgelesen und für eine weitere Verarbeitung zur Verfügung gestellt. 4.2.2. MoCapGym Für das beschriebene Vorhaben der vorliegenden Arbeit wird als Softwarebasis das Ergebnis der Arbeit in (Vonach 2015) herangezogen. In der darin entwickelten Applikation MoCapGym wurde ein 6-Phasen Lernmodell für VR entwickelt, welches auf konventionellen Lerntheorien motorischen Lernens basiert. Diese Arbeit konzentriert sich jedoch weniger auf die Erprobung verschiedener Visualisierungen, sondern auf das Übertragen von Praktiken zum Erlernen von Bewegungen in den virtuellen Raum. Die Anwendung wurde mit Hilfe der Spiele-Engine Unity 3D entwickelt. Darüber hinaus fokussiert sich der Autor auf die Ausgabe über eine einfache Projektionsfläche welche gegenüber des Benutzers platziert ist. Die vorliegende Arbeit baut auf Basis von MoCapGym ein eigenständiges Anwendungsszenario mit verschiedenen Visualisierungstechniken auf und konzentriert sich auf die Möglichkeiten und technischen Anpassungen in Hinsicht auf die Verwendung von HMDs. MoCapGym bietet bereits einige nützliche Features, auf welche im vorliegenden Projekt zurückgegriffen wurde. So existiert bereits eine funktionale Anbindung an das Tracking-System und eine Verarbeitung der eintreffenden Skelettdaten. Dabei besteht die Möglichkeit die eintreffenden Daten in einer Datenbank aufzuzeichnen, um sie später für eine Visualisierung heranziehen zu können. Die Bewegungsdaten können auf einen oder mehrere Avatare angewendet werden, dabei wird zwischen Live-Daten und Daten aus der Bewegungsdatenbank unterschieden. Ein übliches Szenario aus der Anwendung MoCapGym beinhaltet einen Avatar, welcher die Bewegung des Benutzers imitiert und einen weiteren, welcher die aufgezeichnete Bewegung in Echtzeit abspielt (siehe Abbildung 10). Dabei kann zwischen verschiedenen Abspielgeschwindigkeiten gewählt werden. Des Weiteren können verschiedene Perspektiven gewählt und zusätzlich die Avatare zur Laufzeit im Raum verschoben werden. Für die Animation stehen zwei Analyse der Kernkomponenten 24 2015 Avatare zur Verfügung. Des Weiteren kann die Transparenz von Teilen des Avatars oder auch der ganze Avatar beliebig verändert werden. Abbildung 10: Auszug aus MoCapGym. (a) Bewegungsvergleich mit Echtzeitdaten. (b) Alternativer Avatar (Vonach 2015) Darüber hinaus wird ein aktiver, visueller Feedbackmodus bereitgestellt, welcher einen Vergleich zwischen der Bewegung des Benutzers und der des vorzeigenden Avatars durchführt. Die Abweichungen werden dabei anhand von Farben an den jeweiligen Gelenken dargestellt. 4.2.3. Analyse von HMDs als Ausgabegerät Da das Sehen gemeinhin als wichtigster der menschlichen Sinne betrachtet wird, ist für das Eintauchen in eine Virtual-Reality-Umgebung ein geeignetes, visuelles Ausgabegerät unerlässlich. Besonders beliebt bei VR-Anwendungen sind Head- Mounted-Displays. Je nach Modell sind hierbei ein oder zwei kleine Bildschirme mit einer speziellen Optik direkt vor den Augen des Betrachters positioniert. Optisch abgekoppelt von der physischen Welt, ist für den Benutzter somit ein komplettes Eintauchen in die virtuelle Umgebung möglich. Sogar das Potential mehrere Betrachter jeweils mit ihrem persönlichen Blickpunkt an derselben Simulation teilhaben zu lassen ist gegeben, sofern jeder mit einem HMD ausgestattet ist (Bowman et al. 2005). Bisher war der Einsatz von HMDs besonders aufgrund hoher Anforderungen an die Computerleistung, noch nicht ausgereifter Displaytechnologie und hoher Kosten hauptsächlich auf Militär und Forschung beschränkt. Gegenwärtig (a) (b) Analyse der Kernkomponenten 2015 25 herrscht jedoch eine Art Aufbruchsstimmung und es scheint der Zeitpunkt erreicht, an dem diese Technologie allgemein verfügbar wird. Laufend kündigen namhafte Hersteller das Erscheinen neuer HMDs für den allgemeinen Konsumenten an und es wird ein Durchbruch von Virtual-Reality für das Jahr 2016 erwartet (Nicol 2015). Um verschiedene HMDs zu charakterisieren und deren Eignung für den Einsatz in einer VR-Umgebung für motorisches Lernen analysieren zu können, sind bestimmte Eigenschaften wichtig. Diese werden im Folgenden kurz beschrieben, wobei weitgehend Informationen aus 3D User Interfaces: Theory and Practice von Bowman et al. (Bowman et al. 2005) als Grundlage dienten: Jener Winkel in Grad um den Benutzer, in welchem eine visuelle Darstellung erfolgen kann, wird als Field of Regard (FOR) bezeichnet. Gerade diese Charakteristik macht die Überlegenheit von HMDs in Bezug auf VR-Umgebungen gegenüber anderen Ausgabegeräten aus, da diese mit 360° FOR den vollständigen Bereich um den Benutzer abdecken können. Nur großvolumige Displays wie sogenannte CAVE, also drei oder mehr Leinwände in der Höhe eines Raumes um den User herum, kommen bei vergleichsweise hohen Kosten an diesen Wert heran. Der maximale Winkel in Grad der vom Benutzer auf einmal wahrnehmbar ist, wird Field of View (FOV) genannt. Da der horizontale FOV des menschlichen Auges bei etwa 150° liegt bzw. mit beiden Augen bei etwa 180° (Burdea & Coiffet 2003), erschwerte der vergleichsweise schlechte FOV der meisten bisher verfügbaren HMDs von horizontal nur 30° bis 60° die Immersion des Betrachters. So erscheint es etwa beim weit verbreiteten Z800 3DVisor von eMagin2 mit 33° horizontalem FOV so, als ob ein Fenster in die virtuelle Welt mit 2,7 m Diagonale etwa 3,5 m vor einem Benutzer schwebte. Bei einem solchen FOV ist peripheres Sehen nicht möglich und das Erfassen von räumlicher Information und Zusammenhängen in der virtuellen Welt erschwert. Diese Eigenschaften könnten sich auch negativ auf einen Lernprozess auswirken. Die nun angekündigten bzw. gerade erschienenen HMDs bieten jedoch einen horizontalen FOV von 90° und mehr (siehe unten), was die beschriebenen Probleme massiv verbessert. 2 eMagin: http://www.emagin.com/ Analyse der Kernkomponenten 26 2015 Die Auflösung beschreibt die Anzahl der Pixel die darstellbar sind. Diese Charakteristik ist allerdings immer in Zusammenhang mit der Größe des Displays bzw. dem Abstand des Betrachters zu setzen. Befindet sich der Betrachter weiter weg, wie bei einem herkömmlichen Display, so kann sich die wahrgenommene Auflösung verbessern, bei einem HMD befindet sich das Display jedoch direkt vor den Augen. In diesem Fall ist eine hohe Auflösung besonders wichtig, da ansonsten die Tiefenwahrnehmung und die Immersion leiden. Die Häufigkeit mit welcher das dargestellte Bild pro Sekunde aktualisiert werden kann ist die Bildwiederholfrequenz und wird in Hz angegeben. Diese sollte ebenfalls hoch sein, da unter etwa 50 - 60 Hz ein unangenehmes Flimmern wahrgenommen werden kann. Gerade in Zusammenhang mit Virtual-Reality ist auch die stereoskopische Darstellung wichtig. Hierfür wird für jedes Auge des Benutzers ein leicht versetztes Bild präsentiert, wobei durch die Fusion dieser beiden Bilder ein Tiefeneindruck entsteht. Um eine wirklichkeitsnahe Einschätzung der Tiefe zu Ermöglichen muss der Unterschied zwischen den beiden Bildern genau dem Abstand der Pupillen der beiden Augen des Betrachters, der Interpupillary Distance (IPD), entsprechen (Burdea & Coiffet 2003). Diese Distanz ist für jeden Menschen unterschiedlich und kann zwischen 53 und 73 mm betragen. Für die korrekte Tiefenwahrnehmung muss die persönliche Distanz berechnet und für die Darstellung berücksichtigt werden, sowie im Idealfall der Abstand der Displays bzw. der Optik konfigurierbar sein. Nicht alle HMDs können dementsprechend angepasst werden. Alle modernen HMDs bieten eine Möglichkeit die Rotation des Kopfes zu bestimmen um die dargestellte Szene entsprechend des persönlichen Betrachtungswinkels des Benutzers darzustellen. Allerdings ist dabei die Präzision und Reaktionsfähigkeit unterschiedlich und nicht bei allen Systemen wird auch die Position des Kopfes verfolgt. Bewegt sich der Benutzer in der virtuellen Welt, kann es daher zu einer Diskrepanz zwischen den präsentierten Bildern und der mit anderen Sinnen wahrgenommenen Bewegung auftreten. Darüber hinaus fokussiert das Auge normalerweise je nach Tiefe unterschiedlich. Die dargestellte Szene in einer virtuellen Welt steht jedoch immer genau im Fokus, was eine Belastung der Augen bewirken kann. Vor allem bei längerer Benutzung oder nicht optimal konfigurierten Geräten können diese Faktoren zu Analyse der Kernkomponenten 2015 27 Unbehagen oder sogar Übelkeit und Schwindel führen, den typischen Symptomen sogenannter Simulator Sickness oder auch Cybersickness (Johnson 2005). Schließlich sind auch noch Ergonomie und Gewicht relevante Faktoren um längeres unbeschwertes Tragen zu ermöglichen, sowie besonders im Falle von Heimanwendern der Preis. Die unglaubliche Vielfalt an erwarteten HMDs würde den Rahmen dieser Arbeit sprengen, daher werden im folgenden Abschnitt vorrangig einige Geräte kurz beschrieben, welche für den Einsatz in einer Motion-Capture-Umgebung in Frage kommen, und diese in Tabelle 1 gegenübergestellt. Für einen umfassenderen Überblick soll hier auf (Andronico 2015) und (Nicol 2015) verwiesen werden. Einer der bekanntesten Namen im Zusammenhang mit modernen HMDs ist Oculus Rift3 (Abbildung 11). Obwohl die finale Version erst für das erste Quartal 2016 angekündigt wurde, lieferte Oculus mittlerweile bereits zwei sogenannte Developer Kits (DK) aus. Das neuere DK2 bietet bereits eine Auflösung von 960x1080 Pixel per Auge, 100° FOV und Positionstracking in einem beschränkten Bereich, zu einem Preis von rund 350 USD. Diese Spezifikationen machen die Möglichkeiten moderner HMDs in Bezug immersive VR-Erfahrungen für den Heimanwender erreichbar. Die angekündigte finale Version soll diese Daten noch weit übertreffen (siehe Tabelle 1). Name Auflösung FOV Bildwdhr. Preis Erscheinen Rift DK2 Final 960x1080 px 1080x1200 px 100° >100° 75 Hz 90 Hz 350 USD n. V. - Q1 2016 Vive 1200x1080 px 110° 90 Hz n. V. Q1 2016 Playstation VR 960x1080 px 100° 120 Hz n. V. Q1 2016 Razer OSVR 960x1080 px 100° 60 Hz 200 USD - Gear VR 1280x1440 px 96° 60 Hz 99 USD Q4 2015 Tabelle 1: Gegenüberstellung angekündigter HMDs (Vgl. (Andronico 2015; Nicol 2015)). 3 Oculus Rift: https://www.oculus.com/en-us/rift/ Analyse der Kernkomponenten 28 2015 Abbildung 11: Oculus Rift Developer Kit 2 Das HTC Vive4 ist ebenfalls für immersive VR-Umgebungen zuhause ausgelegt. Eine Besonderheit ist die Kombination mit der SteamVR Tracking Station5. Dieses System ermöglicht Positionstracking in einem Bereich von 4,5 x 4,5 Metern, wobei sogar Hindernisse innerhalb dieses Bereichs aufgezeichnet werden um den Benutzer davor zu warnen (Nicol 2015). Leider wurde bisher kein DK zur Verfügung gestellt, eine erste Version wird für das erste Quartal 2016 erwartet. Des Weiteren wurden verschiedene mobile HMD-Lösungen angekündigt. Beispielsweise können mit dem Gear VR6 von Samsung verschiedene Smartphones des Herstellers als HMD genutzt werden. Die Spezifikationen sind durchaus mit jenen PC-gestützter Lösungen vergleichbar (siehe Tabelle 1). Erwähnenswert ist in diesem Zusammenhang auch Googles Cardboard7, ein Bausatz der entweder selbst gebastelt oder um rund 20 USD bestellt werden kann, um in Kombination mit einer breiten Auswahl an Smartphones eine durchaus respektable VR-Erfahrung zu ermöglichen. 4 HTC Vive: http://www.htcvr.com/ 5 SteamVR: http://store.steampowered.com/universe/vr 6 Samsung Gear VR: http://www.samsung.com/global/microsite/gearvr/index.html 7 Google Cardboard: https://www.google.com/get/cardboard/get-cardboard/ von Ats Kurvet via Wikimedia Commons Analyse der Kernkomponenten 2015 29 Aus den betrachteten Alternativen bieten sich mehrere HMDs für den Einsatz in der in dieser Arbeit beschriebenen Studie an. Das HTC Vive zeichnet sich sowohl aufgrund der hervorragenden Spezifikationen aus, aber besonders das Positionstracking wäre für den Heimanwender optimal um das Lernen von motorischen Fähigkeiten mittels HMD zu unterstützen. Da dieses Gerät aber noch nicht verfügbar ist und auch kein DK angeboten wird, kann es nicht in dieser Arbeit herangezogen werden. Eine mobile Lösung wie Samsungs Gear VR würde sich anbieten, da es ohne zusätzliche Kabel auskommt. Die in diesem Fall notwendige kabellose Übertragung der Daten des Tracking-Systems könnte aber zu zusätzlichen Verzögerungen führen, was auf jeden Fall zu vermeiden ist um das Auftreten von Simulator Sickness zu minimieren. Abgesehen davon sind die Werte für die Bildwiederholrate und FOV etwas unter jenen kabelgebundener Alternativen und betrachtet man den Preis inklusive eines notwendigen Smartphones ist es relativ teuer. Insgesamt betrachtet hat das Oculus Rift DK2 sehr gute Werte in allen Kategorien. Die kabelgebundene Übertragung sowie eine verfügbare direkte Einbindung in verschiedene Grafikengines ermöglicht eine nahezu verzögerungsfreie Darstellung virtueller Inhalte. Des Weiteren wird eine Möglichkeit angeboten, den IPD jedes Nutzers schnell und einfach zu bestimmen und die Darstellung auf Seite der Software dementsprechend anzupassen. Aus diesen Gründen wurde dieses Gerät in dieser Arbeit ausgewählt. 4.2.4. Interaktionsmöglichkeiten für VR-Umgebungen Nachdem der Betrachter mit einem HMD in der Regel ausschließlich die virtuelle Szene sieht und die physische Welt komplett ausgeblendet wird, muss besonderes Augenmerk auf die Interaktionsmöglichkeiten gelegt werden. Die Verwendung herkömmlicher Eingabegeräte, wie beispielsweise einer Tastatur, kann in einer immersiven VR-Umgebung unpraktisch sein (Bowman et al. 2005) und die Immersion stören, wenn der Benutzer quasi blind nach dem Gerät bzw. den Tasten suchen muss (Kogelnig 2013). Laut Bowman et al. (Bowman et al. 2005) sind bei der Auswahl einer geeigneten Eingabemöglichkeit der Umfang an Interaktionsmöglichkeiten und die Art der Daten wichtige Kriterien. Wie viele voneinander unabhängige Bewegungsmöglichkeiten im Raum ein Gerät erfassen kann, wird als Analyse der Kernkomponenten 30 2015 Freiheitsgrade bzw. Degrees-of-Freedom (DOF) bezeichnet. Des Weiteren ist es wichtig ob die Eingabedaten diskret oder kontinuierlich sind, beispielsweise liefern die Tasten einer Computermaus diskrete Werte während die Bewegung kontinuierliche Daten produziert. Besonders für den Einsatzzweck in dieser Arbeit spielen ergonomische Überlegungen eine ebenso wichtige Rolle, beispielsweise muss ein Gerät welches am Körper getragen wird leicht sein und die Bewegungen nicht behindern. Es gibt für die Interaktion mit einer VR- Umgebung keine universelle Lösung (Foster 2015). Die möglichen Modalitäten haben verschiedene Vor- und Nachteile, weshalb in dieser Arbeit mehrere Interaktionsmöglichkeiten genauer untersucht werden. Eine einfache Methode zur Steuerung sind unterschiedliche Gamecontroller für PC oder Konsole. Viele sind dafür gedacht in der Hand gehalten zu werden und bieten normalerweise sowohl diskrete Buttons als auch kontinuierliche Joysticks. Moderne Varianten sind oft auch mit Lagesensoren ausgestattet welche 6 DOF erfassen können. Diese Informationen können auf unterschiedliche Weise für die Interaktion eingesetzt werden z.B. um auf etwas zu zeigen (Bowman et al. 2005). Aufgrund ihrer einfachen Verwendung und Vielfältigkeit kommen Gamecontroller sehr häufig in VR-Szenarien zum Einsatz. Beispielsweise soll das Oculus Rift HMD bei Erscheinen mit einem Microsoft Xbox Controller ausgeliefert werden (Andronico 2015). Gleichzeitig wird auch an einem eigenen Controller Oculus Touch gearbeitet, welcher aus einer Art Joystick und Fingertracking für beide Hände besteht (Foster 2015). Auch die Wii Remote oder kurz Wiimote (Abbildung 12), ein Gamecontroller der von Nintendo für die Spielekonsole Wii8 entwickelt wurde, kommt gerne in VR-Umgebungen zum Einsatz. Diese kann mittels Bluetooth mit dem PC verbunden werden und bietet mehrere Buttons, ein Steuerkreuz als auch Beschleunigungssensoren zur Bewegungs- und Lagebestimmung mit 6 DOF. Eine optionale Sensorleiste kann außerdem eine infrarote LED im Controller im Raum lokalisieren, allerdings ist die Positionsbestimmung nicht besonders genau (Kogelnig 2013). Eine Besonderheit sind unzählige Halterungen für die Wiimote um auf diese Weise unterschiedlichste Formfaktoren zu erzielen, von einem Tennisschläger bis zu 8 Nintendo Wii: www.nintendo.com/wii Analyse der Kernkomponenten 2015 31 einem Bogen9. Die Wiimote erlaubt auch verschiedene Erweiterungen beispielsweise um einen analogen Joystick, dem Nunchuck, oder einem Wii MotionPlus Aufsatz um die Bewegungs- und Lagebestimmung zusätzlich zu verbessern. Aufgrund ihrer Vielseitigkeit, einfachen Bedienbarkeit und einem Design, welches eine einhändige Bedienung unterstützt, wird die Wiimote als eine Möglichkeit zur Interaktion in dieser Arbeit herangezogen. Abbildung 12: Wii Remote Gamecontroller Ein Nachteil von Gamecontrollern ist, dass diese in einer oder sogar beiden Händen gehalten werden (Kogelnig 2013), was die natürliche Bewegung behindern kann (Burdea & Coiffet 2003). Nachdem durch das HMD normalerweise bereits die Rotation des Kopfes bestimmt wird, kann diese Information auch für die Interaktion verwendet werden ohne dass ein zusätzliches Eingabegerät nötig wäre. Beim Gaze Tracking wird festgestellt, wohin der Benutzer gerade blickt, und damit beispielsweise eine Bewegungsrichtung gesteuert (Bowman et al. 2005). Wird nur die Blickrichtung herangezogen sind die Interaktionsmöglichkeiten allerdings begrenzt, daher kann auch die Beschleunigungsänderung verwendet werden, beispielsweise Kopfschütteln oder Nicken (Kogelnig 2013). Dies kann jedoch über längere Zeit 9 CTA: http://www.ctadigital.com/item.asp?item=2558 Analyse der Kernkomponenten 32 2015 den Nacken belasten und gerade vermehrte Kopfbewegungen können das Auftreten von Simulator Sickness verstärken. Eine andere Methode ist ein Zeiger in der Mitte des Blickfelds der sich mit dem Kopf bewegt. Auf diese Weise können Bedienfelder in einer VR-Umgebung betätigt werden indem man einige Zeit darauf blickt, wobei eine Art Ladebalken die Zeit bis zur Betätigung anzeigt. Diese Art der Interaktion ist jedoch eher langsam und erlaubt generell eher limitierte Eingabemöglichkeiten (Kogelnig 2013). Auch kann es unangenehm sein wenn auf bestimmte Stellen nicht geblickt werden darf um nicht unbeabsichtigt eine Interaktion auszulösen. Eine Methode die eine breite Variation an Interaktionen ermöglicht sind Gesten. Dabei können Datenhandschuhe zum Einsatz kommen welche entweder durch Beugesensoren oder Kontaktflächen erkennen wenn sich Finger berühren oder beispielsweise auf ein virtuelles Objekt gezeigt wird (Bowman et al. 2005). Eine moderne Variante basierend auf Inertialsensoren ist Control VR10, wobei eine Version welche den Körper und einen Arm verfolgt für das vierte Quartal 2015 angekündigt ist und rund 350 USD kosten soll. Datenhandschuhe sind generell eher teuer und brauchen meist eine Kalibrierung da sich Form und Größe der Hand bei allen Menschen unterscheiden (Burdea & Coiffet 2003). Außerdem kann das Tragen eines Handschuhs stören. Eine alternative Art der Gestensteuerung ermöglichen Tiefensensoren wie die Microsoft Kinect11 (Kammergruber et al. 2012) (siehe Abbildung 13). Diese nutzt Video und ein Infrarotmuster um ohne zusätzliches Gerät oder Marker am Körper die Bewegungen eines Benutzers zu erkennen. Auf diese Weise kann das Gerät ohne gesonderte Kalibrierung das Skelett des Anwenders schätzen und so Position und Rotation der Körperteile bestimmen. Diese Methode ist als ausschließliche Motion-Capture-Technologie für eine immersive VR-Umgebung zu ungenau und anfällig für Verdeckungen. Jedoch erlaubt sie bestimmte Kombinationen von Bewegungen und Körperhaltungen, beispielsweise Winken, zu erkennen und diese Gesten zur Eingabe zu verwenden. Damit werden vielfältige Interaktionsmöglichkeiten denkbar wobei die Hände frei bleiben. Diese 10 Control VR: http://controlvr.com/ 11 Microsoft Kinect: http://www.xbox.com/en-US/xbox-360/accessories/kinect Analyse der Kernkomponenten 2015 33 Eigenschaften passen hervorragend in eine VR-Umgebung für motorisches Lernen, weshalb sie in dieser Arbeit weiter untersucht wird. Abbildung 13: Microsoft Kinect Tiefensensor Doch auch Gestensteuerung birgt einige Nachteile. Wendet sich der Benutzer vom Tiefensensor ab, könnten Gesten aufgrund von Verdeckungen nicht mehr erkannt werden. Außerdem könnten normale Bewegungen unbeabsichtigt als Befehl missverstanden werden. Bowman et al. (Bowman et al. 2005) beschreiben, dass auch Spracheingabe sehr gut funktionieren kann. Die Hände bleiben frei und es können praktisch beliebig viele Befehle definiert werden. Die Steuerung kann auch sehr intuitiv sein, da die verwendeten Wörter der ausgelösten Funktion entsprechen. Ein wichtiger Faktor ist, wo das Mikrophon platziert wird. Im Idealfall befindet sich dieses nahe am Mund des Benutzers, allerdings kann ein zusätzliches Gerät am Körper gerade in Zusammenhang mit motorischem Lernen stören. Wird das Mikrophon im Raum platziert, so können Nebengeräusche oder Gespräche die Spracherkennung behindern. Eine normale Unterhaltung oder lautes Denken kann unbeabsichtigt Befehle auslösen. Eine mögliche Lösung ist Push-to-Talk, wobei dem System auf geeignete Weise mitgeteilt wird, wann es auf Befehle reagieren soll. Auch Sprachsteuerung könnte sich hervorragend für eine VR-Umgebung für motorisches Lernen eignen, daher wird auch diese als dritte Interaktionsmöglichkeit in dieser Arbeit weiter untersucht. Entwickelte Visualisierungstechniken 34 2015 5. Entwickelte Visualisierungstechniken Auf Basis der Erkenntnisse aus der Analyse der relevanten Kernkomponenten im vorigen Kapitel, werden in diesem Kapitel Entwurf und Umsetzung der neuen Visualisierungstechniken beschrieben. Zu diesem Zweck werden zuerst Anpassungen und Erweiterungen der bestehenden Software MoCapGym beschrieben, um die notwendige Grundlage für die weitere Implementierung zu schaffen. Im Anschluss werden dann die zugrundeliegenden Überlegungen sowie die praktische Umsetzung verschiedener neuer Visualisierungstechniken, speziell auf eine virtuelle Trainingsumgebung und den Einsatz eines HMDs abgestimmt. Dabei werden zum einen Möglichkeiten präsentiert, um eine ideale Bewegung zu präsentieren, welche vom Schüler gelernt werden soll. Danach werden eine Reihe von Visualisierungstechniken beschrieben, um sich selbst und die gesamte Trainingsumgebung auch während des Lernens in Blick behalten zu können. Abschließend werden Techniken präsentiert um dem Lernenden Feedback zu geben und so den Lernprozess zu unterstützen. 5.1. Erweiterung der bestehenden Software In dieser Arbeit sollen neue Visualisierungs- und Interaktionstechniken implementiert und evaluiert werden, welche sich besonders für den Einsatz in einer voll-immersiven VR-Lernumgebung und einem HMD eignen. Als Basis wurde die bestehende Software MoCapGym (Vonach 2015) herangezogen, welche das Lernen motorischer Fähigkeiten mittels Motion-Capture in einer projektionsbasierten VR-Umgebung ermöglichen soll (siehe auch Kapitel 4.2.2 MoCapGym). Diese stellte zwar eine Grundfunktionalität bereit, für eine voll immersive VR-Umgebung waren aber umfangreiche Neuimplementierungen und Anpassungen notwendig. Die wichtigsten werden in diesem Kapitel beschrieben. Für die vollständige ursprüngliche Implementierung sei auf (Vonach 2015) verwiesen und soll daher hier nur kurz zusammengefasst werden: Wie auch in Kapitel 4.2.1 Tracking Technologiegrundlagen beschrieben erfasst das iotracker Motion-Capture-System die Bewegungen eines Benutzers und liefert diese bis zu 60 Mal pro Sekunde per Netzwerksocket an MoCapGym. Die Daten werden dabei in Form einer XML-Textdatei seriell übertragen und beschreiben die genaue Skelettkonstellation (Skeleton-Pose) des Benutzers zu Entwickelte Visualisierungstechniken 2015 35 einem Zeitpunkt. Diese beinhaltet seine absolute Position als 3D-Koordinate sowie die Orientierung als Quaternion (Pivotpoint), ebenso wie auch die Rotation aller seiner erfassten Gelenke mittels ID und Quaternion. Dazwischen wir immer wieder Information über die konkrete Zuweisung der IDs zu bestimmten Körperteilen übermittelt (Skeleton). Auf Seite der Applikation werden die empfangenen Daten geparst und direkt auf einen Schüler-Avatar angewendet. Alternativ können die Daten auch mit einer Zeitmarke versehen werden und zur späteren Wiedergabe als XML-Datei aufgezeichnet werden bzw. aus einer bestehenden Datei wiedergegeben werden. Die ursprüngliche Applikation war auf der Entwicklungsplattform Unity12 in der Version 2.3.5 geschrieben worden. Um jedoch die Möglichkeiten eines modernen HMDs nutzen zu können, musste die Software auf die mittlerweile aktuelle Version 5.2.1 portiert werden. Dieser gewaltige Versionssprung erforderte umfangreiche Änderungen der Implementierung der Netzwerkkommunikation als auch des Thread-Managements. Die Netzwerkkommunikation zum einen und die Wiedergabe von bereits aufgezeichneten Bewegungen zum anderen, laufen jeweils in eigenen Threads um den verzögerungsfreien Ablauf der übrigen Funktionalität zu gewährleisten. Die Manipulation von Objekten einer virtuellen Szene (GameObjects) darf jedoch mittlerweile nur noch vom Haupt-Thread, der Klasse Control, aus erfolgen. Um trotzdem ein möglichst unabhängiges Ablaufen der Netzwerk- und Wiedergabe- Threads zu erlauben, wurde ein Anknüpfungspunkt im Haupt-Thread implementiert, eine sogenannte Queue für Funktionsaufrufe (Action). Auf diese Weise können Funktionsaufrufe von separaten Threads aus gesammelt werden welche dann asynchron zu einem bestimmten Zeitpunkt in jedem Frame vom Haupt-Thread ausgeführt werden. Für die Netzwerkkommunikation wurde in der ursprünglichen Version von MoCapGym nicht die mittlerweile von Unity bereit gestellte Netzwerkimplementierung verwendet sondern eine eigene Entwicklung. In der neuen Version darf aber ein Netzwerksocket nur noch vom Haupt-Thread verwaltet werden. Um dieser Anforderung zu entsprechen, wurde die 12 Unity http://unity3d.com/ Entwickelte Visualisierungstechniken 36 2015 Netzwerkkommunikation in der Klasse Client zu großen Teilen neu implementiert. Dieser Thread läuft unabhängig vom Haupt-Thread, jedoch kann Letzterer mittels sogenannter Messages mit dem Netzwerk-Thread kommunizieren und diesem nach Start der Applikation den Netzwerksocket übergeben. Im Netzwerk-Thread wird der gesamte Verbindungsaufbau und Abbau zum Motion-Capture-System gehandhabt. Empfangene Datenpakete werden zu vollständigen Dateien zusammengefügt und diese dann mittels Queue an den Haupt-Thread übergeben. Das Parsen der Skelettkonstellationen erfolgt nun im Gegensatz zur ursprünglichen Implementierung im Haupt-Thread, da dieser Vorgang eng mit dem Anwenden der empfangenen Daten auf GameObjects verknüpft ist. Beim Wiedergabe-Thread verhält es sich ähnlich. Dieser liest aufgezeichnete Daten aus einer XML-Datei aus und handhabt das korrekte Timing, alle Zugriffe auf GameObjects müssen aber über eine Queue im Haupt-Thread asynchron passieren. Abbildung 14: Virtuelle Trainingsumgebung mit Markierung für den Bewegungsbereich. Aufgrund des immersiven Charakters des neuen Einsatzgebietes war der bestehende visuelle Aufbau der VR-Trainingsumgebung nicht ausreichend. Stattdessen wurde eine einfache aber ansprechende Szene neu erstellt (siehe Abbildung 14). Diese war mit einer Skybox ausgestattet und einem Boden mit Entwickelte Visualisierungstechniken 2015 37 Gras-Textur. Als virtueller Trainingsbereich wurde ein Bereich erstellt, dessen Größe in der realen Welt 5 x 5 m entsprechen würde, und mit einer Sand-Textur versehen. Innerhalb des virtuellen Trainingsbereichs wurde außerdem ein Bereich von etwa 2,3 x 2,3 m markiert, was dem Bereich entspricht in welchem das Motion-Capture-System den Benutzer am besten erfassen kann. Auch die vorhandenen Avatare wurden ersetzt sowie der Code entsprechend adaptiert, um der Standard-Hierarchie für Unity besser zu entsprechen. Dies erlaubt es nun verschiedene neue Avatare mit relativ wenig Aufwand in die Lernumgebung zu integrieren. In diesem Fall wurde das kostenlose 3D-Modell Vincent aus dem Male Character Pack13 von Mixamo verwendet (siehe Abbildung 15). Um die Kompatibilität zur Skelettstruktur des iotracker-Systems zu garantieren, wurde die Hierarchie minimal verändert indem ein Gelenk beim Übergang zwischen Becken und Rücken namens Sacroiliac, sowie ein übergeordneter Drehpunkt Pivotpoint hinzugefügt wurde. Abbildung 15: Der Avatar Vincent mit adaptierter Skelett-Hierarchie. 13 Mixamo Male Character Pack: https://www.assetstore.unity3d.com/en/#!/content/124 Entwickelte Visualisierungstechniken 38 2015 Um die virtuellen Lernumgebung auf dem Oculus Rift DK2 HMD darstellen zu können muss der Virtual-Reality-Support in Unity aktiviert werden. Dadurch wird eine aktive virtuelle Kamera automatisch entsprechend verzerrt und stereoskopisch für ein HMD gerendert. Allerdings ist es notwendig diese Kamera in korrekte Abhängigkeit zu den Daten des Motion-Capture-Systems zu setzen. Zu diesem Zweck wird bei Verbindungsaufbau zum iotracker dem Schüler ein Avatar zugewiesen und diesem auch die Kamera zugeordnet. Diese wird aber nicht in die Hierarchie eingegliedert, stattdessen wird die Blickrichtung des Benutzers direkt vom Kopf-Tracking des HMDs übernommen. Das hat den Vorteil, dass Kopfbewegungen besonders schnell auf die aktuelle Perspektive angewendet werden und auch Verdeckungen oder Verlassen des idealen Trackingbereichs des Motion-Capture-Systems, keine Auswirkungen auf die Qualität haben. Für die Änderungen der Position des Kopfes werden hingegen die Daten des iotracker-Systems herangezogen. Dafür wird in jedem Frame die globale Position der Schädelbasis des Avatars herangezogen und auf die Kamera angewendet. Dann wird diese auf Augenhöhe und in Blickrichtung nach vorne verschoben, sodass sie schließlich genau zwischen den Augen des Avatars sitzt. Diese Kombination ergibt eine sehr realistische Kopfbewegung, da die virtuelle Kamera somit um den Nacken rotiert und nicht um sich selbst. Da die absolute Rotation des Kopfes des Avatars, wie auch des restlichen Körpers, vom iotracker bereitgestellt wird und das Tracking des HMDs nur relative Kopfbewegungen liefert, muss die Blickrichtung nach Verbindungsaufbau einmalig mit dieser globalen Rotation synchronisiert werden. Außerdem können die Daten beim relativen Kopf-Tracking des HMDs nach einer gewissen Zeit abweichen und in diesem Fall ebenfalls synchronisiert werden. Zu diesem Zweck nimmt der Benutzer bei Verbindungsaufbau oder für eine eventuelle weitere Synchronisation die T-Pose ein: Eine aufrechte Haltung, den Blick geradeaus gerichtet und beide Arme seitlich von sich gestreckt. Nun kann ein Reset des Kopf-Trackings des HMDs mittels Tastendruck ausgelöst werden. Gleichzeitig mit diesem Reset wird auch die Größe des Avatars an den aktuellen Benutzer angepasst. Dafür wurde eine Funktion implementiert welche das Verhältnis der Höhe der Pivotpoints bestimmt, zwischen den Daten des unveränderten Avatars und jenen des Benutzers, welche vom Motion-Capture- System übermittelt werden. Anhand dieses Verhältnisses wird die Größe des Entwickelte Visualisierungstechniken 2015 39 Avatars und aller Körperteile skaliert. Die Position wird anhand der Differenz der Höhe ebenfalls angepasst, und sowohl das Verhältnis als auch die Differenz zur späteren Verwendung gespeichert. Die grafische Benutzerschnittstelle (GUI) musste auch komplett neu implementiert werden, da ein herkömmliches GUI nicht auf dem HMD angezeigt werden kann. Stattdessen wurde ein Panel erstellt welches in nur 3 cm Abstand vor der virtuellen Kamera des Benutzers das gesamte Blickfeld abdeckt und sich mit der Blickrichtung synchron bewegt. Die Transparenz dieses Panels kann wie gewünscht gesetzt und beliebige GUI-Elemente, wie Text, Bilder, etc., darauf angeordnet werden. Da im Rahmen dieser Arbeit eine Vielzahl neuer Funktionen implementiert wurde, war es besonders wichtig diese miteinander bzw. mit den bereits vorhandenen abzustimmen. Um ein konsistentes Wechseln zwischen verschiedenen Modi zu garantieren, wurde die Verwaltung dieser global umgesetzt. Die implementierten Visualisierungstechniken werden in den folgenden Kapiteln erläutert. 5.2. Darstellung der optimalen Bewegung In Kapitel 4.1.1 Visuelles Lernen wurde bereits erläutert, wie wichtig das Ausbilden einer korrekten Bewegungsvorstellung für den Lernprozess ist. Zu diesem Zweck ist eine geeignete Darstellung für die Wiedergabe des optimalen Bewegungsablaufes wichtig, welche es dem Schüler ermöglicht diese optimal zu analysieren und so ein Verständnis der Bewegung zu erlangen. Als Lehrer-Avatar, welcher die optimale Bewegung vorführt, kommt das gleiche Modell zum Einsatz wie auch für den Schüler. Im Normalfall befindet sich der Lehrer leicht zurück versetzt vorne rechts neben dem Bewegungsbereich des Schülers (siehe Abbildung 16). Auf diese Weise kann Letzterer den Ablauf der optimalen Bewegung auch von vorne betrachten. Für die Wiedergabe nimmt der Lehrer-Avatar die gleiche Größe ein wie der Schüler ein. Dafür wird auf die bereits im vorigen Kapitel beschriebenen Werte des angepassten Schüler- Avatars zugegriffen. Die gleiche Größe des Lehrer-Avatars könnte förderlich für das Verständnis der Bewegung sein, da damit auch die Proportionen, Länge der Schritte, etc. übereinstimmen. In Bezug auf Kapitel 4.1.1 Visuelles Lernen könnte Entwickelte Visualisierungstechniken 40 2015 außerdem das gleiche Aussehen auf mentaler Ebene eine positive Rolle spielen, da man sozusagen bereits sich selbst bei der Durchführung des idealen Bewegungsablaufs betrachtet. Abbildung 16: Wiedergabe der idealen Bewegung in normaler Größe. Aufgrund der Größe des Lehrer-Avatars ist es allerdings nicht immer leicht, alle Aspekte eines Bewegungsablaufs zur Gänze zu erfassen. Daher wurde eine alternative Visualisierung entworfen welche nur in Virtual-Reality in dieser Form möglich ist. Dabei wird im Zentrum des Bewegungsbereichs des Schülers ein Podest mit 60 x 60 cm und einer Höhe von 1 m eingeblendet und auf diesem der Lehrer zur Wiedergabe einer Bewegung platziert (Abbildung 17). Der Lehrer- Avatar ist zu diesem Zweck auf eine Größe von etwa 70 cm verkleinert und auch Positionsänderungen, etc. dementsprechend angepasst. Auf diese Weise kann der Lernende den ganzen Bewegungsablauf im Detail von allen Seiten betrachten. Andererseits könnte der beträchtliche Größenunterschied das Umlegen der Bewegung auf sich selbst auch erschweren. Entwickelte Visualisierungstechniken 2015 41 Abbildung 17: Wiedergabe als Mini-Avatar im Zentrum des Bewegungsbereichs. Immersive Virtual-Reality bietet noch weitere Möglichkeiten welche in einer physischen Trainingsumgebung nur schwer realisierbar wären. Beispielsweise kann der Schüler in der VR-Lernumgebung auch Betrachtungswinkel einnehmen, die in der echten Welt nicht erreichbar wären, wie etwa über dem Lehrer. Außerdem lässt sich die Blickrichtung der virtuellen Kamera abhängig vom Kontext anpassen. So kann Perspektive und Position des Benutzers aktiv gesetzt werden, um damit zum gewünschten Zeitpunkt die Aufmerksamkeit auf bestimmte Teile der Bewegung zu lenken. Ebenso wäre es leicht möglich Markierungen, z.B. Pfeile, zu setzen um dem Schüler zu signalisieren: Begib dich an diese Position und sieh dir die Bewegung von dort an. Die Funktionalität zur Steuerung der Wiedergabe, etwa Start, Stopp, Pause, und der Geschwindigkeit, wie Schneller und Langsamer, und der Position des Lehrers, wurde wie in der ursprünglichen Implementierung beibehalten und entsprechend der im vorigen Kapitel beschriebenen notwendigen Anpassungen implementiert. Entwickelte Visualisierungstechniken 42 2015 5.3. Visualisierung zur Selbstwahrnehmung Nachdem der Benutzer über das HMD die virtuelle Welt, ebenso wie die physische Welt, aus einer Ich-Perspektive wahrnimmt, sieht er seinen eigenen Körper normalerweise nur wenn er direkt darauf blickt oder einzelne Körperteile in sein Sichtfeld streckt. Wie schon in 4.1.1 Visuelles Lernen beschrieben, ist es jedoch gerade zu Beginn eines Lernprozesses wichtig, die Ausführung der eigenen Bewegungen visuell zu überprüfen bzw. gegen jene des Lehrers abzugleichen. In diesem Kapitel werden nun verschiedene Alternativen entworfen und implementiert, um möglichst den gesamten Trainingsbereich, also sowohl sich selbst als auch den Lehrer, während der Bewegungsdurchführung im Blick zu behalten. 5.3.1. Einfacher Spiegel Das Problem, sich selbst bzw. den Lehrer während der Bewegungsausführung nicht sehen zu können, haben Lernende auch in der realen Welt. Die einfachste Lösung hierfür ist demnach die gleiche wie auch in vielen realen Trainingsräumen, nämlich ein Spiegel frontal an der Wand (Abbildung 18). Diese Form der Darstellung der Trainingsumgebung entspricht auch am nächsten der Umsetzung in der ursprünglichen Implementierung von MoCapGym (Vonach 2015), wo diese mit Hilfe eines Beamers an die Wand projiziert wurde. Für die Implementierung dieses einfachen Spiegels wurde in der virtuellen Szene frontal ein Panel platziert. Dessen Größe würde in der realen Welt 4,8 m Breite und 2,7 m Höhe entsprechen (ein Seitenverhältnis von 16:9) und sich vom Zentrum des Trainingsbereichs 2,5 m entfernt befinden. Eine virtuelle Kamera wurde der Szene hinzugefügt, welche von vorne aus den Trainingsbereich erfasst. Diese Ansicht wird dann auf eine spezielle Render-Textur auf dem Panel gerendert, wobei dieses noch in x-Richtung invertiert ist um damit das Verhalten eines echten Spiegels zu imitieren. Eine Lichtquelle wurde direkt vor dem Panel platziert. Um sofort intuitiv für den Benutzer verständlich zu sein, sollte die Ansicht auf dem Panel einerseits glaubwürdig einem echtem Spiegel entsprechen, aber gleichzeitig alles innerhalb des Trainingsbereichs möglichst groß darstellen. Um dieses Ergebnis zu erzielen hat sich eine Positionierung der virtuellen Kamera in einer Höhe von 1,35 m mit etwa 5,4 m Entfernung zum Zentrum vorteilhaft Entwickelte Visualisierungstechniken 2015 43 erwiesen, wobei diese durch einen schmalen FOV von nur 40° den gesamten Trainingsbereich wie durch eine Zoom-Aufnahme erfasst. Abbildung 18: Einfacher Spiegel frontal vor dem Trainingsbereich Ein klarer Vorteil dieser Visualisierungsmethode ist, dass sie sehr einfach verständlich ist und Sportlern diese ebenso aus der echten Welt bekannt ist. Daher sollte das Verständnis der gespiegelten Ansicht bzw. das Umlegen auf den eigenen Körper intuitiv und ohne großen kognitiven Aufwand möglich sein. Ein Nachteil ist, dass auch mit dem Spiegel nur an einer Stelle in der virtuellen Welt die ganze Szene sichtbar ist. Der Lernende muss also seinen Blick bzw. sich selbst immer nach vorne wenden, um die Übung zu sehen, was seine Bewegungen, besonders bei Drehungen im Bewegungsablauf, mitunter stark verfälschen kann. 5.3.2. Spiegelwände Um die Avatare und die Trainingsumgebung immer im Blick zu behalten, ohne deshalb den Kopf oder Körper übermäßig verdrehen zu müssen, kann das Prinzip auf mehrere Spiegel um den gesamten Trainingsbereich herum erweitert werden (Abbildung 19). Dies wäre zumindest theoretisch auch in der echten Welt Entwickelte Visualisierungstechniken 44 2015 vorstellbar und auch der kognitive Mehraufwand für den Schüler sollte sich in Grenzen halten. Abbildung 19: Der gesamte Trainingsbereich ist von vier Spiegelwänden umgeben Die Implementation erfolgte hier analog zum einfachen Spiegel, nur sind hier vier Panels auf alle Seiten der Trainingsumgebung verteilt. Diese sind gleich weit vom Zentrum entfernt wie der einfache Spiegel und auch gleich groß. Auch besitzt jeder Spiegel eine entsprechende virtuelle Kamera mit den gleichen Werten wie beim einfachen Spiegel. In einem weiteren Punkt entsprechen die einzelnen Spiegel nicht der Realität, diese wurden nämlich so implementiert, dass die virtuellen Kameras die jeweils anderen Panels nicht rendern, also ein Spiegel keinen anderen Spiegel wiedergibt. In der echten Welt würde hier nämlich ein Parallelspiegeleffekt auftreten, also ein endloses Wiederspiegeln, was für Verwirrung sorgen würde. Diese Darstellungsform entspricht insgesamt trotzdem noch relativ nahe der echten Welt und sollte damit auch verhältnismäßig einfach verständlich sein. Ein möglicher Nachteil ist jedoch die unterschiedliche Perspektive in jeder Richtung, Entwickelte Visualisierungstechniken 2015 45 welche jeweils ein kurzes Umdenken des Schülers erfordert. Außerdem kann es zu Verdeckungen zwischen Lehrer- und Schüler-Avatar kommen. 5.3.3. Avatare in Blickrichtung Auch vier Spiegel in allen Himmelsrichtungen erfordern ein Hinwenden zu den jeweiligen Spiegeln, wenngleich sich dieser Umstand weit weniger problematisch auswirkt, als beim einfachen Spiegel. Außerdem kann es wie eben beschrieben bei vier Spiegeln zu Verdeckungen kommen. Eine weitere implementierte Visualisierungsmöglichkeit geht daher noch einen weiteren Schritt weg von der Realität. Dabei bewegt sich ein Spiegel in Echtzeit mit der Orientierung des Schülers mit und ist somit immer in Blickrichtung (Abbildung 20). Abbildung 20: Der Spiegel bewegt sich mit der Orientierung des Schülers mit. Die Implementierung der Spiegelfläche selbst ist auch hier in Größe und Funktionsweise analog zu den bisher beschriebenen Varianten. Um das Mitbewegen mit der Orientierung des Benutzers zu realisieren besitzt der Spiegel jedoch einen Ankerpunkt im Zentrum der Trainingsumgebung. Zur Laufzeit wird nun in jedem Frame die Orientierung der Schädelbasis des Schülers zur Bestimmung des Blickvektors herangezogen und der Spiegel um diesen Wert um Entwickelte Visualisierungstechniken 46 2015 den Ankerpunkt rotiert. Der Spiegel bewegt sich somit wie auf Schienen in einer Kreisbahn um den Trainingsbereich, wobei virtuelle Kamera, Lichtquelle, etc. mit dem Panel eine Einheit bilden und sich entsprechend mitbewegen. Der Abstand zum Zentrum wurde im Vergleich zu den bisherigen Spiegeln auf 2,75 m vergrößert um zu verhindern, dass sich das Panel in den Ecken zu nahe an den Trainingsbereich annähert. Diese Art der Visualisierung bietet theoretisch unendlich viele mögliche Ansichten, wodurch sich beispielsweise auch mögliche Verdeckungen weit weniger auswirken sollten. Auch der Fakt, dass die Ansicht vom Schüler selbst immer ähnlich bleibt könnte vorteilhaft sein. Auf der anderen Seite ändert sich die Perspektive auf den Lehrer relativ stark und schnell, was wiederum kognitiv sehr fordernd sein könnte. 5.3.4. Bild-in-Bild Eine weitere Möglichkeit der Darstellung wurde implementiert, um die Trainingsumgebung immer in Blick zu haben. Diese ähnelt einem virtuellen See- Through-Display wie Google’s Glass oder einem Head-Up-Display (HUD) im Helm wie es bei Kampfpiloten zum Einsatz kommt. Dabei wird die Szene direkt im Blickfeld angezeigt, wie eine Art Bildschirm der vor dem Kopf montiert ist (Abbildung 21). Zur Implementierung dieser Visualisierungstechnik wurde eine Render-Texture direkt an das GUI angebracht und leicht nach rechts oben verschoben. Dieses befindet sich wie bereits in Kapitel 5.1 Erweiterung der bestehenden Software beschrieben, direkt im Blickfeld des Benutzers. Da dadurch ein großer Teil der Sicht des Schülers blockiert wird, wird die Ansicht mit 40 % Transparenz gerendert. Die virtuelle Kamera für diese Ansicht wurde etwa 4 m vom Zentrum entfernt in 1 m Höhe fix in der Szene platziert. Um den Platz der für diese Art der Visualisierung zur Verfügung steht optimal zu nutzen wurde ein noch schmalerer FOV von 37,5° und ein Seitenverhältnis von 4:3 gewählt, womit die beiden Avatare den vollen Bereich des virtuellen HUD zur Gänze füllen. Um keine zusätzliche Erschwernis bei der Umstellung auf diese Visualisierung zu verursachen, wurde auch diese Ansicht gespiegelt. Entwickelte Visualisierungstechniken 2015 47 Abbildung 21: Bild-in-Bild Visualisierung ähnlich einem Head-Up-Display. Diese Visualisierungstechnik wurde gewählt, da sie möglicherweise kognitiv weniger fordernd ist weil sich wie beim einfachen Spiegel die Perspektive nicht ändert. Dabei bleiben die Avatare trotzdem immer im Blickfeld, unabhängig von der jeweiligen Lage des Kopfes. Auf der anderen Seite könnte es trotz Transparenz als störend empfunden werden, da ein großer Teil der Sicht verdeckt wird. Außerdem muss sich im Gegensatz zu den übrigen Visualisierungstechniken der Szene das komplette HUD im Blickfeld platziert werden, wodurch im Verhältnis weniger Platz zur Verfügung steht. Entwickelte Visualisierungstechniken 48 2015 5.4. Fehlervisualisierung Als zusätzliche Informationsquelle für den Benutzer der Lernumgebung dienen in der vorliegenden Arbeit Unterschiede zur idealen Bewegungsabfolge. Wichtig dabei ist jedoch die richtige Präsentation dieser Daten. Aus bloßen numerischen Werten kann der Schüler nur schwer brauchbare Schlüsse ziehen, die zu einer Verbesserung der Bewegung führen. In diesem Kapitel werden drei Varianten der Fehlervisualisierung beschrieben, wobei jede unterschiedliche Aspekte hervorhebt. Die Visualisierungstechniken beschäftigen sich mit ganzheitlicher Analyse oder spezialisieren sich auf Körperteile, sowie der Präsentation in Echtzeit oder als Zusammenfassung. Zunächst wird die Erweiterung der bereits in MoCapGym zur Verfügung stehenden Visualisierungstechnik beschrieben. Im Anschluss daran wird eine Methode vorgestellt, welche die Bewegungen des Benutzers mit Hilfe mehrerer Avatare leiten soll. Als Abschluss wird eine Technik vorgestellt, welche eine Berechnung und Präsentation einer zeitabhängigen Fehlerzusammenfassung beinhaltet. 5.4.1. Feedback durch farbliche Kennzeichnung Der erste Modus zur Fehlervisualisierung basiert auf der Implementierung von (Vonach 2015). Dabei wird jeder Körperteil je nach Abweichung zur optimalen Bewegung anhand eines Fehlerintervalls zwischen 0 und 1 in einer entsprechenden Farbe dargestellt. Für die Farbgebung werden die Rot- und Grünanteile jeweils komplementär in Echtzeit gesetzt. Der Einsatz dieser Methode hat jedoch Einschränkungen, da dadurch auf den Avatar keine komplexeren Texturen appliziert werden können. Aus diesem Grund musste die vorhandene Darstellungsvariante angepasst werden. Die vorliegende Arbeit integriert einen Avatar mit einer realistischen Textur. Im Gegensatz zur Implementierung aus (Vonach 2015) verwendet die neue Variante einen einzigen Mesh-Renderer für das Erscheinungsbild des Avatars. Um auf verschiedene Körperteile dennoch individuell zuzugreifen, wurden im 3D-Modellierungsprogramm Maya einzelne Segmente des Meshes, entsprechend der Körperteile, unterschiedliche Shader zugewiesen. Dabei verweist jeder dieser Shader auf einen anderen Bereich derselben Textur. So ist es möglich in Unity 3D eine Kombination aus realer Textur und künstlicher Entwickelte Visualisierungstechniken 2015 49 Farbgebung zu erstellen, unter der Verwendung von ein und demselben Avatar. Dadurch ist es auch leichter möglich verschiedene Transparenzstufen zu setzen, um beispielsweise die Repräsentation des Benutzers in der virtuellen Welt anzupassen. Dies wird beispielsweise verwendet um den Kopf des Avatars aus dem Sichtfeld zu nehmen, sodass dieses nicht beeinflusst oder verdeckt wird. Abbildung 22: (a) MoCapGym: Avatar verwendet nur Farben mit multiplen Meshes; (b) neue Implementierung: ein Mesh mit multiplen Shadern, welche auf unterschiedliche Bereiche der Textur verweisen 5.4.2. Nachzieheffekt Damit eine Visualisierung nicht nur einen allgemeinen Fehler, sondern zusätzlich die richtige Abweichungsrichtung vermittelt, muss einiges beachtet werden. Richtungen mit einem Pfeil anzuzeigen klingt als erster Ansatz zwar logisch, ist aber vermutlich aus mehreren Gründen nicht zu Empfehlen. Einerseits werden die Pfeile durch Körperteile und durch die Perspektive des Benutzers verdeckt und so können kleine Änderungen nicht mehr wahrgenommen werden. Andererseits ist es schwer aus Pfeilen die korrekte Ausrichtung zu erkennen, vor allem wenn sich die Länge dynamisch anpasst. Auch sollte der Benutzer kognitiv nicht mit zu vielen Informationen überfordert werden. Wie schon in (Eaves et al. 2011) beschrieben, ist oft reduzierte Information in VR einfacher für den Benutzer zu verarbeiten, wobei die von ihm präsentierte punktuelle Darstellung durch die fehlende Tiefeninformation vermutlich zu wenige Schlüsse auf die richtige Pose zulässt. (a) (b) Entwickelte Visualisierungstechniken 50 2015 Aus diesen Gründen wurde das Konzept des Schatten-Avatars entwickelt. Dieser soll durch Überlagerung sowohl auf die richtige Pose hinweisen, als auch zur notwendigen Korrekturbewegung führen. Dies wir dadurch ermöglicht, dass die Position des vorführenden Avatars in Abhängigkeit des Schüler-Avatars gesetzt wird. Somit stehen beide Avatare in ihrer Ausgangsposition an derselben Stelle im globalen Koordinatensystem. Mittels einer Berechnung der Unterschiede der einzelnen Gelenke werden die Abweichungen ermittelt und im Verhältnis 1:3 geteilt. Ziel ist es, zwei weitere Avatare zwischen dem Schüler und dem Lehrer zu visualisieren, welche die Richtung vorgeben. Diese interpolierten Avatare werden durch die berechneten und gleichmäßig verteilten Abweichungen gesteuert. Der Benutzer sieht dann sowohl aus der Ich-Perspektive als auch in einer der Spiegeldarstellungen zusätzlich zum eigenen Avatar drei weitere. Je genauer die Übung durchgeführt wird, desto mehr überlagern sich die einzelnen Avatare und leichte Abweichungen bleiben sichtbar. Ein weiterer Vorteil dieser Methode ist, dass vermutlich sowohl Drehungen leichter erkannt werden, als auch die Unterscheidung zwischen links und rechts leichter fällt. Abbildung 23zeigt dabei einen Screenshot des Resultats. Abbildung 23:.Schatten-Avatar im Spiegel Entwickelte Visualisierungstechniken 2015 51 5.4.3. Kumulatives Feedback Als dritte Möglichkeit des Feedbacks wurde eine über die Zeit kumulierte Fehlervisualisierung implementiert. Diese soll es ermöglichen über die Dauer eines bestimmten Zeitfensters den Fehler aller Gelenke individuell aufzusummieren und in einer zusammenfassenden Ausgabe dem Benutzer zu präsentieren. Zur Berechnung der Fehlerwerte der einzelnen Gelenke über die Zeit werden die Unterschiede respektive die Fehler der Pose herangezogen. Dabei werden die eintreffenden Daten des Benutzers mit der aktuellen Pose des Lehrer-Avatars verglichen und die Unterschiede berechnet. Zur zeitlichen Zusammenfassung der Fehlerwerte wurden zwei Varianten implementiert. Zunächst wurden die Fehler in einer Fensterfunktion jeweils über die vergangenen 10 Sekunden der Übung als normierten Fehler zusammengefasst, abhängig von der Anzahl der eintreffenden Datensätze. So kann dem Benutzer für jedes Gelenk zu jedem Zeitpunkt ein Fehlerwert zwischen 0 und 1 gezeigt werden. Hierfür musste eine eigene Datenstruktur geschaffen werden, welche ältere Werte verwirft und neue Werte anhand des definierten Zeitintervalls hinzufügt. Bei der zweiten Variante handelt es sich um eine Zusammenfassung der Bewegung über den gesamten Zeitraum einer Übung. Dabei werden alle Abweichungen während einer vollständigen Bewegungsabfolge gesammelt und normiert. Abbildung 24: Präsentation der Fehler als kumulatives Feedback nach Abschluss eines Übungsdurchlaufs Entwickelte Visualisierungstechniken 52 2015 Die Ergebnisse der beiden Varianten werden durch 11 normierte Fehlerwerte repräsentiert. Diese müssen dem Benutzer in geeigneter Form präsentiert werden. Hierzu wird zunächst die Übung pausiert und mitten im Sichtfeld eine Visualisierung auf dem GUI (siehe Kapitel 5.1 Erweiterung der bestehenden Software) eingeblendet, welche einen Avatar in T-Pose zeigt (Abbildung 24). Die Fehlerwerte werden dabei anhand von Balken unterschiedlicher Länge an den Gelenken dargestellt. Die Länge und Farbgebung der Balken ist dabei abhängig von Fehlergrad des gemessenen Intervalls. Da die fehlerbehafteten Gelenke mit größeren Balken dargestellt werden kann der Benutzer innerhalb kürzester Zeit die Problemstellen identifizieren und sich in Folge auf diese Gelenke stärker konzentrieren. Interaktionstechniken 2015 53 6. Interaktionstechniken Im folgenden Kapitel werden Interaktionstechniken beschrieben, welche für das vorliegende Szenario herangezogen werden. Aufgrund des speziellen Setups (beschrieben in Kapitel 4.2 Setup) können keine konventionellen Eingabemöglichkeiten wie Tastatur oder Maus herangezogen werden. Die Anforderungen an geeignete Techniken sind vielfältig und wurden im Kapitel 4.2.4 Interaktionsmöglichkeiten für VR-Umgebungen bereits ausführlich diskutiert. Die daraus resultierenden Schlüsse und das Design der Lernumgebung bzw. der Visualisierungsvarianten führten zur Auswahl der Interaktionstechniken. Im nun folgenden Abschnitt werden die Integration von Sprachsteuerung, Gestensteuerung und eines über Bluetooth verbundenen Gamecontrollers genauer beschrieben. 6.1. Gamecontroller Als erste Variante der Steuerung wurde der Gamecontroller der Spielekonsole Wii herangezogen (siehe Abbildung 25). Dieser kann mittels Bluetooth mit dem PC verbunden werden und verfügt über 12 Tasten. Der Vorteil dieses Controllers besteht darin, dass er sich mit einer Hand bedienen lässt und über eine ausreichende Reichweite von ca. 10 m verfügt. Für die Bedienung der Lernumgebung wurden vier Tasten herangezogen. Die Home-Taste für das Wechseln der verschiedenen Wiedergabevarianten, Taste A für die Visualisierungsvarianten der Trainingsumgebung, Taste B für die Feedbackmodi, und die Taste 1 für die Kalibrierung. Der Benutzer muss sich die Zuordnung der Tasten zu den Funktionen aneignen, da keine intuitive Zuordnung möglich ist. Da der Gamecontroller für eine Spielekonsole entwickelt wurde, war es für die Integration in die Lernumgebung notwendig, diesen über einen Eingabeemulator anzusteuern. Hierfür wurde der frei zur Verfügung stehende Emulator GlovePIE14 in der Version 0.42 herangezogen. Diese Software ermöglicht es durch eine Skriptsprache bestimmte Eingabewerte auf beliebige Funktionen abzubilden. 14 GlovePie: http://glovepie.org/ Interaktionstechniken 54 2015 Abbildung 26 zeigt das erstellte Skript welches für diese Eingabevariante angelegt wurde. Abbildung 25: Wiimote Controller Abbildung 26: GlovePIE Skript für Wiimote Controller 6.2. Sprachsteuerung Als weitere Möglichkeit der Steuerung der VR-Anwendung wird eine Sprachsteuerung evaluiert. Diese bietet viele Freiheiten. Der Befehlssatz kann beliebig erweitert werden, es ist gleichsam ergonomisch und leicht und schränkt die Bewegungsfreiheit in keiner Weise ein. Ein Auslösen der Befehle in Echtzeit ist jedoch nur bedingt gegeben, da die Verarbeitung von Sprache bedingt durch die Komplexität einige Millisekunden in Anspruch nehmen kann. Zur Verwendung einer Spracheingabe sind drei Komponenten nötig: ein Mikrophon, eine Sprach- Engine und ein Emulator. Interaktionstechniken 2015 55 Abbildung 27: AKG Funkmikrophon Die Aufnahme der Stimme des Benutzers erfolgt im vorliegenden Setup über das Funkmikrophon-System AKG SR 40 (siehe Abbildung 27), welches es durch eine Basisstation und einen mobilen Sender ermöglicht, das Mikrophon beliebig im Raum zu platzieren. Durch die Basisstation ist es möglich das eintreffende Signal zu verstärken, um größere Distanzen zu überbrücken. Das eintreffende Audiosignal wird durch die Spracherkennungs-Engine von Microsoft Windows 7 analysiert. Dabei ist es notwendig das Mikrophon einmalig durch eine standardisierte Kalibrierung einzurichten. Zur Definition der Auslöser- Worte wurde die Software GlovePIE15 verwendet. Diese bildet jede definierte Phrase auf einen bestimmten Ausgabewert ab. Um eine Verwechslung zu vermeiden, wurden die Befehle aus zumindest zwei Silben zusammengestellt. Aufgrund der verwendeten Plattform wurden Wörter aus dem englischen Sprachschatz gewählt (siehe Abbildung 28). Zur Steuerung wurden folgende Befehle herangezogen: change view; play mode, other feedback und calibrate me. Darüber hinaus ermöglicht der Befehl Microphone.Said(String, int) nicht nur die Definition der Phrase, sondern bietet auch die Möglichkeit eine Konfidenzstufe zu definieren. Um ein möglichst fehlerfreies Arbeiten zu ermöglichen wurde die Stufe 5 von 6 möglichen gewählt. Dabei ist es notwendig die gesamte Phrase deutlich zu sprechen um einen Effekt zu erzielen. 15 GlovePIE Microphone.Said: http://glovepie.org/w/index.php?title=Preliminary_Documentation_v0.43#Speech Interaktionstechniken 56 2015 Abbildung 28: GlovePIE Skript für Sprachsteuerung 6.3. Gestensteuerung Die dritte Interaktionstechnik basiert auf Gestensteuerung. Dies ermöglicht es dem Benutzer durch bestimmte Bewegungsmuster, bestimmte Funktionen in der Anwendung auszulösen. Der Vorteil dieser Eingabemöglichkeit liegt darin, dass Befehle schlüssig je nach Funktionalität gestaltet werden können und des Weiteren keine zusätzlichen Geräte am Körper angebracht werden müssen. Aufgrund mehrmaliger Wiederholungen könnte es jedoch zu Ermüdungserscheinungen kommen oder bestimmte Bewegungen könnten den Übungsablauf beeinflussen. Da nicht jedes VR-Setup über einen teures Motion- Tracking-System verfügt wurde für die Umsetzung eine vom Tracking-System unabhängige Technologie verwendet. Dies ermöglicht es, die Ergebnisse der Benutzerstudie auch auf andere Projekte zu reflektieren. Abbildung 29: Tiefensensor Kinect für Gestensteuerung Für die Erkennung der Gesten wurde ein Tiefensensor verwendet. Die Microsoft Kinect (siehe Abbildung 29) ermöglicht es in einem Bereich von bis zu fünf Metern Tiefendaten zu ermitteln. Dies entspricht etwa der Bewegungsfreiheit im vorgestellten Motion-Tracking-Setup. Um die Tiefendaten zu verarbeiten wird auf die Applikation FAAST von Suma et al. (Suma et al. 2012) zurückgegriffen (siehe Abbildung 30). Dabei handelt es sich um eine sogenannte Middleware welche Interaktionstechniken 2015 57 eine Ganzkörpersteuerung für VR-Applikationen ermöglicht. Sie baut dabei auf die Implementierung der Microsoft Kinect Skelett-Tracking-Software auf. Abbildung 30: FAAST zeigt ein Tiefenbild mit erkannter Person und eingeblendetem Skelett Für die Umsetzung der konkreten vier Befehle wurde darauf geachtet, dass die ausgelöste Funktion auch inhaltlich zur Geste zuzuordnen ist. Um nicht versehentlich während der Übung eine Aktion auszulösen, muss der Benutzer jeden der Befehle zwei Mal innerhalb von einer Sekunde durchführen. Für das Wechseln des Wiedergabemodus muss die rechte Hand über den Kopf gestreckt und wieder angezogen werden. Für das Durchschalten der verschiedenen Spiegel muss mit der rechten Hand geradeaus nach vorne gezeigt und die Hand danach wieder zum Körper geführt werden. Der Feedbackmodus verlangt es die linke Hand kurz über den Kopf zu strecken und wieder zurückzuziehen. Um eine Kalibrierung durchzuführen muss mit beiden Händen auf den Kopf gezeigt werden und danach die T-Pose eingenommen werden. Evaluierung 58 2015 7. Evaluierung Um eine Aussage über die Zweckmäßigkeit der in dieser Arbeit entwickelten Visualisierungs- und Interaktionstechniken treffen zu können, wurde eine Benutzerstudie durchgeführt. Der Entwurf dieser Studie, die geplante Prozedur und das eingesetzte Setup werden in diesem Kapitel dargelegt. Im Anschluss werden auch die gemachten Beobachtungen und die Auswertung der Resultate im Detail präsentiert. 7.1. Studiendesign Der Schwerpunkt der vorliegenden Arbeit liegt auf dem Entwurf und der Entwicklung neuer Visualisierungs- und Interaktionstechniken, speziell auf die Anforderungen sportmotorischen Lernens in Zusammenhang mit einer voll- immersiven VR-Lernumgebung abgestimmt. Um diese zu evaluieren wurde eine Studie durchgeführt in welcher eine Reihe an Benutzern eine komplexe Bewegung, nur mit Hilfe der entwickelten Techniken, mittels HMD einstudieren sollte. 7.1.1. Setup In Abbildung 31 ist eine Skizze der Studienumgebung dargestellt. Wie schon in Kapitel 4.2.1 Tracking Technologiegrundlagen beschrieben kam ein iotracker- System mit 8 Kameras für das Tracking der Bewegungen des Benutzers zum Einsatz (Abbildung 31a). Daraus ergibt sich ein Bereich von etwa 4 m x 4 m und 3 m Höhe in der Mitte des Raumes in welchem die Bewegungen eines Studienteilnehmers registriert werden konnten (Abbildung 31b). Eine entsprechende Markierung ist auch in der virtuellen Welt für den Betrachter ersichtlich (siehe Kapitel 5.1 Erweiterung der bestehenden Software). Um Körperbewegungen aufzeichnen zu können wurde ein passiver Motion-Suit (Kapitel 4.2.1 Tracking Technologiegrundlagen) angezogen. Die virtuelle Umgebung wurde für den Teilnehmer auf einem Oculus Rift DK2 HMD (Abbildung 31c) dargestellt, wie in Kapitel 4.2.3 Analyse von HMDs als Ausgabegerät dargelegt, wobei die gesamte visuelle Ausgabe während eines Testdurchlaufs zur späteren Analyse aufgezeichnet wurde. Evaluierung 2015 59 Abbildung 31: Skizze der Studienumgebung: (a) iotracker-Kamera, (b) erfassbarer Trackingbereich, (c) Oculus Rift DK2 HMD, (d) Videokamera, (e) PC und Position für die direkte Beobachtung, (f) Mikrophon für Sprachbefehle, (g) Kinect für Gestensteuerung und (h) Sitzmöglichkeit für Studienteilnehmer. Wie unten näher erläutert, wurden dem Teilnehmer die verfügbaren Visualisierungsmöglichkeiten nach und nach gezeigt, er konnte jedoch jederzeit frei zwischen allen Möglichkeiten wechseln. Dabei wurde die Zeit die in jedem Modus verbracht wurde getrennt aufsummiert, um später auf diese Weise Präferenzen ableiten zu können. Ebenso wurde der Test zum einen mit einer Videokamera aufgenommen, welche auf einem Tisch platziert wurde (Abbildung 31d), als auch vom Autor direkt beobachtet, wobei dieser besondere Vorkommnisse notierte. Der Autor befand sich dafür an einem Tisch im Raum an einem PC (Abbildung 31e) von welchem aus das Experiment kontrolliert werden konnte. Sowohl der Server des Tracking-Systems, als auch die VR- Lernumgebung und alle notwendigen Tools für die Interaktionstechniken (siehe Kapitel 6 Interaktionstechniken) liefen auf demselben Computer. Dieser ist mit einem Intel Core i7 X 980 Prozessor mit 3,33 GHz, 12 GB Arbeitsspeicher und einer NVIDIA GeForce GTX 690 Multi-GPU-Grafikkarte ausgestattet. Als Betriebssystem kam Microsoft Windows 7 zum Einsatz. Um eine bestmögliche Soundqualität für die Sprachsteuerung zu gewährleisten, wurde ein Funk- Mikrophon zentral in Kniehöhe an der Wand befestigt (Abbildung 31f). Am Rand Evaluierung 60 2015 des Trackingbereichs wurde eine Microsoft Kinect für Xbox so platziert, dass dieser für die Gestensteuerung komplett erfasst werden konnte (Abbildung 31g). Der Wii Remote Gamecontroller wurde mittels Bluetooth mit dem PC verbunden und bereit gelegt. Eine zusätzliche Sitzmöglichkeit stand den Studienteilnehmern zur Verfügung um dort sowohl den Fragebogen (siehe unten) ausfüllen zu können als auch für eine eventuelle Pause zu nutzen (Abbildung 31h). 7.1.2. Bewegungsablauf Der Bewegungsablauf welcher im Rahmen der Studie gelernt werden soll basiert auf einer sogenannten Form oder Poomsae aus der Kontaktsportart Taekwondo. Dabei handelt es sich um festgelegte Bewegungsabfolgen bestimmter Schlag- und Blocktechniken, wobei ein hoher Wert auf Präzision und Timing gelegt wird (Pottle 2013). Um das Erlernen in der verhältnismäßig kurzen Zeitspanne innerhalb eines Testdurchlaufs zu ermöglichen wurde für die Studie die erste und einfachste Poomsae Taeguek Il Jang herangezogen und auf die ersten 10 von insgesamt 16 Schritten beschränkt. Diese wurden mit einem Sportler mit grünem Gürtel (8. Kup) in Taekwondo vorab aufgezeichnet. Die einzelnen Schritte ergeben eine bestimmte Abfolge aus 90° oder 180° Drehungen jeweils gefolgt von einer Blocktechnik mit einem Arm, oder einer Schritt- und Schlagkombination (siehe Abbildung 32). Dabei wiederholen sich ähnliche Muster auch mehrmals. Abbildung 32: Einige Schritte des Bewegungsablaufs: (a) niederer Block mit rechtem Arm, (b) Schritt vorwärts mit Schlag, (c) mittlerer Block mit rechtem Arm (a) (b) (c) Evaluierung 2015 61 Da diese Formen üblicherweise relativ zügig durchgeführt werden, wird die Bewegungsabfolge für die Studie nur mit 2/3 der tatsächlichen Geschwindigkeit wiedergegeben, um den fehlenden Vorkenntnissen der Teilnehmer entgegenzukommen. Dieser Bewegungsablauf wurde für die Studie ausgewählt, weil er eine gewisse Komplexität aufweist: Besonders aufgrund der zahlreichen Drehungen ist er im Selbststudium auf herkömmlichen Weg, beispielsweise mittels Bildfolgen, 2D-Animationen oder Videos, nicht leicht zu erlernen. Deshalb könnten sich hier Vor- als auch Nachteile einer HMD-basierten VR-Lernumgebung besonders klar zeigen. 7.1.3. Fragebogen Es sei hier noch einmal betont, dass nicht der Lernerfolg im Fokus der Untersuchung steht. Ein einzelner Testdurchlauf wäre zu wenig Zeit um eine solche Bewegung ohne jede Vorkenntnisse wirksam zu lernen. Zu diesem Zweck müssten mehrere aufeinanderfolgende Sitzungen erfolgen, was den Rahmen dieser Arbeit sprengen würde. Vielmehr soll erforscht werden, inwieweit die verschiedenen entwickelten Visualisierungs- und Interaktionstechniken durch die Studienteilnehmer als Unterstützung empfunden werden, um auf diesem Weg eine Vorstellung der Bewegungsabfolge ausbilden zu können. Da dies sehr auf subjektiven Eindrücken der Teilnehmer beruht, wurde ein umfangreicher Fragebogen erstellt, um diese zu erfassen. Dieser wurde in Anhang 10 Appendix – Fragebogen dieser Arbeit beigefügt und beinhaltet eingangs eine kurze Beschreibung der Studie, sowie eine Einverständniserklärung zur Verwendung der Foto- und Videoaufzeichnung. Mit dieser Erklärung bestätigte der Studienteilnehmer auch, dass die gesammelten Daten anonymisiert ausgewertet werden dürfen und keine besonderen gesundheitlichen Probleme vorlagen. Auf der ersten Seite befanden sich auch allgemeine Fragen betreffend Alter, Geschlecht, Körpergröße und Vorerfahrung mit VR-Systemen, sowie eine Selbsteinschätzung zur Sportlichkeit des Teilnehmers. Die zwei darauffolgenden Seiten entsprachen dem Simulator Sickness Questionnaire (SSQ) von Kennedy et al. (Kennedy et al. 1993). Dabei handelt es sich um eine Liste von 16 Symptomen die oft während oder nach einer VR- Simulation auftreten können. Die Studienteilnehmer gaben dazu jeweils vor und Evaluierung 62 2015 nach der VR-Erfahrung an, wie sehr jedes Symptom in diesem Moment auf ihn zutraf von None (Leicht) bis Severe (Stark). Daraus ergibt sich eine Bewertung für verschiedene Aspekte und der Stärke des Auftretens von Simulator Sickness bzw. Cybersickness. Da einige der Begriffe für Personen mit anderer Muttersprache als Englisch möglicherweise nicht eindeutig verständlich sein könnten, wurde vom Autor jeweils zusätzlich zum originalen Wortlaut eine deutsche Übersetzung hinzugefügt. Um verschiedene mögliche Einflussfaktoren auf spätere Antworten einschätzen zu können, wurden nach Besuch der VR-Lernumgebung einige Fragen zur subjektiven Erfahrung gestellt. Ein wichtiger Faktor in diesem Zusammenhang ist Immersion bzw. Presence. Wie Slater (Slater 1999) ausführt, bezeichnet Immersion in welchem Ausmaß es das System ermöglicht, den Benutzer komplett mit der virtuellen Welt zu umgeben, während sich Presence auf das Gefühl bezieht, sich tatsächlich dort an diesem virtuellen Ort zu befinden und nicht mehr in der tatsächlichen physischen Umgebung. Um diese Faktoren zu erfassen wurde, basierend auf den Erläuterungen von Usoh et al. (Usoh et al. 2000), beispielsweise gefragt, ob die Studienteilnehmer das Gefühl hatten sich frei in dieser virtuellen Welt bewegen zu können und sich dort zu befinden. Außerdem wurde erfragt ob die Bewegung bereits vertraut war bzw. ob der Teilnehmer glaubte diese aus dem Gedächtnis wiedergeben zu können. All diese Fragen konnten anhand einer Likert-Skala (Likert 1932) mit 5 Items, also Auswahlmöglichkeiten, beantwortet werden, wobei jeweils ganz links einer sehr positiven oder starken und rechts einer sehr negativen oder schwachen Aussage entsprach. Im Anschluss wurde die persönliche Vorliebe aller visuellen Darstellungsformen abgefragt, gruppiert nach Wiedergabe (Lehrer neben der Übungszone oder auf dem Podest), Visualisierung der Trainingsumgebung und der Avatare (Spiegel vorne, rundherum, mit bewegend oder als Head-Up-Display) und Feedback (Farben, Schatten-Avatar oder Zusammenfassung). Wieder stand zur Beantwortung eine Likert-Skala mit 5 Items von sehr gut bis sehr schlecht zur Verfügung. Zusätzlich konnten in einem freien Feld zu jeder Visualisierungstechnik Anmerkungen notiert werden, um auf diese Weise auch unerwartete Informationen oder nähere Erläuterungen zu einer Wahl äußern zu können. Zwei offene Fragen erlaubten es dem Teilnehmer darauf einzugehen, Evaluierung 2015 63 ob eine bestimmte Kombination als besonders hilfreich empfunden wurde, oder er sich eine andere, hilfreichere Darstellung vorstellen könnte. In Zusammenhang mit der Interaktionstechnik wurde erfragt, inwiefern man mit dieser gezielt Funktionen auswählen konnte oder ob diese als hinderlich empfunden wurde. Beantwortet wurden die Fragen ebenso wie die zur Visualisierungstechnik mittels Likert-Skala und freier Anmerkung. Auch konnte der Teilnehmer angeben, ob er eine andere Interaktionstechnik vorziehen würde. Abschließend wurde noch in offenen Fragen die drei positivsten und drei negativsten Ereignisse erfragt, eine Methode basierend auf der Critical Incident Technique (CIT) (Flanagan 1954), die es auf diese Weise ermöglicht unerwartete, kritische Probleme der VR-Anwendung zu identifizieren. Außerdem stand ein Feld für freie Anmerkungen, Kritik, etc. zur Verfügung. 7.2. Studienablauf Um eine Konstanz der einzelnen Testdurchläufe sicherzustellen, wurde der genaue Ablauf detailliert geplant und schriftlich festgehalten. Anhand dieser Vorlage führte der Autor alle Teilnehmer durch die Studie. Noch bevor die Testperson den Raum betrat, traf der Autor notwendige Vorbereitungen wie sicherzustellen, dass alle Systemkomponenten in der richtigen Reihenfolge aktiviert wurden und ein Getränk bereit stand. Anschließend wurde der Studienteilnehmer hereingebeten. Diesem wurde für die Bereitschaft zur Teilnahme gedankt und kurz Ziel und Ablauf der Untersuchung näher gebracht. Dabei wurde noch einmal explizit auf die Verwendung der Foto- und Videoaufnahmen hingewiesen und betont, dass die Studie jederzeit abgebrochen werden konnte, sollten Schwindel, Übelkeit oder ähnliche Symptome auftreten. Daraufhin wurde der Teilnehmer eingeladen auf dem Sessel Platz zu nehmen und den Teil des Fragebogens mit der Einverständniserklärung, allgemeinen Fragen und dem Pre-SSQ auszufüllen (siehe Kapitel 7.1.3 Fragebogen). Danach setzte der Benutzer das HMD auf und der Autor erklärte den Ablauf der Kalibrierung zur Bestimmung des IPD (siehe Kapitel 4.2.3 Analyse von HMDs als Ausgabegerät), welche im Anschluss durchgeführt wurde. Dafür wurde eine Linie mit beiden Augen solange verfolgt bis sie nach links bzw. rechts aus dem Evaluierung 64 2015 Blickfeld verschwand und dieser Vorgang je Auge und Seite durchgeführt. Als nächstes wurde die Testperson gebeten, das HMD abzusetzen und den Motion- Suit anzulegen. Währenddessen wählte der Autor eine Interaktionstechnik für den Testdurchlauf und traf letzte notwendige Vorbereitungen. Sobald der Studienteilnehmer bereit war, wurde die Kalibrierung des Motion-Suit durchgeführt (siehe Kapitel 4.2.1 Tracking Technologiegrundlagen). Sicherheitshalber wurde die notwendige Kalibrierungsbewegung gleich zweimal durchgeführt, um zu garantieren, dass eine davon erfolgreich ist. Der gesamte Prozess bis zu diesem Zeitpunkt dauerte im Normalfall etwa 10 bis 20 Minuten. Nun wurden die Video- und Bildschirmaufzeichnung sowie die VR- Lernumgebung gestartet. Der Benutzer durfte das HMD wieder aufsetzen und um die Verbindung zum Tracking-System aufzubauen und die Größe des Avatars an den Benutzer anzupassen, wurde dieser gebeten kurz die T-Pose einzunehmen. Nun durfte sich der Teilnehmer frei in der Szene bewegen, um sich an seinen Avatar und die Umgebung zu gewöhnen. Nach zwei Minuten wurden die beiden Visualisierungsmöglichkeiten zur Wiedergabe vorgestellt (siehe Kapitel 5.2 Darstellung der optimalen Bewegung), also der Lehrer-Avatar neben der Zone für den Schüler und die Wiedergabe auf dem Podest. Zu diesem Zweck zeigte der Autor beide Modi kurz vor, deaktivierte dann beide wieder und erklärte dann wie der Benutzer diese aktivieren konnte. Um die Teilnehmer nicht zu überfordern, wurden die Steuerungsmöglichkeiten im Rahmen der Studie stark eingeschränkt. Je nach ausgewählter Interaktionstechnik konnte dieser auf die nächste Wiedergabeform schalten indem entweder die Taste Home auf dem Gamecontroller betätigt wurde, als Geste die rechte Hand kurz hintereinander zweimal über den Kopf gestreckt wurde oder im Falle der Sprachsteuerung die Worte Start Play gesprochen wurden. Da alle Menschen unterschiedlich lernen, wurde für das Experimentieren mit den verschiedenen Darstellungsformen keine maximale Zeit festgelegt. Stattdessen achtete der Autor in diesem Fall auf erste, ernsthafte Versuche des Teilnehmers, die Bewegung nachzuahmen, woraufhin der nächste Schritt der Studie eingeleitet wurde. Üblicherweise war dies jeweils nach ungefähr 10 Minuten der Fall. Evaluierung 2015 65 In der nächsten Phase der Untersuchung wurde dem Teilnehmer die verschiedenen Möglichkeiten der Visualisierung der Trainingsumgebung und der Avatare (siehe Kapitel 5.3 Visualisierung zur Selbstwahrnehmung) kurz vorgeführt, also der einfache Spiegel frontal, Spiegel rundherum, der mitbewegende Spiegel sowie die Spiegelansicht im Head-Up-Display, und wieder deaktiviert. Dem Teilnehmer wurde je nach Interaktionsform erklärt, dass er diese Darstellungsformen mit der Taste A auf dem Gamecontroller, als Geste durch zweimal kurz hintereinander mit der gestreckten rechten Hand nach vorne zeigen bzw. per Sprache mit den Worten Change View wechseln konnte. Im Zuge dessen wurde auch noch einmal darauf hingewiesen, dass die Modi jederzeit frei gewechselt werden durften. Um die nächste Phase einzuleiten wartete der Autor auf erste Ansätze von Korrektheit bzw. richtiger Abfolge der Bewegungen. Nun wurde dem Teilnehmer, ähnlich wie zuvor, die Möglichkeiten zur Fehlervisualisierung gezeigt (siehe Kapitel 5.4 Fehlervisualisierung), also die gefärbten Körperteile, der Lehrer- Avatar mit interpoliertem Schatten und das zusammenfassende Feedback. Diese konnten mittels Gamecontroller mit der Taste B, mit der Geste linke Hand zweimal über den Kopf strecken oder mit den Worten Other Feedback gewechselt werden. Wenn der Bewegungsablauf annähernd richtig ausgeführt wurde oder der Teilnehmer merklich weniger mit den Darstellungsformen experimentierte, wurde die Übung beendet und der Studienteilnehmer durfte die Ausrüstung ablegen. Zu diesem Zeitpunkt wurde er gefragt, ob er die erlernte Bewegung auch außerhalb der VR-Umgebung vorführen mochte. Insgesamt wurden etwa 30 bis 40 Minuten in der virtuellen Welt verbracht. Die Videoaufzeichnung wurde nun beendet und dem Teilnehmer eine kurze Pause angeboten. Danach wurde er gebeten, den zweiten Teil des Fragebogens zu beantworten. Abschließend wurde allen Teilnehmern noch einmal ausdrücklich gedankt und jeder erhielt eine kleine, süße Belohnung. Ein gesamter Studiendurchlauf dauerte je nach Teilnehmer zwischen 1 und 1,5 Stunden. Evaluierung 66 2015 7.3. Resultate In der durchgeführten Benutzerstudie wurden 9 Teilnehmer durch den im vorigen Abschnitte beschriebenen Testablauf geführt. Dabei waren zwei weibliche und sieben männliche Personen zwischen 19 und 34 Jahren beteiligt. Die Hälfte der Teilnehmer gab an keinerlei Erfahrung mit Virtual-Reality-Anwendungen zu haben. Darüber hinaus bezeichneten sich die Teilnehmer ausschließlich als durchschnittlich sportlich. Im Schnitt dauerte ein Test 72 Minuten, gemessen ab dem Zeitpunkt der einführenden Erklärung bis zur Fertigstellung des Fragebogens. Bei zwei Personen verlängerte sich die Dauer überdurchschnittlich um ca. 30 Minuten, aufgrund von Kalibrierungsproblemen des Skeletts. Im Zuge der Benutzerstudie mussten die Teilnehmer den standardisierten SSQ Fragenbogen von Kennedy et al. (Kennedy et al. 1993) vor bzw. nach dem virtuellen Erlebnis ausfüllen, anhand des momentanen Zustands bestimmter körperlicher Symptome. Die Berechnungen basierend auf Kennedy et al. ergaben, dass sich die Symptome von sechs Personen nicht verschlechtert haben und zum großen Teil sogar eine Verbesserung eingetreten ist (siehe Tabelle 2). Die Berechnung des Medians der Unterschiede zwischen dem Zustand vor und nach der virtuellen Erfahrung zeigt, dass mit einem Wert von - 37,4 gesamt gesehen eine deutliche Verbesserung bei einer Mehrzahl der Beteiligten eingetreten ist. Die zwei Personen mit Kalibrierungsproblemen ergaben zwei Ausreißer mit einem Wert von über +200, wobei der Wert nicht hoch genug war um die Benutzerstudie abbrechen zu müssen. #  TOTAL pre  SSQ  TOTAL post  SSQ  TOTAL DIFF 1  108,7592 71,3592 ‐37,4 2  56,6984 317,2268 260,5284 3  160,82 87,7404 ‐73,0796 4  144,4388 71,3592 ‐73,0796 5  352,9064 99,7084 ‐253,198 6  80,41 376,618 296,208 7  151,7692 64,0288 ‐87,7404 8  28,3492 35,6796 7,3304 9  193,8068 193,8068 0 Tabelle 2: Ergebnisse des SSQ Evaluierung 2015 67 Diese Ergebnisse des SSQ sind in der vorliegenden Benutzerstudie jedoch mit Vorsicht zu betrachten aufgrund der Tatsache, dass der Faktor Sweating (Schwitzen) in die Berechnung einfließt. Dies verzerrt das Ergebnis leicht, da davon ausgegangen werden kann, dass die Benutzer unabhängig von der virtuellen Erfahrung alleine aufgrund der Durchführung der Bewegung zu schwitzen begannen. Daraus lässt sich schließen, dass sich noch mehr Teilnehmer nach der Übung in einem besseren Zustand befanden als vor dem Test. Einige der Benutzer erwähnten auch nach dem Test verbal, ohne Aufforderung, dass es ihnen nun körperlich besser ging als zuvor. Bezüglich der Presence gaben die Benutzer überwiegend an, sich frei in der Umgebung bewegen zu können, empfanden es ebenso als angenehme Erfahrung und fühlten sich in der virtuellen Welt auch präsent (siehe Abbildung 33). Darüber hinaus war der Mehrheit der Studienteilnehmer während der Übung die reale Umgebung wenig bis nicht bewusst. Daraus lässt sich schließen, dass die sogenannte Presence (siehe Kapitel 7.1.3 Fragebogen) sehr hoch einzuschätzen ist, was unter anderem bedeutet, dass keine äußerlichen Einflüsse das Ergebnis verzerren. Abbildung 33: Presence - Ergebnisse Evaluierung 68 2015 In Bezug auf die konkret vorgezeigte Übung aus Taekwondo gaben die Studienteilnehmer an, dass niemand mit der Übungsabfolge vertraut war, bzw. eine überwiegende Mehrheit die Bewegungsabfolge als sehr komplex einschätzte (siehe Abbildung 34). Dies bedeutet, dass alle Teilnehmer mit den gleichen Vorrausetzungen in Bezug auf den Lernfortschritt in den Test eingestiegen sind. Abbildung 34: Ergebnisse in Bezug auf die Bewegungsabfolge Visualisierungstechniken Die ersten Visualisierungstechniken für das Vorführen der Bewegungsabfolge wurden von den Probanden unterschiedlich bewertet. Der vorführende Avatar neben dem Benutzer in Lebensgröße wurde nur von einer Person eher negativ beurteilt. Die überwiegende Mehrheit von sechs Personen bewertete diese Technik als gut bis sehr gut. Drei der Nutzer erwähnten, dass sie eine andere Position des Lehrer-Avatars bevorzugen würden, wobei keine eindeutige Position aus den Antworten herauszulesen ist. Darüber hinaus wurde durch mehrere Anmerkungen klar, dass diese Art der Visualisierungsmethode bei Drehungen im Bewegungsablauf schlecht geeignet ist. Die Variante des verkleinerten Avatars auf dem Podest wurde von der Mehrheit als schlecht bis sehr schlecht eingestuft, jedoch von einigen auch gut und sehr gut. Die Anmerkungen lassen darauf schließen, dass etwas zu wenig Platz im Evaluierung 2015 69 Trackingvolumen zur Verfügung stand, um den Avatar ganz beobachten zu können. Abbildung 35: Benutzereinschätzung der Wiedergabemöglichkeiten Die erweiterten Möglichkeiten der Visualisierungen zur Selbstwahrnehmung wurden von den Studienteilnehmern teilweise sehr gut angenommen (siehe Abbildung 36). Dabei zeigt sich, dass der Frontalspiegel, obwohl er nur wenig mehr Informationen liefert, im Vergleich zu den anderen Varianten nur von einer Person eher schlecht bewertet wurde. Ein leicht besseres Ergebnis erhält die Variante der Spiegelwände, und ist somit die am besten bewertete Technik. Fünf von neun Probanden vergaben dabei ein sehr gut. Was auch die Messung der Zeiten bestätigt, da sieben von neun Personen die meiste Zeit in diesem Modus verbracht haben. Als Anmerkung von zwei Personen wurde erwähnt, dass sie mit der Koordination Schwierigkeiten hatten. Die Variante des sich mitbewegenden Spiegels ergab ein eindeutig negatives Ergebnis und scheint daher für den Anwendungsfall nicht brauchbar zu sein. Nicht nur die Bewertung, sondern auch die Messung der Zeiten zeigte, dass die Nutzer mit dieser Darstellung nicht zurechtkamen. Ein Großteil der Tester befand sich nur rund eine Minute in diesem Modus. Aus den Anmerkungen scheint der Evaluierung 70 2015 Grund dafür in Koordinationsproblemen und beim Verfolgen bei schnellen Bewegungen zu liegen. Über die Visualisierungsvariante im HUD lässt sich keine eindeutige Tendenz feststellen, da die Bewertungen sehr gleichmäßig über den gesamten Bereich verteilt sind. Abbildung 36: Benutzereinschätzung der Visualisierungen zur Selbstwahrnehmung Die Benutzereinschätzungen betreffend der Fehlervisualisierung (siehe Abbildung 37) ergaben durchaus ein positives Feedback. Hervorzuheben ist die Beurteilung des zusammenfassenden Feedbacks, da hier alle Teilnehmer mindestens eine gute Bewertung abgegeben haben. Die farbliche Kennzeichnung des Fehlers wurde ebenfalls im Schnitt mit gut bewertet, obwohl zwei Personen diese als verwirrend beschrieben. Über die Variante des Schatten-Avatars kann nur schwer eine Präferenz erkannt werden, da sich die Ergebnisse über die gesamte Skala recht gleichmäßig verteilen. Es gab jedoch eine Anzahl an drei Personen, welche diese Art des Feedbacks als sehr gut empfanden. Anmerkungen bezogen sich hierbei auf eine notwendige Eingewöhnungszeit und einem Problem bei der virtuellen Kamera, wobei ein Teilnehmer ein auftretendes clipping als störend empfand. Evaluierung 2015 71 Bei den Anmerkungen wird bei allen Fehlervisualisierungen erwähnt, dass diese zu einem späteren Zeitpunkt, bei bessere Beherrschung der Übung, nützlicher wären. Abbildung 37: Benutzereinschätzung der Fehlervisualisierungen Im Zuge der Studie wurden die Probanden gebeten die bevorzugte Kombination der zur Verfügung stehenden Varianten zu notieren. Hieraus geht eindeutig hervor, dass die Variante der umgebenden Spiegelwände in Zusammenhang mit Farbe oder Schatten bevorzugt wurde. Interaktionstechniken Abbildung 38 und Abbildung 39 zeigen das Ergebnis der Evaluierung in Bezug auf die Interaktionstechniken, wobei nur Benutzer der jeweiligen Interaktion diese auch bewertet haben. Aus Abbildung 38 ist ersichtlich, dass alle zur Auswahl stehenden Möglichkeiten für die Teilnehmer sehr gezielt verwendet werden konnten. Besonders eindeutig ist die Steuerung mit den Controller hervorzuheben, da alle beteiligten Personen den höchst möglichen Wert gewählt haben. Gemäß der Frage, ob die Interaktionstechnik hinderlich gewirkt habe (siehe Abbildung 39), wurde die Sprachausgabe als einzige Interaktionstechnik einmalig negativ eingestuft. In der Anmerkung dazu wurde erwähnt, dass eine Unterhaltung während des Tests zu fehlerhaftem Verhalten geführt hatte. Sowohl Evaluierung 72 2015 die Steuerung durch den Controller, als auch durch Gesten befanden allen Nutzer als nicht hinderlich, wobei zwei Nutzer als Anmerkung eine kleinere Fernbedienung bevorzugt hätten. Abbildung 38: Bewertung der gezielten Auswahl durch die Interaktionstechniken Abbildung 39: Ausmaß der Behinderung durch die Interaktionsform Evaluierung 2015 73 Critical Incident Technique Abschließend konnten die Nutzer noch drei positive und drei negative Aspekte anführen. Als negativer Punkt wurde angemerkt, dass das Trackingvolumen klein war. In Zusammenhang damit wurde auch erwähnt, dass zu wenig Platz für Lehrer- und Schüler-Avatar zur Verfügung stand. Auch wurde eine fehlende Unterscheidungsmöglichkeit zwischen Lehrer-Avatar und Schüler-Avatar angesprochen. Eine Wiedergabesteuerung, beispielsweise für die Anpassung der Geschwindigkeit, wurde von vier Nutzern gefordert. Positiv herausgestrichen wurden im Zuge dieser offenen Frage die gute Kontrolle über das System und die ansprechende Szene. Darüber hinaus merkten mehrere Benutzer an, dass die Lernumgebung ein selbständiges Lernen ermöglicht. Die Mehrzahl der Nutzer gab an, dass sie ein gutes virtuelles Gefühl hatte, die virtuellen Bewegungen flüssig und die Immersion hoch war. Diskussion & Conclusio 74 2015 8. Diskussion & Conclusio Aus den Ergebnissen der Benutzerstudie konnten viele Schüsse gezogen werden. Vor allem die Tatsache, dass die Presence als sehr hoch eingestuft wurde und die Qualität der verwendeten Technologien in keinem der Benutzertests negativ erwähnt wurde, lässt darauf schließen, dass hier kein nennenswerter Einfluss von außen bestand und die Resultate aussagekräftig sind. Einzig das begrenzte Trackingvolumen wurde der Visualisierung des Avatars am Podest zum Verhängnis, da die Benutzer sich nicht weit genug davon entfernen konnten. Abgesehen davon konnten drei von vier Visualisierungstechniken zur Selbstwahrnehmung die Benutzer überzeugen. Auch alle drei Feedbackvarianten wurden von den Studienteilnehmern sehr gut angenommen und haben offensichtlich ein verständliches Feedback bereitgestellt. Favorisiert wurde eindeutig die Variante mit umgebenden Spiegelwänden, welche am liebsten in Kombination mit der Farbdarstellung, gefolgt von der Schatten-Avatar-Darstellung eingesetzt wurden. Auch die nicht in der Kombination vorgekommene Feedbackvariante nämlich die Zusammenfassung der Fehlerwerte, wurde überaus positiv beurteilt. Die Benutzerstudie brachte ein wichtiges Detail hervor: Der Großteil der Fehlervisualisierungsvarianten bringt mehr Nutzen, wenn die Person die Übung schon einigermaßen verinnerlicht hat. Alle ausgewählten Interaktionstechniken wurden durchaus ohne Probleme angenommen und korrekt verwendet. Überraschend zeigte sich, dass der Gamecontroller in der Hand wenig Ablenkung bot und ein positives und eindeutiges Ergebnis beim Fragebogen erzielen konnte. Auch die Gesten wurden von den Benutzern sehr gut angenommen. Einzig bei der Sprachsteuerung wurden leichte Defizite erkannt, da es bei unbedachtem Unterhalten zu Fehlerkennungen gekommen ist. Ein weiteres interessantes Ergebnis betrifft den Fragebogen SSQ: Die Mehrheit der Benutzer fühlte sich, bezogen auf die angegebenen Faktoren, nach der virtuellen Erfahrung besser als zuvor, obwohl sich die Nutzer für eine durchschnittliche Dauer von 26 Minuten in der virtuellen Welt befanden. Ziel der vorliegenden Arbeit war es eine VR-Umgebung für das Erlernen motorischer Fähigkeiten um Visualisierungs- und Interaktionstechniken zu Diskussion & Conclusio 2015 75 erweitern, um damit die speziellen Möglichkeiten und Eigenschaften eines HMDs bzw. einer voll-immersiven VR-Umgebung auszuschöpfen. Um dies zu ermöglichen wurde zunächst eine Reihe relevanter Kernkomponenten aus theoretischer Sicht betrachtet und darauf aufbauend verschiedene Visualisierungsvarianten für virtuelle Umgebungen entwickelt. Diese werden in drei Kategorien gegliedert: Zur Beobachtung der Bewegungsabfolge eines Avatars wurden zwei Varianten konzipiert. Aufgrund der Komplexität ganzheitlicher Bewegungen stellte sich heraus, dass speziell bei Drehungen und Positionen, welche die Blickrichtung beeinflussen, erweiterte Visualisierungsmöglichkeiten notwendig sind, da andernfalls bei Nachahmung der Blickkontakt zum vorführenden Avatar verloren wird. Hierfür wurden vier verschiedene Konzepte umgesetzt, welche teilweise Betrachtungsweisen ermöglichen, die in der Realität nicht möglich wären. Um dem Benutzer auch aktives Feedback in Bezug auf Fehler bereitzustellen, wurden drei Varianten implementiert, welche in Echtzeit oder als Zusammenfassung Abweichungen visuell darstellen. Für eine autonome Steuerung der implementierten Techniken wurden zusätzlich drei Interaktionstechniken integriert, welche die speziellen Anforderungen des Anwendungsbereichs erfüllen. Die Herausforderungen in der vorliegenden Arbeit lagen in erster Linie in der Anpassung der Visualisierungsvarianten an die Besonderheiten des Ausgabegeräts. Durch die Bewegungsfreiheit des Benutzers musste sichergestellt sein, dass die Kamerabewegung der realen Kopfbewegung entspricht, um das Risiko möglicher Cybersickness zu minimieren. Des Weiteren musste bei der Umsetzung auf Konsistenz geachtet werden, da die Visualisierungstechniken beliebig durch den Benutzer kombiniert werden können. Viel Zeit musste auch investiert werden um geeignete Befehlssätze für die integrierten Interaktionstechniken auszuwählen, um sie einerseits verlässlich und andererseits für den Benutzer intuitiv zu gestalten. Mit den oben erwähnten Implementierungen konnte eine abgeschlossene Anwendung umgesetzt und im Zuge einer Benutzerstudie die Akzeptanz der einzelnen Visualisierungstechniken bzw. deren Kombinationen analysiert werden. Darüber hinaus kann darauf geschlossen werden, dass sich durch die Verbreitung von VR im Zuge des aktuellen Hypes um VR-Ausgabegräte die Diskussion & Conclusio 76 2015 Bedeutung der vorliegenden Arbeit weiter erhöhen könnte, da immer mehr Menschen in Kontakt mit VR-Technologien kommen und lernen damit umzugehen. Ausblick 2015 77 9. Ausblick Aus wissenschaftlicher Sicht bietet die entwickelte Anwendung eine gute Grundlage für diverse Studienzwecke. Beispielsweise könnte es eine über ein Netzwerk verteilte Anwendung ermöglichen Choreographien mit mehreren Personen einzustudieren. Darüber hinaus kann erforscht werden ob eine realistischere Darstellung des virtuellen Lehrers bzw. Schülers, beispielsweise durch einen 3D-Scan, zur besseren Akzeptanz und somit zu besseren Ergebnissen führt. Des Weiteren wäre eine Zusammenarbeit mit Spezialisten aus den Bereichen Sport und Rehabilitation anzudenken um einzelne Komponenten weiter verfeinern zu können. Die entwickelte VR-Anwendung lehnt sich an reale Methoden zum Erlernen von Bewegungen an. Eine interessante Fragestellung dabei wäre inwieweit die VR-Anwendung der Realität hinterher hinkt, oder ob VR in manchen Bereichen sogar zu bevorzugen ist. Dazu ist eine Studie notwendig, welche sich auf die Gegenüberstellung zwischen dem Erlernen von Bewegungen ohne bzw. mit VR spezialisiert. Hierfür ist jedoch eine Definition konkreter Rahmenbedingungen notwendig, da es die Vielzahl an Einflussfaktoren erschwert eine objektive Bewertung zu erhalten. Aufbauend auf den Ergebnissen der vorliegenden Arbeit wäre es nun möglich entsprechende Anpassungen durchzuführen, um eine optimale Kombination der Visualisierungen in eine finale Lernumgebung zu integrieren. Dabei könnte eine für den Endanwender nutzbare Applikation entstehen. Es bestünde auch die Möglichkeit zur Implementierung eines Editors, welcher dem Benutzer je nach Präferenz die Möglichkeit gibt vorab eine individuelle Zusammenstellung der Visualisierungstechniken vorzunehmen. Nach diesen Anpassungen wäre es möglich die Applikation für die breite Masse zur Verfügung zu stellen. Dabei wäre die Integration eines günstigen Motion-Tracking-Systems wie der SteamVR Tracking Station aufgrund der Verfügbarkeit von Vorteil. Appendix – Fragebogen 78 2015 10. Appendix – Fragebogen Appendix – Fragebogen 2015 79 Appendix – Fragebogen 80 2015 Appendix – Fragebogen 2015 81 Appendix – Fragebogen 82 2015 Appendix – Fragebogen 2015 83 Appendix – Fragebogen 84 2015 Appendix – Fragebogen 2015 85 Literaturverzeichnis 86 2015 11. Literaturverzeichnis Aiken, C.A., Fairbrother, J.T. & Post, P.G., 2012. The Effects of Self-Controlled Video Feedback on the Learning of the Basketball Set Shot. Frontiers in Psychology, 3(SEP), pp.1–8. Available at: http://journal.frontiersin.org/article/10.3389/fpsyg.2012.00338/abstract. Andronico, M., 2015. VR Headset Mega Guide: Features and Release Dates. tom’s guide. Available at: http://www.tomsguide.com/us/vr-headset-guide,news- 20644.html [Accessed November 20, 2015]. Bowman, D.A. et al., 2005. 3D user interfaces: theory and practice, Addison-Wesley. Burdea, G. & Coiffet, P., 2003. Virtual reality technology. In Presence: Teleoperators & Virtual Environments. pp. 663–664. Chan, J.C.P. et al., 2011. A Virtual Reality Dance Training System Using Motion Capture Technology. IEEE Transactions on Learning Technologies, 4(2), pp.187– 195. Covaci, A., Olivier, A.-H. & Multon, F., 2015. Visual Perspective and Feedback Guidance for VR Free-Throw Training. IEEE Computer Graphics and Applications, 35(5), pp.55–65. Available at: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=7274420. Crivella, R. et al., 2003. Training for physical tasks in virtual environments: Tai Chi. In IEEE Virtual Reality, 2003. Proceedings. pp. 87–94. Available at: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1191125. Eaves, D.L., Breslin, G. & van Schaik, P., 2011. The Short-Term Effects of Real-Time Virtual Reality Feedback on Motor Learning in Dance. Presence: Teleoperators and Virtual Environments, 20(1), pp.62–77. Available at: http://www.mitpressjournals.org/doi/abs/10.1162/pres_a_00035. Fitzgerald, D. et al., 2007. Development of a wearable motion capture suit and virtual reality biofeedback system for the instruction and analysis of sports rehabilitation exercises. In Engineering in Medicine and Biology Society, 2007. EMBS 2007. 29th Annual International Conference of the IEEE. pp. 4870–4874. Available at: http://ieeexplore.ieee.org/ielx5/4352184/4352185/04353431.pdf?tp=&arnumber=4 353431&isnumber=4352185. Flanagan, J.C., 1954. The critical incident technique. Psychological Bulletin, 51(4), pp.327–358. Available at: http://psycnet.apa.org/journals/bul/51/4/327/ [Accessed September 4, 2014]. Literaturverzeichnis 2015 87 Foster, C., 2015. Virtual Reality Input Devices Aim for Immersion. Tractica. Available at: https://www.tractica.com/user-interface-technologies/virtual-reality-input- devices-aim-for-immersion/. Gerstweiler, G. & Vonach, E., 2011. Development of an Active Motion Capture Suit for Teaching Motion Skills. TU Wien. Hachimura, K., Kato, H. & Tamura, H., 2004. A prototype dance training support system with motion capture and mixed reality technologies. RO-MAN 2004. 13th IEEE International Workshop on Robot and Human Interactive Communication (IEEE Catalog No.04TH8759), pp.217–222. Heibel, M. & Heuer, J., 2009. Den Erfolg vor Augen – Visualisieren im Sport. Netzathleten Magazin. Available at: http://www.netzathleten.de/lifestyle/body- soul/item/236-den-erfolg-vor-augen-visualisieren-im-sport [Accessed November 20, 2015]. Jeannerod, M., 1995. Mental imagery in the motor context. Neuropsychologia, 33(11), pp.1419–1432. Johnson, D.M. (U. S.A.R.I., 2005. Introduction to and Review of Simulator Sickness Research, Kammergruber, F., Ebner, A. & Günthner, W.A., 2012. Navigation in virtual reality using Microsoft Kinect. In 12th international conference on construction application of virtual reality, Taipei, Taiwan. pp. 350–359. Kennedy, R.S. et al., 1993. Simulator Sickness Questionnaire: An Enhanced Method for Quantifying Simulator Sickness. The International Journal of Aviation Psychology, 3, pp.203–220. Kirk, A.G., O’Brien, J.F. & Forsyth, D. a., 2005. Skeletal Parameter Estimation from Optical Motion Capture Data. Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on., 2, pp.782–788 Vol. 2. Available at: http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=1467522. Kogelnig, R., 2013. Virtual Reality: All you need to know about Input Devices for the bright new future of gaming. Gamasutra. Available at: http://www.gamasutra.com/blogs/RichardKogelnig/20131101/203809/Virtual_Reali ty_All_you_need_to_know_about_Input_Devices_for_the_bright_new_future_of_g aming.php [Accessed November 20, 2015]. Likert, R., 1932. A technique for the measurement of attitudes. Archives of Psychology, 22(140), pp.1–55. Available at: citeulike-article-id:2731047. Neumaier, A., 1982. Untersuchung zur Funktion des Blickverhaltens bei visuellen Wahrnehmungsprozessen im Sport. Sportwissenschaft, 12(1), pp.78–91. Available at: http://link.springer.com/10.1007/BF03177523. Literaturverzeichnis 88 2015 Nicol, W., 2015. Ready to jump into VR? We’ve found the best current and upcoming headsets. Digital Trends. Available at: http://www.digitaltrends.com/computing/vr- headset-buying-guide/ [Accessed November 20, 2015]. Panzer, S. et al., 2007. Dominanz visuell-räumlicher Codierung beim Lernen von Bewegungssequenzen. Zeitschrift für Sportpsychologie, 14(3), pp.123–129. Available at: http://econtent.hogrefe.com/doi/abs/10.1026/1612-5010.14.3.123. Pintaric, T. & Kaufmann, H., 2007. Affordable Infrared-Optical Pose Tracking for Virtual and Augmented Reality. In IEEE VR Workshop on Trends and Issues in Tracking for Virtual Environments. pp. 44–51. Available at: http://publik.tuwien.ac.at/files/pub-inf_5236.pdf. Pottle, B., 2013. Taekwondo: A Practical Guide to the World’s Most Popular Martial Art, Sapphire Eye Press. Available at: http://download.audible.com/product_related_docs/BK_ACX0_012504.pdf. Rothstein, A.L. & Arnold, R.K., 1976. Bridging the gap: Application of research on videotape feedback and bowling. Motor skills: Theory into practice, 1, pp.35–62. Salmoni, a W., Schmidt, R. a & Walter, C.B., 1984. Knowledge of results and motor learning: a review and critical reappraisal. Psychological bulletin, 95(3), pp.355– 386. Schmidt, R. & Lee, T., 2011. Motor Control and Learning: A Behavioral Emphasis, Available at: http://www.amazon.com/Motor-Control-Learning-Behavioral- Emphasis/dp/0736079610. Schönauer, C., 2007. Skeletal Structure Generation for Optical Motion Capture. Institute for Software Technology and Interactive Systems. Available at: http://www.ims.tuwien.ac.at/publication_detail.php?ims_id=233. Slater, M., 1999. Measuring presence: A response to the Witmer and Singer presence questionnaire. Presence: Teleoperators and Virtual Environments, 8(5), pp.1–13. Available at: http://www.mitpressjournals.org/doi/abs/10.1162/105474699566477\nhttp://discov ery.ucl.ac.uk/136732/. Suma, E.A. et al., 2012. FAAST-R: Defining a Core Mechanic for Designing Gestural Interfaces. In The 3rd Dimension of CHI: Touching and Designing 3D User Interfaces. pp. 35–42. Available at: http://people.ict.usc.edu/~suma/papers/suma- 3dchi2012.pdf. Sun, G. et al., 2014. An Advanced Computational Intelligence System for Training of Ballet Dance in a Cave Virtual Reality Environment. In 2014 {IEEE} {International} {Symposium} on {Multimedia} ({ISM}). pp. 159–166. Usoh, M. et al., 2000. Using Presence Questionnaires in Reality. Presence: Teleoperators and Virtual Environments, 9(5), pp.497–503. Available at: http://www.mitpressjournals.org/doi/abs/10.1162/105474600566989. Literaturverzeichnis 2015 89 Vonach, E., 2015. MoCapGym: Erlernen motorischer Fähigkeiten mittels Motion Capture. TU Wien. Wulf, G., 2009. Aufmerksamkeit und motorisches Lernen, Urban & Fischer Verlag/Elsevier GmbH. Abbildungsverzeichnis 90 2015 12. Abbildungsverzeichnis Abbildung 1: (a): 2D Projektion zum Lernen von Tanzbewegungen mit virtuellen Avataren (Chan et al. 2011); (b) Erlenen von Tanzbewegungen anhand einer Projektion mit realen Video (Eaves et al. 2011) ........................................................................................... 10  Abbildung 2: Video-See-Through HMD für eine Visualisierung von Avataren (Hachimura et al. 2004) .......................................................................................................................... 11  Abbildung 3: Ein CAVE System zum Wurftraining für Basketball (Covaci et al. 2015) ............... 12  Abbildung 4: Vier verschiedene Avatar-Modelle aus (Hachimura et al. 2004) von links nach rechts: Wire Frame, Solid, Solid with Wire Frame, Solid with Texture ...................... 13  Abbildung 5: Darstellung des Avatars bzw. der Bewegung in verschiedenen Varianten; von links nach rechts: Avatar in Lebensgröße, in Modellgröße, nebeneinander, als Self- Superposition (Hachimura et al. 2004) ...................................................................... 13  Abbildung 6: Untersuchung verschiedener Positionierungen der virtuellen Avatare (Crivella et al. 2003) .......................................................................................................................... 14  Abbildung 7: (a) Echtzeit-Feedback mit vier Avataren in einer Szene; (b) Numerisches Feedback nach der Übung (Chan et al. 2011) ........................................................... 15  Abbildung 8: Eaves et al. verwenden Punkte um dem Benutzer die Position der Gelenke vorzugeben. (Eaves et al. 2011) ................................................................................ 15  Abbildung 9: Avatar in T-Pose ..................................................................................................... 22  Abbildung 10: Auszug aus MoCapGym. (a) Bewegungsvergleich mit Echtzeitdaten. (b) Alternativer Avatar (Doe 2015) .................................................................................. 24  Abbildung 11: Oculus Rift Developer Kit 2 .................................................................................. 28  Abbildung 12: Wii Remote Gamecontroller ................................................................................. 31  Abbildung 13: Microsoft Kinect Tiefensensor .............................................................................. 33  Abbildung 15: Virtuelle Trainingsumgebung mit Markierung für den Bewegungsbereich. ......... 36  Abbildung 16: Der Avatar Vincent mit adaptierter Skelett-Hierarchie. ........................................ 37  Abbildung 17: Wiedergabe der idealen Bewegung in normaler Größe. ...................................... 40  Abbildung 18: Wiedergabe als Mini-Avatar im Zentrum des Bewegungsbereichs. .................... 41  Abbildung 19: Einfacher Spiegel frontal vor dem Trainingsbereich ............................................ 43  Abbildung 20: Der gesamte Trainingsbereich ist von vier Spiegelwänden umgeben ................. 44  Abbildung 21: Der Spiegel bewegt sich mit der Orientierung des Schülers mit. ......................... 45  Abbildung 22: Bild-in-Bild Visualisierung ähnlich einem Head-Up-Display. ................................ 47  Abbildung 23: (a) MoCapGym: Avatar verwendet nur Farben mit multiplen Meshes; (b) neue Implementierung: ein Mesh mit multiplen Shadern, welche auf unterschiedliche Bereiche der Textur verweisen .................................................................................. 49  Abbildung 22:.Schattenavatar im Spiegel ................................................................................... 50  Abbildung 24: Präsentation der Fehler als kumulatives Feedback nach Abschluss eines Übungsdurchlaufs ...................................................................................................... 51  Abbildung 25: Wiimote Controller ................................................................................................ 54  Abbildung 26: GlovePIE Skript für Wiimote Controller ................................................................ 54  Abbildungsverzeichnis 2015 91 Abbildung 27: AKG Funkmikrophon ............................................................................................ 55  Abbildung 28: GlovePIE Skript für Sprachsteuerung .................................................................. 56  Abbildung 29: Tiefensensor Kinect für Gestensteuerung ........................................................... 56  Abbildung 30: FAAST zeigt ein Tiefenbild mit erkannter Person und eingeblendetem Skelett .. 57  Abbildung 31: Skizze der Studienumgebung: a) iotracker Kamera, b) erfassbarer Trackingbereich, c) Oculus Rift DK2 HMD, d) Videokamera, e) PC und Position für die direkte Beobachtung, f) Mikrophon für Sprachbefehle, g) Kinect Tiefensensor für Gestensteuerung und h) Sitzmöglichkeit für Studienteilnehmer ............................... 59  Abbildung 32: Einige Schritte des Bewegungsablaufs: a) Ausgangsstellung, b) niederer Block mit linkem Arm, c) Schritt vorwärts mit Schlag, d) mittlerer Block mit rechtem Arm . 60  Abbildung 33: Presence - Ergebnisse ......................................................................................... 67  Abbildung 34: Ergebnisse in Bezug auf die Bewegungsabfolge ................................................ 68  Abbildung 35: Benutzereinschätzung der Wiedergabemöglichkeiten ......................................... 69  Abbildung 36: Benutzereinschätzung der Visualisierungen zur Selbstwahrnehmung ................ 70  Abbildung 37: Benutzereinschätzung der Fehlervisualisierungen .............................................. 71  Abbildung 38: Bewertung der gezielten Auswahl durch die Interaktionstechniken .................... 72  Abbildung 39: Ausmaß der Behinderung durch die Interaktionsform ......................................... 72