Ertl, D. (2011). Semi-automatic generation of multimodal user interfaces for dialogue-based interactive systems [Dissertation, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/160759
Multimodal; User Interfaces; Semi-Automatic Generation; Human-Computer Interaction; Human-Robot Interaction; Method
en
Abstract:
Multimodale Mensch-Maschine Schnittstellen bieten gegenüber unimodalen Mensch-Maschine Schnittstellen den Vorteil, dass die Schwächen einer Modalität durch die Stärken einer anderen Modalität kompensiert werden können. Deshalb ist die sinnvolle Komposition von Eingabe- und Ausgabemodalitäten eine wichtige Aufgabe für den Designer einer solchen multimodalen Mensch- Maschine Schnittstelle für ein dialogbasiertes interaktives System. Ein vielversprechender Ansatz um den Aufwand des Designers für die Erstellung von diesen Schnittstellen zu verringern ist die (halb-)automatische Generierung. Die Forschung zu dieser Thematik steht noch am Beginn. Es fehlt unter anderem an werkzeugbasierten Methoden, die einen (auch unerfahrenen) Designer im Zuge der halbautomatischen Generierung einer Mensch-Maschine Schnittstelle unterstützen. In dieser Arbeit präsentieren wir eine werkzeugunterstützte Methode für die halbautomatische Generierung von multimodalen Mensch-Maschine Schnittstellen für dialogbasierte, interaktive Systeme ein. Unsere Methode verwendet ein modalitätsunabhängiges Communication Model um kommunikative Interaktion zwischen einem Menschen und einem System zu beschreiben. Wir verwenden dieses Communication Model auf zwei Arten: Erstens, um Modalitäten wie Spracheingabe und Sprachausgabe halbautomatisch zu erstellen. Zweitens, um die Konfiguration für die Fusion und Fissionkomponenten einer Laufzeitplatform für eine multimodalen Mensch- Maschine Schnittstelle halbautomatisch zu erstellen. Weiters stellen wir werkzeugbasierte Desig- nunterstützung vor, um den Designer an verschiedenen Stellen des Generierungsprozesses einer Mensch-Maschine Schnittstelle Eingriff nehmen lassen zu können. Unsere Methode kann sowohl für Mensch-Computer Interaktion, als auch für Mensch-Roboter Interaktion angewendet werden. Wir untermauern die Anwendbarkeit unserer Methode mit zwei Beispielen aus unterschiedlichen Bereichen. Das erste Beispiel ist eine multimodale Mensch- Maschine Schnittstelle eines Werkzeugs für Medien-Annotation. Das zweite Beispiel ist eine multimodale Mensch-Maschine Schnittstelle eines halbautonomen Einkaufsroboters. Für diesen Einkaufsroboter stellen wir auch eine neue Modalität Motion Cue vor, welche andere Modalitäten wie GUI und Sprache verstärkt. Unsere werkzeugbasierte Methode mit seinen verschiedenen Typen an Artefakt und Prozesss- chritten unterstützt den Designprozess von Mensch-Maschine Schnittstellen, und erleichtert die Fokussierung auf die kommunikative Interaktion und das Zusammenspiel der Modalitäten.
The advantage of a multimodal user interface compared to an unimodal user interface for human- system interaction is that often a weakness in one modality can be compensated by the strength of another modality. A main task of a designer creating a multimodal user interface for a dialogue- based interactive system is the composition of input and output modalities that shall be coupled. Automatic generation of such interfaces is a promising approach to reduce a user-interface de- signers effort. However, this research is in its infancies. We still lack tool-based methods that support an (even inexperienced) user-interface designer in the process of semi-automatic multi- modal user-interface generation. In this work we introduce a tool-supported method for semi-automatic generation of multimodal user interfaces for dialogue-based interactive systems. This method uses a modality-independent discourse-based Communication Model to describe communicative interaction between a human and a system. We use this Communication Model in two ways: First, we use it to semi- automatically generate modalities like vocal speech input and output. Second, we use it to semi-automatically configure the fusion and fission component of a multimodal user-interface run-time platform. Moreover, we introduce tool-based design support to keep the human in the loop at various stages of the generation of multimodal user interfaces. Our method can be applied to both human-computer interaction and human-robot interaction. We show the feasibility of our method with two examples from different domains. The first one is a multimodal user interface of a media annotation tool. The second example is a multimodal user interface of a semi-autonomous shopping robot. Here we also design, implement, and study a new modality called Motion Cue that reinforces other modalities like GUI and speech. Our tool-based method with its artifact types and process steps supports the generation process of user interfaces and helps to focus a user interface designer on the communicative interaction and the interplay of the modalities.