Spracherkennung im Browser

Müller, Stefan

doi:10.34726/hss.2015.24850

Record link:

https://doi.org/10.34726/hss.2015.24850
http://hdl.handle.net/20.500.12708/2292

Title:

Citation:

Müller, S. (2015). Spracherkennung im Browser [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.24850

reposiTUm DOI:

10.34726/hss.2015.24850

CatalogPlus:

AC13110927

Publication Type:

Thesis - Diplomarbeit

Language:

German

Authors:

Müller, Stefan

Advisor:

Zagler, Wolfgang

Co-advisor:

Mayer, Peter

Organisational Unit:

E187 - Institut für Gestaltungs- und Wirkungsforschung

Date (published):

2015

Number of Pages:

Keywords:

Spracherkennung; Browser

Browser

Abstract:

Im Bereich der sprachgesteuerten Benutzerschnittstellen gab es in den letzten Jahren sehr große Fortschritte. Während sich sprachbasierte Anwendungen auf mobilen Endgeräten (z. B. Siri, Google Now etc.) und am Desktop bereits etabliert haben, sind Sprachsteuerung und -eingabe bei browserbasierten Benutzerschnittstellen aber noch sehr unüblich. Im Rahmen der vorliegenden Arbeit werden die Grundlagen der automatischen Spracherkennung vorgestellt und Möglichkeiten für die Steuerung von browserbasierten Benutzerschnittstellen per Spracheingabe untersucht. Die Arbeit gibt einen Überblick über die neuen Möglichkeiten zur Audioaufnahme, -wiedergabe und -verarbeitung, welche im Umfeld von HTML 5 entstanden sind, und stellt konkrete technische Lösungsansätze für die Umsetzung einer automatischen Spracherkennung im Web-Kontext vor. Der praktische Teil der Arbeit beschäftigt sich mit dem Entwurf, der Implementierung und der Evaluierung eines Prototyps für ein Sprachsteuerungsmodul. Es wird ein System vorgestellt, das moderne Webtechnologien - allen voran die Web Speech API - verwendet, um eine Sprachsteuerung zu realisieren. Das entwickelte System nutzt ein flexibles XML-Dateiformat zur Definition von Befehlen. Des Weiteren implementiert es eine phonetische Nachverarbeitung der vom Google Spracherkennungsservice gelieferten Ergebnisse, um die Gesamterkennungsleistung zu steigern. Im Zuge einer Evaluierung wurde die Erkennungsleistung des Systems unter verschiedenen Bedingungen erhoben.

During the last few years there has been substantial progress in the area of voicecontrolled user interfaces. While users have become used to voice-based applications on mobile devices (e.g. Siri or Google Now) or on the desktop, it is currently still very uncommon to see voice-controlled web applications. In this master thesis fundamentals of automatic speech recognition are presented and options for the implementation of voice-controlled web interfaces are discussed. The thesis gives an overview of the new options for audio recording, playback and processing, which have been developed in the context of HTML 5, and investigates selected technical solutions for the implementation of automatic speech recognition in web applications. The practical part of the thesis deals with the design, implementation and evaluation of a prototype for a voice control module. A system is presented that uses modern web technologies, most notably the Web Speech API, in order to implement voice control for web applications. The developed system uses a flexible XML file format to define commands. Additionally it implements a phonetic post-processing of the results provided by Google-s automatic speech recognition service in order to improve the overall recognition performance. As part of the work, the recognition performance of the system has been evaluated under different conditions.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis