Schabus, D. (2009). Interpolation of Austrian German and Viennese dialect/sociolect in HMM-based speech synthesis [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-34063
Im Unterschied zu weit verbreiteten Methoden der Sprachsignal-Verkettung basiert der hier vorgestellte Ansatz zur Sprachsynthese auf einer parametrischen Analyse-Resynthese-Technik, wobei die in der Analyse-Phase extrahierten Parameter mit Hidden Markov Modellen (HMMs) modelliert werden. Zahlreiche Verbesserungen dieses Ansatzes im letzten Jahrzehnt ermöglichen beeindruckende Ergebnisse.<br />Darüberhinaus erlaubt es dessen inhärente Flexibilität, diesen Ansatz für weitergehende Aufgabenstellungen der Sprachsynthese einzusetzen, wie zum Beispiel Sprecher-Adaptierung, Sprecher-Interpolation, emotionale Sprache, etc.<br />Diese Arbeit stellt ein HMM-basiertes, flexibles multi-dialektales Sprachsynthesesystem für österreichisches Deutsch und Wiener Dialekt/Soziolekt vor. Neu eingebracht wird dabei die Interpolation von Dialekten unter Berücksichtigung von phonologischen Prozessen, die die segmentale Struktur der Äußerung verändern.<br />Die Ergebnisse einer Evaluation zeigen, dass sowohl kontinuierliche als auch kategorische Veränderungen in der Varietät von den Hörern wahrgenommen werden.<br />
de
In contrast to widely used waveform concatenation methods, the presented approach to speech synthesis relies on a parametric analysis-re-synthesis technique, where the features extracted in the analysis stage are modeled by hidden Markov models (HMMs). Many important improvements in the last decade have helped this approach to reach impressive performance. Additionally, its inherent flexibility makes it suitable for advanced speech synthesis tasks, like speaker adaptation, speaker interpolation, emotional speech, etc.<br />In this work, a flexible multi-dialect HMM-based speech synthesis system for Austrian German and Viennese dialect/sociolect is presented. A novel contribution is the interpolation of dialects, where we have to deal with phonological processes that change the segmental structure of the utterance.<br />Evaluation results show that listeners do perceive both continuous and categorical changes of varieties.<br />