Pucher, M. (2015). Ein Hidden-Markov-Modell (HMM) basiertes Operngesangssynthesesystem für Deutsch [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.25354
Automatische Synthese von Sprache und Gesang; Operngesangssynthesesystem für Deutsch; Versteckte Markov-Modelle; MusicXML; maschinelle Lern- und Trainingsverfahren
de
Automatic Synthesis of Speech and Singing; Opera Singing Synthesis System for German; Hidden Markov-Models; MusicXML; Machine Learning
en
Abstract:
In dieser Diplomarbeit wird ein Hidden-Markov-Modell (HMM) basiertes Operngesangssynthesesystem für Deutsch entwickelt, das auf einem japanischen Gesangssynthesesystem für Popsongs basiert. Die Entwicklung besteht aus der Integration einer deutschen Textanalyse, eines Lexikons mit Graphem-zu-Phonem Übersetzung, und eines Silbenvervielfältigungsalgorithmus. Außerdem werden synthetische Opernstimmen der vier wichtigsten Sängerkategorien Mezzo, Sopran, Tenor, und Bass entwickelt und die Methode mit der der Korpus erstellt wurde wird beschrieben. Darüber hinaus wird eine Methode entwickelt um die vorhandenen Daten (Waveforms und MusicXML Dateien) in ein für das Training der Modelle geeignetes Format umzuwandeln. Für das Training wird eine SängerInnenabhängige Methode für das Deutsche adaptiert. In einer objektiven und subjektiven Evaluation werden verschiedene Parameterkonfigurationen für das Training und die Synthese evaluiert. Mit der subjektiven Evaluation wird gezeigt dass Operngesangssynthese von moderater Qualität mit diesem System und den begrenzten vorhandenen Trainingsdaten möglich ist, und dass die Dauermodellierung der wichtigste Qualitätsparameter der Modelle ist. Für ein Synthesesystem von hoher Qualität sind mehr Trainingsdaten notwendig, da bekannt ist das die verwendeten Lernalgorithmen bessere Ergebnisse mit mehr Daten liefern. Das derzeitige System bildet die Basis für so ein zukünftiges System und kann auch für ein allgemeines Gesangssynthesesystem verwendet werden. Vor dieser Arbeit war ein derartiges Gesangssynthesesystem basierend auf HMMs nur für Japanisch und Englisch verfügbar.
de
In this thesis we develop a Hidden-Markov-Model (HMM) based opera singing synthesis system for German that is based on a Japanese singing synthesis system for popular songs. The implementation of this system consists of an integration of German text analysis, lexicon and Letter-To-Sound (LTS) conversion, and syllable duplication. We also develop opera singing voices for the main four singer categories mezzo, soprano, tenor, and bass and describe the recording method that was used to record opera singers to acquire the data that is used for modeling. These voices can be used for opera singing synthesis and automatic alignment of singing. Furthermore we develop an alignment method that is used to transform the available data (waveforms, MusicXML files) into a format suitable for training the voices. For the training itself we adapt a singer-dependent training procedure to German. Finally we present an objective and subjective evaluation of the mezzo voice where effects of different parameter configurations during training and synthesis are evaluated. With the subjective evaluation we can show that moderate quality opera singing synthesis is feasible with the limited amount of training data at hand and that correct duration modeling is the most influential quality parameter at this stage. For a high quality opera singing synthesis system we would need more training data as it is known that the quality of the models increases with larger amounts of data. The current system provides the basis for such a future high quality system, and can also be used as a front-end for a general German singing synthesis system. Before our work such an HMM-based singing synthesis system was only available for Japanese and English.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache