Hollenstein, J. J. (2013). Visual control of acoustic speech synthesis [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2013.23296
Hidden Markov Model-basierte Sprachsynthese hat sich zu einer etablierten und weitverbreiteten Technik entwickelt. Dabei wird das Sprachsignal analysiert und durch hochdimensionale Parameterverläufe dargestellt. Ein Vorteil der statistisch parametrischen Modellierung des Sprachsignals gegenüber Ansätzen, die Teile des ursprünglichen Signals durch Signalverarbeitungsmethoden neu zusammensetzen, ist...
Hidden Markov Model-basierte Sprachsynthese hat sich zu einer etablierten und weitverbreiteten Technik entwickelt. Dabei wird das Sprachsignal analysiert und durch hochdimensionale Parameterverläufe dargestellt. Ein Vorteil der statistisch parametrischen Modellierung des Sprachsignals gegenüber Ansätzen, die Teile des ursprünglichen Signals durch Signalverarbeitungsmethoden neu zusammensetzen, ist die größere Flexibilität, da die Parameterverläufe einer Veränderung leichter zugänglich sind als dies beim Audiosignal der Fall wäre. Allerdings sind die verwendeten akustischen Features hochdimensional und selbst für einen Experten nur sehr schwer zu verändern. Die Idee der Steuerung ist es, eine Darstellung zu finden, die intuitiver zugänglich ist, als dies bei den akustischen Features der Fall ist. Zusätzlich soll eine Abbildung aus dieser intuitiven Repräsentation in den akustischen Featurespace gefunden werden. Damit sollen Änderungen, die im intuitiven Raum vorgenommen werden, sinnvoll in den akustischen Featurespace abgebildet werden. Dies würde in weiterer Folge auch die Modifikation durch einen Experten ermöglichen und so auch die Flexibilität der Synthese vergrößern. In früheren Arbeiten wurden artikulatorische Features verwendet, um akustische Synthese zu steuern, da diese Features auf linguistischem Wissen basierende Änderungen erlauben. Desweiteren wurden auch Formant-Features zur Steuerung von akustischer Sprachsynthese erprobt. Da artikulatorische Daten von Natur aus schwieriger zu erfassen sind als visuelle Daten, stellt sich die Frage, ob visuelle Daten verwendet werden können um die akustische Synthese zu steuern bzw. zu verändern. In dieser Arbeit geht es um die Frage, ob visuelle Daten in ähnlicher Weise zur Steuerung oder Modifikation der akustischen Synthese eingesetzt werden können, wie dies für Formant- und artikulatorische Features gezeigt wurde. Dazu wurde das System, das für formantenbasierte Steuerung verwendet wurde, an die visuellen Features angepasst. Eine Reihe von Experimenten zur Frage, wie stark die Abhängigkeit zwischen den akustischen und visuellen Daten ist, wurde durchgeführt. Die Abbildung für artikulatorische- und formantenbasierte Steuerung basiert auf zustandsabhängigen, stückweise linearen Transformationen vom steuerungs- in den akustischen Featurespace. Durch einschränken des visuellen Featurespaces bzw. der visuellen Steuerung werden die zughörigen visuellen Features aussagekräftiger im Bezug auf die unterschiedlichen Phone. Dadurch wird es möglich, eine Abbildung von den visuellen auf die akustischen Features zu finden. Aufgrund der notwendigen Einschränkungen sind Verbesserungen der Qualität gegenüber dem Synthesesystem ohne Steuerungserweiterung nicht zu erwarten, solange keine ausgefeilteren Abbildungstechniken gefunden werden. Die Resultate der subjektiven Evaluierung zeigen, dass akustisch sinnvolle Steuerung durch die rein visuellen Features möglich ist.
de
Speech synthesis based on Hidden Markov Model (HMM) has become a well known and widely applied technique. One benefit of statistical modelling of speech over signal concatenation approaches is greater flexibility since the parameter trajectories can be modified more easily than the audio signal. However, the acoustic features used for speech synthesis are high dimensional and difficult to modify e...
Speech synthesis based on Hidden Markov Model (HMM) has become a well known and widely applied technique. One benefit of statistical modelling of speech over signal concatenation approaches is greater flexibility since the parameter trajectories can be modified more easily than the audio signal. However, the acoustic features used for speech synthesis are high dimensional and difficult to modify even for an expert. The idea of control is to find a more intuitive representation and a mapping from this more intuitive representation to the acoustic feature space. Then changes applied in the intuitive space should be mapped to appropriate changes in the difficult to understand acoustic feature space. This would allow modification by expert knowledge and thus lead to a more flexible synthesis system. In previous work articulatory features have been used to control acoustic synthesis, since they lend themselves to modification based on linguistic knowledge. More recently formants have been used to control speech synthesis as well. Since articulatory data is inherently more difficult to capture than visual data, the question arises whether visual data can also be used to control and modify the acoustic parameters similar to articulatory control. To answer the question whether visual data can be used for control in a similar way to formant and articulatory data, the system used for formant control was adapted to the visual features and a series of experiments was performed to gain indication on whether the relation between visual and acoustic data is sufficiently strong. The mapping investigated for articulatory and formant based control consists of state-based piecewise linear transformations from the control to the acoustic space. It was found that restricting the visual control space appropriately leads to sufficiently distinct visual representations and thus allows for control modelling. Improvements of the acoustic synthesis quality with respect to the uncontrolled synthesis system are unlikely due to the necessary restrictions. A less restricted and more precise mapping technique would be necessary to improve the quality of the controlled synthesis system. Subjective evaluation results indicate that phonetically meaningful control by visual only features is feasible.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache