Using topic cues for speaker recognition in broadcast multimedia archives

Baum, Doris

Record link:

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-50292
http://hdl.handle.net/20.500.12708/9965

Title:

Using topic cues for speaker recognition in broadcast multimedia archives

Citation:

Baum, D. (2013). Using topic cues for speaker recognition in broadcast multimedia archives [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-50292

CatalogPlus:

AC10774669

Publication Type:

Thesis - Dissertation

Language:

English

Authors:

Baum, Doris

Advisor:

Rauber, Andreas

Co-advisor:

Kurth, Frank

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2013

Number of Pages:

125

Keywords:

Sprechererkennung; Thema; Merkmale; Themenmodellierung

Speaker recognition; Topic; High-level features; Topic modelling

Abstract:

Die derzeitige wissenschaftliche Forschung zur Sprechererkennung ist stark fokussiert auf die Verwendung von Merkmalen, die die Stimme des Sprechers abbilden. Doch gerade im Rundfunkbereich gibt es noch andere sprecherspezifische Merkmale, die genutzt werden können, um Sprecher zu identifizieren - beispielsweise das Thema einer Äußerung. Häufig treten Sprecher in Sendungen auf, für deren Themen sie als Experten gelten. Es ist das Ziel dieser Arbeit, das Konzept der themenbasierten Sprechererkennung für den Rundfunkbereich zu untersuchen. Es soll die Frage beantwortet werden, wie die Themeninformation einer Äußerung mit möglichst wenig manuellem Aufwand erfasst werden kann, und wie damit die spezifischen Themen eines Sprechers automatisch gelernt werden können. Es werden zwei Ansätze vorgestellt, die die Lieblingsthemen der Sprecher automatisch aus Audio-Trainingsmaterial lernen, wobei einer auf impliziter und der andere auf expliziter Repräsentation der Themen basiert. Ein automatisches Spracherkennungssystem wird eingesetzt, um für Audiomaterial Worttranskripte zu erzeugen, da die Themeninformation hauptsächlich in den Worten einer Äußerung enthalten ist. Im ersten Ansatz werden die Themenvorlieben der Sprecher implizit modelliert, indem ihre idiosynkratischen Lieblingswörter gelernt werden --- diese sind üblicherweise hauptsächlich Themenschlüsselwörter der bevorzugten Themen. Im zweiten Ansatz werden die Themen explizit modelliert: Mit einem unüberwachten probabilistischen Themenmodellierungs-Algorithmus (Latent Dirichlet Allocation) werden automatisch wichtige Themen und deren Schlüsselwörter identifiziert, ohne dass dazu manuell annotierte Themen-Trainingsdaten notwendig sind. Mit dem explizit trainierten Themenmodell ist es dann möglich, Worttranskripte von Äußerungen in Themen-Wahrscheinlichkeitsvektoren umzuwandeln, die verwendet werden, um Sprecher zu modellieren und zu erkennen. Beide Ansätze werden evaluiert um zu bewerten wie gut themenbasierte Sprechererkennung funktioniert. Da kein großes Korpus zur Evaluierung von Sprechererkennungssystemen verfügbar war, das Themenvorlieben der Sprecher enthielt, wurde ein neues Korpus aus Aufnahmen aus dem deutschen Bundestag geschaffen. Die resultierende Evaluierung vergleicht die themenbasierte Sprechererkennung mit einem traditionellen stimmbasierten und einem idiolektbasierten System. Außerdem werden die themen-, stimm-, und idiolektbasierten Systeme kombiniert, um zu sehen, wie gut Themeninformation die anderen Merkmale ergänzt.

Current speaker recognition research focusses on features which capture the voice, but, especially in the broadcast domain, other cues can be used to identify speakers, such as the topic of an utterance: Speakers often appear in programmes on topics for which they are considered experts. The goal of this thesis is to explore the idea of topic-based speaker recognition for broadcast data. It tries to answer the question how spoken utterances' topic information can be automatically captured with little manual effort, and how it can be used to learn speakers' topic preferences. Two approaches which automatically learn the speakers' topic preferences from audio training data are presented, one based on implicit and one based on explicit topic representation. Automatic speech recognition is used to produce word transcripts for the audio material, as the topic information is carried mostly by the words in an utterance. In the first approach, the speakers' topic preferences are implicitly represented by learning their idiosyncratic words, which will consist mostly of topic marker words for their preferred topics. In the second approach, topics are explicitly modelled using an unsupervised probabilistic topic modelling algorithm (Latent Dirichlet Allocation) which automatically identifies prevalent topics and their marker words without need for manually labelled topic training data. With the explicitly trained topics, the utterances' word transcripts can be converted into topic probability vectors which are then used to model and recognise speakers. Both approaches are evaluated to see how speaker identification based on topic cues performs. As no big speaker recognition evaluation benchmark containing topic preferences was available for the evaluation, a new corpus based on recordings from the German parliament was created. The evaluation compares topic-based with traditional voice-based and idiolectal speaker recognition systems. Also, topic, voice, and idiolectal systems are fused to see how well topic combines with other cues.

Additional information:

Zsfassung in dt. Sprache

License:

In Copyright

Appears in Collections:

Thesis