<div class="csl-bib-body">
<div class="csl-entry">Fischer, R. (2020). <i>Deep learning of humor from Gary Larson’s cartoons</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.56860</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2020.56860
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/1348
-
dc.description.abstract
The aim of this thesis is to model humor using deep learning based on Gary Larsonscartoons. The recent success of deep learning in computer vision and natural languageprocessing shows that similar techniques can be applied in the field of computationalhumor. The training of deep learning models requires a dataset with many trainingsamples, which is why I created a novel dataset containing several thousands of GaryLarsons cartoons, punchlines and corresponding funniness annotations. The dataset wasannotated using a custom labelling tool, by the single person. Therefore, the datasetentails the humor of a single person. With this dataset it is possible to quantitativelycompare humor with the results of the deep learning models or with other people.After an extensive dataset analysis, I designed and trained several deep neural architectures.First, focusing on the visual domain (cartoons) using convolutional neuralnetworks, transfer learning and object detection techniques. Afterwards, I focused onthe text domain (punchlines) using Long Short-Term Memory networks, several wordembeddings (deep learning based and classical) and an automated machine learningapproach. Finally, I tried to combine all the findings into a unified two stage architecture.Unfortunately, the evaluation revealed that this task is not yet tractable by the deeplearning techniques applied. I chose two performance metrics (Mean absolute error andaccuracy) and several baseline models (most frequent class, mean class, etc.) and nomodel improved on the baselines significantly. On the test set a transfer learning basedapproach scored the best accuracy of 26.10%, while the most frequent class scored 24.50%.Both a deep learning approach and the mean class reached a mean absolute error of 1.57.These results show, that the semantic gap between computers and humans is too largefor current deep learning based approaches to successfully model the humor of a singleperson. It seems another breakthrough besides deep learning is required for this task.
en
dc.description.abstract
Das Ziel dieser Diplomarbeit ist es Humor durch Deep Learning basierend auf Gary Larsons Cartoons zu modellieren. Der jüngste Erfolg von Deep Learning in den Bereichen Computer Vision und Natural Language Processing zeigt, dass ähnliche Techniken im Bereich Computational Humor eingesetzt werden können. Das Training von Deep-Learning-Modellen benötigt Datensets mit vielen Trainingsbeispielen, weshalb ich ein neuartiges Datenset mit einigen tausend Cartoons mit Pointe und einer zugehörigen Lustigkeits-Annotation erstellt habe. Das Datenset wurde mit einem eigenen Labelling Tool erstellt, durch eine einzelne Person. Dadurch enthält das Datenset den Humor dieser einen Person. Damit ist es möglich den Humor quantitativ mit den Ergebnissen der Deep-Learning-Modelle oder anderen Personen zu vergleichen. Nach einer extensiven Datensetanalyse, habe ich mehrere Deep Learning Architekturen entworfen und trainiert. Zuerst habe ich mich auf die visuelle Domäne (Cartoons) mit Convolutiona Neural Networks, Transfer Learning und Objekterkennung konzentriert. Danach war der Fokus bei der Text-Domäne (Pointe) mit Long Short-Term Memory Netzwerken, Word Embeddings (deep-learning-basierte und klassische) und automatischem Machine Learning. Abschließend, habe ich alle Erkenntnisse in einer Zwei-Phasen-Architektur vereint. Unglücklicherweise hat die Evaluation ergeben, dass die Aufgabe noch nicht mit den von mir angewandten Deep Learning Techniken fassbar ist. Ich habe zwei Performance Metriken ausgewählt (Durchschnittlicher Absoluter Fehler und Genauigkeit), sowie einige Baseline-Modelle (Häufigste Klasse, Durchschnittliche Klasse, etc.), aber kein Modell hatte signifikant bessere Ergebnisse als die Baselines. Auf dem Test-Set hatte ein Transfer-Learning-Ansatz die beste Genauigkeit mit 26.10%, während die häufigste Klasse eine Genauigkeit von 24.50% erreicht hat. Sowohl ein Deep-Learning Ansatz, als auch die mittlere Klasse konnten einen durchschnittlichen absoluten Fehler von 1.57 erreichen.Dies zeigt, dass die semantische Lücke zwischen Computer und Menschen noch zu groß ist und es mit aktuellen Deep-Learning-Techniken nicht möglich ist Humor einer einzelnen Person (subjektiv) zu modellieren. Es scheint, als sei für diese Aufgabe ein weiterer Durchbruch neben Deep-Learning notwendig.
de
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Deep Learning
de
dc.subject
Recurrent Networks
de
dc.subject
Natural Language Processing
de
dc.subject
Deep Learning
en
dc.subject
Recurrent Networks
en
dc.subject
Natural Language Processing
en
dc.title
Deep learning of humor from Gary Larson’s cartoons
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2020.56860
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Robert Fischer
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC15618961
-
dc.description.numberOfPages
88
-
dc.identifier.urn
urn:nbn:at:at-ubtuw:1-135873
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.openaccessfulltext
Open Access
-
crisitem.author.dept
E193 - Institut für Visual Computing and Human-Centered Technology