Deep learning of humor from Gary Larson’s cartoons

Fischer, Robert

doi:10.34726/hss.2020.56860

DC Field

Value

Language

dc.contributor.advisor

Eidenberger, Horst

dc.contributor.author

Fischer, Robert

dc.date.accessioned

2020-06-27T20:17:49Z

dc.date.issued

2020

dc.date.submitted

2020

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Fischer, R. (2020). <i>Deep learning of humor from Gary Larson’s cartoons</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.56860</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2020.56860

dc.identifier.uri

http://hdl.handle.net/20.500.12708/1348

dc.description.abstract

The aim of this thesis is to model humor using deep learning based on Gary Larsonscartoons. The recent success of deep learning in computer vision and natural languageprocessing shows that similar techniques can be applied in the field of computationalhumor. The training of deep learning models requires a dataset with many trainingsamples, which is why I created a novel dataset containing several thousands of GaryLarsons cartoons, punchlines and corresponding funniness annotations. The dataset wasannotated using a custom labelling tool, by the single person. Therefore, the datasetentails the humor of a single person. With this dataset it is possible to quantitativelycompare humor with the results of the deep learning models or with other people.After an extensive dataset analysis, I designed and trained several deep neural architectures.First, focusing on the visual domain (cartoons) using convolutional neuralnetworks, transfer learning and object detection techniques. Afterwards, I focused onthe text domain (punchlines) using Long Short-Term Memory networks, several wordembeddings (deep learning based and classical) and an automated machine learningapproach. Finally, I tried to combine all the findings into a unified two stage architecture.Unfortunately, the evaluation revealed that this task is not yet tractable by the deeplearning techniques applied. I chose two performance metrics (Mean absolute error andaccuracy) and several baseline models (most frequent class, mean class, etc.) and nomodel improved on the baselines significantly. On the test set a transfer learning basedapproach scored the best accuracy of 26.10%, while the most frequent class scored 24.50%.Both a deep learning approach and the mean class reached a mean absolute error of 1.57.These results show, that the semantic gap between computers and humans is too largefor current deep learning based approaches to successfully model the humor of a singleperson. It seems another breakthrough besides deep learning is required for this task.

dc.description.abstract

Das Ziel dieser Diplomarbeit ist es Humor durch Deep Learning basierend auf Gary Larsons Cartoons zu modellieren. Der jüngste Erfolg von Deep Learning in den Bereichen Computer Vision und Natural Language Processing zeigt, dass ähnliche Techniken im Bereich Computational Humor eingesetzt werden können. Das Training von Deep-Learning-Modellen benötigt Datensets mit vielen Trainingsbeispielen, weshalb ich ein neuartiges Datenset mit einigen tausend Cartoons mit Pointe und einer zugehörigen Lustigkeits-Annotation erstellt habe. Das Datenset wurde mit einem eigenen Labelling Tool erstellt, durch eine einzelne Person. Dadurch enthält das Datenset den Humor dieser einen Person. Damit ist es möglich den Humor quantitativ mit den Ergebnissen der Deep-Learning-Modelle oder anderen Personen zu vergleichen. Nach einer extensiven Datensetanalyse, habe ich mehrere Deep Learning Architekturen entworfen und trainiert. Zuerst habe ich mich auf die visuelle Domäne (Cartoons) mit Convolutiona Neural Networks, Transfer Learning und Objekterkennung konzentriert. Danach war der Fokus bei der Text-Domäne (Pointe) mit Long Short-Term Memory Netzwerken, Word Embeddings (deep-learning-basierte und klassische) und automatischem Machine Learning. Abschließend, habe ich alle Erkenntnisse in einer Zwei-Phasen-Architektur vereint. Unglücklicherweise hat die Evaluation ergeben, dass die Aufgabe noch nicht mit den von mir angewandten Deep Learning Techniken fassbar ist. Ich habe zwei Performance Metriken ausgewählt (Durchschnittlicher Absoluter Fehler und Genauigkeit), sowie einige Baseline-Modelle (Häufigste Klasse, Durchschnittliche Klasse, etc.), aber kein Modell hatte signifikant bessere Ergebnisse als die Baselines. Auf dem Test-Set hatte ein Transfer-Learning-Ansatz die beste Genauigkeit mit 26.10%, während die häufigste Klasse eine Genauigkeit von 24.50% erreicht hat. Sowohl ein Deep-Learning Ansatz, als auch die mittlere Klasse konnten einen durchschnittlichen absoluten Fehler von 1.57 erreichen.Dies zeigt, dass die semantische Lücke zwischen Computer und Menschen noch zu groß ist und es mit aktuellen Deep-Learning-Techniken nicht möglich ist Humor einer einzelnen Person (subjektiv) zu modellieren. Es scheint, als sei für diese Aufgabe ein weiterer Durchbruch neben Deep-Learning notwendig.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Deep Learning

dc.subject

Recurrent Networks

dc.subject

Natural Language Processing

dc.subject

Deep Learning

dc.subject

Recurrent Networks

dc.subject

Natural Language Processing

dc.title

Deep learning of humor from Gary Larson’s cartoons

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2020.56860

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Robert Fischer

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC15618961

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-135873

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E193 - Institut für Visual Computing and Human-Centered Technology

crisitem.author.parentorg

E180 - Fakultät für Informatik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.97 MB)

In Copyright

Show simple item record

Google Scholar^TM

Check

Google ScholarTM

Google Scholar^TM