<div class="csl-bib-body">
<div class="csl-entry">Schörkhuber, D. (2018). <i>Techniques for improving mobile video creation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.55540</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2018.55540
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/1881
-
dc.description.abstract
In dieser Diplomarbeit erforschen wir Methoden, um nicht professionelle Benutzer bei der Videoerstellung auf Mobilgeräten zu unterstützen. Die entwickelte Algorithmik ist eingebettet in ein storyboard-basiertes Anwendungskonzept. Wir stellen drei Arten von Assistenzsystemen vor, welche es einem Benutzer ohne Vorkenntnisse erlauben, kinematografische Konzepte anzuwenden und häufige Fehler bei der Aufnahme zu vermeiden. Um die Videoqualität zu verbessern, behandeln wir die Themen (a) Video Stabilisierung, (b) Shot-Typ Klassifikation und (c) Linsenverdeckung. Um ein Video zu stabilisieren, wird zunächst der Kamerapfad rekonstruiert. Wir vergleichen zwei Optimierungsansätze. Linear Programming wird eingesetzt, um den Kamerapfad stückweise zu linearisieren, und wir vergleichen diesen Ansatz mit einer lokalen Glättung des Pfades. In einem weiteren Ansatz präsentieren wir ein System zur automatischen Erkennung des Shot-Typs einer Szene. Zu dessen Erkennung extrahieren wir die Gelenkspunkte der dargestellten Akteure. Wir identifizieren den Hauptakteur und errechnen daraus eine kinematografische Beschreibung. Support Vector Maschinen zeigten in unserer Evaluierung die besten Klassifizierungsraten unter den verglichenen Ansätzen. Für Training und Evaluierung wurden mehrere Datensätze erstellt. Dabei setzen wir sowohl auf Szenen, die aus definierten Entfernungen aufgenommen wurden, als auch auf manuell annotierte Filmszenen. Das Klassifizierungsergebnis kann mit dem Storyboard verglichen werden, um korrektive Maßnahmen einzuleiten. Zuletzt behandeln wir unabsichtliche Verdeckungen der Kameralinse. Während der Videoaufnahme mit Smartphones ist es ein häufiger Fehler, die Linse unabsichtlich mit den Fingern zu verdecken. Wir formulieren das Problem als Segmentierungsaufgabe und wenden zur Lösung einen klassischen Bildverarbeitungsansatz als auch eine Deep Learning Methodik an. Die eingesetzte Deep Learning Architektur, eine Kombination aus Mobilenets und Fully Convolution Neural Network, zeigt deutlich bessere Ergebnisse.
de
dc.description.abstract
In this thesis, we explore methods to assist non-professional users with video creation on mobile devices. The developed algorithms are embedded into a video creation application featuring a storyboard-based workflow. We present three kinds of assistance systems which help the user avoiding mistakes commonly made by amateur users and follow cinematographic guidelines during recording. In order to improve the resulting video quality, we address the problems of (a) video stabilization, (b) shot-type classification, and (c) lens occlusion. In the context of video stabilization, the camera path is first reconstructed and then different optimization strategies are employed to improve the camera path. We use a Linear Programming approach to create a piece-wise linear path and compare it with a local smoothing method. Next, we present an approach to automatically infer the shot-type for a scene observed by a camera. Person keypoint detectors are used to extract joint information for all actors. We compute the skeletal representation of the main actor and classify it into a cinematographic description of the scene. Among the compared approaches for classification, support vector machines showed the best performance. For training and evaluation, we produce datasets based on image recordings at a set distance and manually annotated movie scenes. The result can be compared to a given storyboard in order to give feedback to the user accordingly. Finally, we address the problem of accidentally occluding the camera lens, which is a common mistake during recording with a smart phone. We formulate this task as a semantic segmentation problem and solve it with classical image processing as well as a deep learning method. The classical image processing approach is clearly outperformed by a combination of Mobilenets and Fully Convolutional Neural Networks.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Mobil
de
dc.subject
Videografie
de
dc.subject
Kinematografie
de
dc.subject
Mobile
en
dc.subject
Videography
en
dc.subject
Cinematography
en
dc.title
Techniques for improving mobile video creation
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2018.55540
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Dominik Schörkhuber
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC15243596
-
dc.description.numberOfPages
77
-
dc.identifier.urn
urn:nbn:at:at-ubtuw:1-119745
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
tuw.author.orcid
0000-0003-2015-6507
-
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-9476-0865
-
item.openaccessfulltext
Open Access
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.grantfulltext
open
-
item.mimetype
application/pdf
-
item.languageiso639-1
en
-
item.openairetype
master thesis
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
crisitem.author.dept
E193-01 - Forschungsbereich Computer Vision
-
crisitem.author.orcid
0000-0003-2015-6507
-
crisitem.author.parentorg
E193 - Institut für Visual Computing and Human-Centered Technology