Knapp, J. (2021). Real-time person segmentation on mobile phones [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.78701
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2021
-
Number of Pages:
105
-
Keywords:
Videosegmentierung; Convolutional Neural Networks & mobile Netzwerke
de
video segmentation; convolutional neural networks; mobile networks
en
Abstract:
Die Erkennung und Segmentierung von Objekten spielt eine essenzielle Rolle im Prozess der Informationsgewinnung aus Videodaten. Von besonderer Relevanz in diversen Anwendungsgebieten des maschinellen Sehens ist in diesem Kontext das Hervorheben menschlicher Silhouetten, etwa in der Videoüberwachung, im autonomen Straßenverkehr, in der Interaktion von Mensch und Maschine oder im Bereich des "Ambient Assisted Living". Im Zuge dieser Diplomarbeit wird die Eignung von "Convolutional Neural Networks" (CNNs) zu diesem Zweck untersucht. Zusätzlich wird evaluiert, wie solch neuronale Netzwerke konstruiert werden können, um die aufeinander folgenden Bildern inhärente zeitliche Information effizient für Segmentierungszwecke zu nutzen und somit die Erkennungsrate zu verbessern. Konkret wird dies anhand der Entwicklung einer Applikation für Mobilgeräte diskutiert, welche die Erkennung menschlicher Umrisse auf einem Live-Video-Stream, aufgezeichnet von der Kamera des Geräts, realisiert. Dadurch bedingt liegt ein weiterer Fokus der Arbeit auf der effizienten Umsetzung neuronaler Netzwerke hinsichtlich der limitierten Ressourcen von Mobilgeräten.
de
The detection and segmentation of objects plays an essential role in the process of extracting information from video data. The emphasis of human silhouettes is in this context of particular interest in various application fields of computer vision, such as surveillance, autonomous driving, human computer interaction (HCI), or ambient assisted living (AAL). This thesis explores the suitability of convolutional neural networks (CNNs) for this purpose. In addition, it will be evaluated how such neural networks can be constructed to effectively use the temporal information inherent in successive frames for segmentation purposes, thus improving the recognition rate. Specifically, this will be discussed through the development of an application for mobile devices, which realizes the recognition of human silhouettes on a live video stream, recorded by the camera of the device. Therefore, another focus of this thesis lies on the efficient implementation of neural networks with regards to the limited computational resources provided by mobiles.