Hagen, T. (2021). Real-time Background Substraction System for Videos on Mobile Devices [Diploma Thesis, Technische Universität Wien]. reposiTUm. http://hdl.handle.net/20.500.12708/78439
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2021
-
Number of Pages:
88
-
Keywords:
Hintergrundsubtraktion; CNN; Smart Phone
de
Background subtraction; CNN; video surveillance; real-time; mobile device
en
Abstract:
Aufgrund seiner Portabilität und seiner Fähigkeit Videos aufzunehmen und zu verarbeiten,ist ein Mobilgerät praktisch für Computer Vision Applikationen. Hintergrundsubtraktion,welche die Pixel im Vordergrund und im Hintergrund voneinander trennt, ist einer der ersten Schritte für zahlreiche Computer Vision Applikationen, wie Hintergrundentfernung oder Hintergrundersatz. In den letzten zehn Jahren wurden Deep-Learning-basierte Methoden der Hintergrundsubtraktion besonders erforscht. Obwohl diese Modelle Teil des State of the Art sind, erreichen sie nicht die Echtzeitausführung auf der CPU eines Mobilgeräts. Nachdem Mobilgeräte nur eine limitierte Rechenleistung haben, ist es essenziell, neurale Netzwerkmodelle zu adaptieren und den Trade-Off zwischen Genauigkeit und Latenz zu evaluieren. In dieser Masterarbeit implementieren wir neurale Netzwerkarchitekturen für Echtzeit-Hintergrundsubtraktion auf der CPU eines Mobilgerätes. Wir evaluieren unsere Modelle mit zwei unterschiedlichen Datensätzen, nämlich CDNet2014 und DAVIS2016 . Darüber hinaus untersuchen wir geeignete Datensätze für Pre-Training,sowie Eingabekombinationen für die beiden oben genannten Datensätze. Wir zeigen auch den Trade-off zwischen Genauigkeit und Latenz in Bezug auf die Netzwerkarchitektur.Unser Modell, dessen Encoder MobileNetV3 Small ist, wird unter anderem in 71.2 ms,mit einer Eingangsauflösung von 320 × 256, auf einem Snapdragon 845 ausgeführt. Auf CDNet2014, welches ein Datensatz für die Hintergrundsubtraktion ist, erreicht das Modell einen F1-Wert von 0,850. Die Evaluierung des Modells erfolgt durch die Anwendung auf einer Mobilapplikation für Android und erreicht 97.8 ms in der Ausführung. Beider Ausführung des semi-supervised Task mit DAVIS2016 erreicht unser Modell einen Jaccard-Index von 70.9 %.
de
A mobile device is practical for computer vision applications because of its portability and its ability to record and process videos. Background subtraction, which separates the foreground and background pixels in an image, is one of the initial steps for numerouscomputer vision applications, such as background removal or background replacement.For the past decade, deep neural network models for background subtraction have been researched. Although these models are state of the art, they do not reach real-time execution on the CPU of mobile devices. Since mobile devices have limited computational resources, adapting neural network models and evaluating their trade-off between accuracy and latency on mobile devices is essential. In this thesis, we present neural network models for real-time background subtraction on the CPU of mobile devices. We evaluate our models on two different datasets: CDNet2014 and DAVIS2016. Moreover, we investigate suitable datasets for pre-training and input combinations for both of them. We also show the trade-off between accuracy and latency concerning the network architecture. In particular, our model, whose encoder is MobileNet V3 Small, is executed in 71.2 ms on a Snapdragon 845, for an input resolution of 320 × 256. On CDNet2014, which is a dataset for background subtraction, the model reaches an F1 score of 0.850. This model is also evaluated on the mobile application that we implemented for android and achieves 97.8ms. On the semi-supervised task with DAVIS2016, our model reaches a Jaccard Index of70.9 %.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers