Strohmayer, J. (2020). Multi-modal fusion of depth and thermal images for human behavior modeling [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.66201
E193 - Institut für Visual Computing and Human-Centered Technology
-
Date (published):
2020
-
Number of Pages:
96
-
Keywords:
Ambient assisted living; human detection; behavior modeling; image fusion; multi-modal; thermal image; synthetic thermal image; depth image; deep learning
de
Ambient assisted living; human detection; behavior modeling; image fusion; multi-modal; thermal image; synthetic thermal image; depth image; deep learning
en
Abstract:
Traditional cameras have been used extensively for vision-based Human Behavior Modeling (HBM) applications. However, common detection, segmentation and recognition tasks involving humans are comparatively challenging in this modality, as humans tend to blend with the background. The emergence of consumer grade depth and thermal cameras opens up new opportunities in this regard. Thermal images offer excellent contrast between humans and the background, while depth images provide scene geometry information. Depth and thermal images are thus complementary for vision-based HBM applications, yet research on this matter is limited.We address this research gap by exploring the fusion of depth and thermal images for HBM applications and demonstrate the potential benefits of such an approach. A compact multi-modal camera unit, featuring a depth and a thermal camera, is constructed using off-the-shelf parts and 3D printing. Furthermore, we address data acquisition challenges by presenting our own multi-modal image synthesis method for human depth and thermal images, which is based on 3D rendering and camera noise modeling. The capabilities of our method are assessed on a four-class classification problem. Uni- and multi-modal Convolutional Neural Networks (CNN) are trained on synthetic data to evaluate whether the resulting models generalize to real data, effectively demonstrating the capabilities of our synthesis method. Our multi-modal model, trained on synthetic depth and thermal images, achieves an accuracy of 0.971 on the test data set containing real images, showing that our synthesis method is capable of producing realistic images.
en
Bildbasierte Anwendungen aus dem Bereich der Verhaltensmodellierung setzen noch häufig auf herkömmliche Kamerasysteme. Die verwendeten Bilder sind jedoch für Aufgaben wie die Detektion, die Segmentierung und die Erkennung von Personen vergleichsweise ungeeignet, weil Personen leicht mit dem Hintergrund verschmelzen. Das Aufkommen von kostengünstigen Tiefen- und Thermalkameras eröffnet diesbezüglich neue Möglichkeiten. Durch den Wärmeunterschied bedingten Kontrast sind Menschen in Thermalbildern gut vom Hintergrund zu unterscheiden, während Tiefenbilder Information über die Szenengeometrie beinhalten, die dafür ebenfalls relevant ist. Tiefen- und Thermalbilder ergänzen sich somit bei Aufgaben aus dem Bereich der Verhaltensmodellierung, Forschungsarbeiten zu diesem Thema sind jedoch selten. Wir tragen in dieser Diplomarbeit zur Schließung dieser Forschungslücke bei, indem wir die Verschmelzung von Tiefen- und Thermalbildern für Anwendungen im Bereich der Verhaltensmodellierung untersuchen und die potentiellen Vorteile eines solchen Ansatzes demonstrieren. Der Bau einer kompakten multi-modalen Kameraeinheit, welche eine Tiefen- und Thermalkamera besitzt, wird vorgeführt. Darüber hinaus befassen wir uns mit dem Problem der Datenbeschaffung im Bereich der Verhaltensmodellierung und präsentieren unsere Methode für die automatisierte Synthese von Tiefen- und Thermalbildern, welche auf 3D-Rendering und Kamerarauschmodellierung basiert. Die Methode wird im Rahmen eines Klassifizierungsproblems evaluiert, wobei verschiedene uni- und multi-modale Convolutional Neural Networks (CNN) auf einem synthetischen Trainingsdatensatz trainiert werden, um zu überprüfen, ob sich die resultierenden Modelle auf reale Daten verallgemeinern lassen. Unser multi-modales Modell, welches auf synthetischen Daten trainiert wurde, erreicht eine Accuracy von 0.971 auf dem Testdatensatz der ausschließlich reale Bilder enthält, was die Effektivität unserer Synthesemethode belegt.