Multi-modal fusion of depth and thermal images for human behavior modeling

Strohmayer, Julian

doi:10.34726/hss.2020.66201

DC Element

Wert

Sprache

dc.contributor.advisor

Kampel, Martin

dc.contributor.author

Strohmayer, Julian

dc.date.accessioned

2020-06-27T20:16:35Z

dc.date.issued

2020

dc.date.submitted

2020

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Strohmayer, J. (2020). <i>Multi-modal fusion of depth and thermal images for human behavior modeling</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2020.66201</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2020.66201

dc.identifier.uri

http://hdl.handle.net/20.500.12708/1343

dc.description.abstract

Traditional cameras have been used extensively for vision-based Human Behavior Modeling (HBM) applications. However, common detection, segmentation and recognition tasks involving humans are comparatively challenging in this modality, as humans tend to blend with the background. The emergence of consumer grade depth and thermal cameras opens up new opportunities in this regard. Thermal images offer excellent contrast between humans and the background, while depth images provide scene geometry information. Depth and thermal images are thus complementary for vision-based HBM applications, yet research on this matter is limited.We address this research gap by exploring the fusion of depth and thermal images for HBM applications and demonstrate the potential benefits of such an approach. A compact multi-modal camera unit, featuring a depth and a thermal camera, is constructed using off-the-shelf parts and 3D printing. Furthermore, we address data acquisition challenges by presenting our own multi-modal image synthesis method for human depth and thermal images, which is based on 3D rendering and camera noise modeling. The capabilities of our method are assessed on a four-class classification problem. Uni- and multi-modal Convolutional Neural Networks (CNN) are trained on synthetic data to evaluate whether the resulting models generalize to real data, effectively demonstrating the capabilities of our synthesis method. Our multi-modal model, trained on synthetic depth and thermal images, achieves an accuracy of 0.971 on the test data set containing real images, showing that our synthesis method is capable of producing realistic images.

dc.description.abstract

Bildbasierte Anwendungen aus dem Bereich der Verhaltensmodellierung setzen noch häufig auf herkömmliche Kamerasysteme. Die verwendeten Bilder sind jedoch für Aufgaben wie die Detektion, die Segmentierung und die Erkennung von Personen vergleichsweise ungeeignet, weil Personen leicht mit dem Hintergrund verschmelzen. Das Aufkommen von kostengünstigen Tiefen- und Thermalkameras eröffnet diesbezüglich neue Möglichkeiten. Durch den Wärmeunterschied bedingten Kontrast sind Menschen in Thermalbildern gut vom Hintergrund zu unterscheiden, während Tiefenbilder Information über die Szenengeometrie beinhalten, die dafür ebenfalls relevant ist. Tiefen- und Thermalbilder ergänzen sich somit bei Aufgaben aus dem Bereich der Verhaltensmodellierung, Forschungsarbeiten zu diesem Thema sind jedoch selten. Wir tragen in dieser Diplomarbeit zur Schließung dieser Forschungslücke bei, indem wir die Verschmelzung von Tiefen- und Thermalbildern für Anwendungen im Bereich der Verhaltensmodellierung untersuchen und die potentiellen Vorteile eines solchen Ansatzes demonstrieren. Der Bau einer kompakten multi-modalen Kameraeinheit, welche eine Tiefen- und Thermalkamera besitzt, wird vorgeführt. Darüber hinaus befassen wir uns mit dem Problem der Datenbeschaffung im Bereich der Verhaltensmodellierung und präsentieren unsere Methode für die automatisierte Synthese von Tiefen- und Thermalbildern, welche auf 3D-Rendering und Kamerarauschmodellierung basiert. Die Methode wird im Rahmen eines Klassifizierungsproblems evaluiert, wobei verschiedene uni- und multi-modale Convolutional Neural Networks (CNN) auf einem synthetischen Trainingsdatensatz trainiert werden, um zu überprüfen, ob sich die resultierenden Modelle auf reale Daten verallgemeinern lassen. Unser multi-modales Modell, welches auf synthetischen Daten trainiert wurde, erreicht eine Accuracy von 0.971 auf dem Testdatensatz der ausschließlich reale Bilder enthält, was die Effektivität unserer Synthesemethode belegt.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Ambient assisted living

dc.subject

human detection

dc.subject

behavior modeling

dc.subject

image fusion

dc.subject

multi-modal; thermal image

dc.subject

synthetic thermal image

dc.subject

depth image

dc.subject

deep learning

dc.subject

Ambient assisted living

dc.subject

human detection

dc.subject

behavior modeling

dc.subject

image fusion

dc.subject

multi-modal; thermal image

dc.subject

synthetic thermal image

dc.subject

depth image

dc.subject

deep learning

dc.title

Multi-modal fusion of depth and thermal images for human behavior modeling

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2020.66201

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Julian Strohmayer

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E193 - Institut für Visual Computing and Human-Centered Technology

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC15621625

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-136072

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

tuw.author.orcid

0000-0003-1560-4221

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.advisor.orcid

0000-0002-5217-2854

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E193-01 - Forschungsbereich Computer Vision

crisitem.author.orcid

0000-0003-1560-4221

crisitem.author.parentorg

E193 - Institut für Visual Computing and Human-Centered Technology

Enthalten in den Sammlungen:

Thesis

Volltext (Version of Record (published version))

Adobe PDF

(6.78 MB)

Urheberrechtsschutz

Zur Kurzanzeige

Seiten Aufrufe

522

aufgerufen am 22.11.2023

Download(s)

373

aufgerufen am 22.11.2023

Google Scholar^TM

Check

Seiten Aufrufe

Download(s)

Google ScholarTM

Google Scholar^TM