<div class="csl-bib-body">
<div class="csl-entry">Zeisler, M. (2025). <i>Optimizing PTZNet for Real-World Deployment - Batch-Level Mixing to Compensate for Data Scarcity in Pose and Overlap Regression</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.120202</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2025.120202
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/225011
-
dc.description
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
In urban planning and traffic management, Pan, Tilt and Zoom (PTZ) cameras monitor streets, intersections, and public areas. Precisely estimating how a single PTZ camera moves between images, and how much their Fields of View (FoVs) overlap, is challenging due to scene variability, lens distortion, dynamic motion, and limited or unavailable camera parameters. Collecting large, diverse real-world datasets with precise metadata is costly and logistically complex. This thesis investigates whether our Siamese deep learning model, PTZNet, can infer relative PTZ rotations and FoV overlap with competitive performance caused by camera movement between image pairs, while relying primarily on virtually created synthetic images and mitigating the Synthetic-To-Real (S2R) domain gap, which is the discrepancy in feature distribution between real-world and synthetic data. PTZNet jointly regresses camera rotation and FoV overlap. Performance is measured with a 3D rotation error, the spherical Intersection over Union (IoU) for overlap, and a combined relative error capturing joint accuracy. A key element is the Batch-Level Mixing (BLM) method, which strategically integrates synthetic and limited real-world images within training batches to improve generalization to real-world scenes. Our experiments show that mixing synthetic images with a small amount of real-world data yields substantially lower errors in predicting rotation and overlap than training on either domain alone. This improvement persists across varying real-data amounts: When real-world image collection is costly, training primarily on synthetic images and tuning with a small targeted set of real-world samples effectively compensates for limited real-world data and improves inference. The man contributions of this work include (1) an analysis of the S2R domain gap for virtually created PTZ data and its effect on inference, (2) the development of the Batch-Level Mixing (BLM) data training strategy that outperforms Dataset-Level Mixing (DLM) in robustness to domain shift, (3) quantitative evidence that synthetic images improve relative PTZ rotation and overlap prediction accuracy when real-world images are scarce, and (4) the introduction of PTZNet, a Siamese architecture for joint PTZ rotation and FoV-overlap regression trained on mix of synthetic and real-world data.
en
dc.description.abstract
In der Stadtplanung und im Verkehrsmanagement überwachen Pan, Tilt and Zoom(PTZ)-Kameras Straßen, Kreuzungen und öffentliche Bereiche. Die präzise Schätzung, wie sich eine einzelne PTZ-Kamera zwischen Bildern bewegt und in welchem Maße sich ihre Fields of View (FoVs) überlappen, ist anspruchsvoll - bedingt durch Szenenvariabilität,Linsenverzerrungen, dynamische Bewegungen sowie durch begrenzte oder fehlende Kameraparameter. Das Sammeln großer, diverser Echtwelt-Datensätze mit präzisen Metadaten ist sowohl kostenintensiv als auch logistisch komplex. Diese Arbeit untersucht, ob unser siamesisches Deep-Learning-Modell, das PTZNet, in der Lage ist, relative PTZ-Rotationen und FoV-Überlappungen aus Bildpaaren infolgevon Kamerabewegungen zuverlässig zu schätzen. Dabei wird hauptsächlich auf virtuell erstellte synthetische Bilder zurückgegriffen, während gleichzeitig die Überbrückung der Synthetic-To-Real (S2R)-Domänenlücke adressiert wird - also die Diskrepanz in der Merkmalsverteilung zwischen realen und synthetischen Daten. PTZNet schätzt gleichzeitig die Kamerarotation und die FoV-Überlappung. Die Genauigkeit wird anhand des 3D-Rotationsfehlers, der sphärischen Intersection over Union(IoU) für die Überlappung sowie eines kombinierten relativen Fehlers zur gemeinsamen Genauigkeitsbewertung gemessen. Ein zentrales Element ist das Batch-Level Mixing(BLM)-Verfahren, das synthetische und begrenzt verfügbare Echtwelt-Bilder strategisch innerhalb von Trainingsbatches integriert, um die Generalisierbarkeit auf reale Szenen zu verbessern. Unsere Experimente zeigen, dass die Mischung synthetischer Bilder mit einer kleinen Menge realer Daten deutlich geringere Rotations- und Überlappungsfehler erzielt als das Training auf nur einer der beiden Domänen. Dieser Vorteil bleibt über verschiedene Men-gen realer Daten hinweg bestehen: Wenn die Erhebung von Echtwelt-Bildern kostspielig ist, kann ein primär auf synthetischen Bildern basierendes Training, ergänzt durch eine gezielte kleine Menge realer Daten, den Mangel an großer Mengen von Echtwelt-Dateneffektiv ausgleichen und die Inferenz verbessern. Die Forschungsbeiträge dieser Arbeit umfassen (1) die Analyse der S2R-Domänenlücke für synthetisch erzeugte PTZ-Daten und deren Einfluss auf die Inferenz, (2) die Entwicklung einer Batch-Level Mixing (BLM) Trainingsstrategie, die, verglichen mit einem Dataset-Level Mixing (DLM), robuster gegen Domänenverschiebungen ist, (3) den quantitativenix Nachweis, dass synthetische Bilder die Schätzung relativer PTZ-Rotationen und FoV-Überlappungen verbessern, wenn reale Daten knapp sind, sowie (4) die Einführung von PTZNet - einer siamesischen Architektur für die gemeinsame Regression von PTZ-Rotation und FoV-Überlappung, trainiert auf gemischten synthetischen und realen Daten.
de
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
PTZ Camera
en
dc.subject
Batch-Level Mixing
en
dc.subject
Data Scarcity
en
dc.subject
Synthetic-To-Real
en
dc.subject
Domain Adaptation
en
dc.subject
Relative Pose Regression
en
dc.subject
FoV Overlap Regression
en
dc.subject
Domain Gap
en
dc.subject
Deep Learning
en
dc.subject
PTZNet
en
dc.title
Optimizing PTZNet for Real-World Deployment - Batch-Level Mixing to Compensate for Data Scarcity in Pose and Overlap Regression
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2025.120202
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Marco Zeisler
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E193 - Institut für Visual Computing and Human-Centered Technology