Optimizing PTZNet for real-world deployment : batch-level mixing to compensate for data scarcity in pose and overlap regression

Zeisler, Marco

doi:10.34726/hss.2025.120202

Record link:

https://doi.org/10.34726/hss.2025.120202
http://hdl.handle.net/20.500.12708/225011

Title:

Optimizing PTZNet for real-world deployment : batch-level mixing to compensate for data scarcity in pose and overlap regression

Citation:

Zeisler, M. (2025). Optimizing PTZNet for real-world deployment : batch-level mixing to compensate for data scarcity in pose and overlap regression [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.120202

reposiTUm DOI:

10.34726/hss.2025.120202

CatalogPlus:

AC17751848

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Zeisler, Marco

Advisor:

Gelautz, Margrit

Organisational Unit:

E193 - Institut für Visual Computing and Human-Centered Technology

Date (published):

2025

Number of Pages:

141

Keywords:

PTZ Camera; Batch-Level Mixing; Data Scarcity; Synthetic-To-Real; Domain Adaptation; Relative Pose Regression; FoV Overlap Regression; Domain Gap; Deep Learning; PTZNet

Abstract:

In urban planning and traffic management, Pan, Tilt and Zoom (PTZ) cameras monitor streets, intersections, and public areas. Precisely estimating how a single PTZ camera moves between images, and how much their Fields of View (FoVs) overlap, is challenging due to scene variability, lens distortion, dynamic motion, and limited or unavailable camera parameters. Collecting large, diverse real-world datasets with precise metadata is costly and logistically complex. This thesis investigates whether our Siamese deep learning model, PTZNet, can infer relative PTZ rotations and FoV overlap with competitive performance caused by camera movement between image pairs, while relying primarily on virtually created synthetic images and mitigating the Synthetic-To-Real (S2R) domain gap, which is the discrepancy in feature distribution between real-world and synthetic data. PTZNet jointly regresses camera rotation and FoV overlap. Performance is measured with a 3D rotation error, the spherical Intersection over Union (IoU) for overlap, and a combined relative error capturing joint accuracy. A key element is the Batch-Level Mixing (BLM) method, which strategically integrates synthetic and limited real-world images within training batches to improve generalization to real-world scenes. Our experiments show that mixing synthetic images with a small amount of real-world data yields substantially lower errors in predicting rotation and overlap than training on either domain alone. This improvement persists across varying real-data amounts: When real-world image collection is costly, training primarily on synthetic images and tuning with a small targeted set of real-world samples effectively compensates for limited real-world data and improves inference. The man contributions of this work include (1) an analysis of the S2R domain gap for virtually created PTZ data and its effect on inference, (2) the development of the Batch-Level Mixing (BLM) data training strategy that outperforms Dataset-Level Mixing (DLM) in robustness to domain shift, (3) quantitative evidence that synthetic images improve relative PTZ rotation and overlap prediction accuracy when real-world images are scarce, and (4) the introduction of PTZNet, a Siamese architecture for joint PTZ rotation and FoV-overlap regression trained on mix of synthetic and real-world data.

In der Stadtplanung und im Verkehrsmanagement überwachen Pan, Tilt and Zoom(PTZ)-Kameras Straßen, Kreuzungen und öffentliche Bereiche. Die präzise Schätzung, wie sich eine einzelne PTZ-Kamera zwischen Bildern bewegt und in welchem Maße sich ihre Fields of View (FoVs) überlappen, ist anspruchsvoll - bedingt durch Szenenvariabilität,Linsenverzerrungen, dynamische Bewegungen sowie durch begrenzte oder fehlende Kameraparameter. Das Sammeln großer, diverser Echtwelt-Datensätze mit präzisen Metadaten ist sowohl kostenintensiv als auch logistisch komplex. Diese Arbeit untersucht, ob unser siamesisches Deep-Learning-Modell, das PTZNet, in der Lage ist, relative PTZ-Rotationen und FoV-Überlappungen aus Bildpaaren infolgevon Kamerabewegungen zuverlässig zu schätzen. Dabei wird hauptsächlich auf virtuell erstellte synthetische Bilder zurückgegriffen, während gleichzeitig die Überbrückung der Synthetic-To-Real (S2R)-Domänenlücke adressiert wird - also die Diskrepanz in der Merkmalsverteilung zwischen realen und synthetischen Daten. PTZNet schätzt gleichzeitig die Kamerarotation und die FoV-Überlappung. Die Genauigkeit wird anhand des 3D-Rotationsfehlers, der sphärischen Intersection over Union(IoU) für die Überlappung sowie eines kombinierten relativen Fehlers zur gemeinsamen Genauigkeitsbewertung gemessen. Ein zentrales Element ist das Batch-Level Mixing(BLM)-Verfahren, das synthetische und begrenzt verfügbare Echtwelt-Bilder strategisch innerhalb von Trainingsbatches integriert, um die Generalisierbarkeit auf reale Szenen zu verbessern. Unsere Experimente zeigen, dass die Mischung synthetischer Bilder mit einer kleinen Menge realer Daten deutlich geringere Rotations- und Überlappungsfehler erzielt als das Training auf nur einer der beiden Domänen. Dieser Vorteil bleibt über verschiedene Men-gen realer Daten hinweg bestehen: Wenn die Erhebung von Echtwelt-Bildern kostspielig ist, kann ein primär auf synthetischen Bildern basierendes Training, ergänzt durch eine gezielte kleine Menge realer Daten, den Mangel an großer Mengen von Echtwelt-Dateneffektiv ausgleichen und die Inferenz verbessern. Die Forschungsbeiträge dieser Arbeit umfassen (1) die Analyse der S2R-Domänenlücke für synthetisch erzeugte PTZ-Daten und deren Einfluss auf die Inferenz, (2) die Entwicklung einer Batch-Level Mixing (BLM) Trainingsstrategie, die, verglichen mit einem Dataset-Level Mixing (DLM), robuster gegen Domänenverschiebungen ist, (3) den quantitativenix Nachweis, dass synthetische Bilder die Schätzung relativer PTZ-Rotationen und FoV-Überlappungen verbessern, wenn reale Daten knapp sind, sowie (4) die Einführung von PTZNet - einer siamesischen Architektur für die gemeinsame Regression von PTZ-Rotation und FoV-Überlappung, trainiert auf gemischten synthetischen und realen Daten.

License:

In Copyright

Appears in Collections:

Thesis