Evaluating SAR-to-optical image translation using pix2pix with different loss functions

Wagner, David

doi:10.34726/hss.2026.123201

Record link:

https://doi.org/10.34726/hss.2026.123201
http://hdl.handle.net/20.500.12708/228070

Title:

Evaluating SAR-to-optical image translation using pix2pix with different loss functions

Citation:

Wagner, D. (2026). Evaluating SAR-to-optical image translation using pix2pix with different loss functions [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.123201

reposiTUm DOI:

10.34726/hss.2026.123201

CatalogPlus:

AC17859763

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Wagner, David

Advisor:

Fenz, Stefan

Organisational Unit:

E194 - Institut für Information Systems Engineering

Date (published):

2026

Number of Pages:

Keywords:

SAR-to-optical image translation; Remote sensing; pix2pix; Loss functions; Sen1-2

Abstract:

Die Technologie Synthetic Aperture Radar (SAR) ermöglicht es, Aufnahmen der Erdoberfläche unabhängig von Wetter- und Tageszeit zu erstellen. Leider ist die Interpretation von SAR-Bildern komplex und stellt für Laien eine sehr anspruchsvolle Aufgabe dar. Aus diesem Grund hat die Übersetzung von SAR-Bildern in einfach zu interpretierende optische Bilder das Potenzial, den praktischen Nutzen von SAR-Bildern deutlich zu steigern. In den letzten Jahren wurden Generative Adversarial Networks (GANs) häufig eingesetzt, um dieses Problem zu lösen. Diese Forschungsarbeit untersucht den Einfluss verschiedener Verlustfunktionen auf die Übersetzung von SAR-Bildern in optische, basierend auf der Pix2Pix-Architektur. Mehrere vielversprechende Verlustfunktionen, darunter LSGAN-, WGAN- und kontextueller Verlust, kombiniert mit der L1-Distanz, wurden für diese Übersetzungen getestet. Die Modelle wurden mit dem SEN1-2-Datensatz trainiert und evaluiert. Die Ergebnisse wurden quantitativ mit den Metriken Structural Similarity Index (SSIM) und Peak Signal-to-Noise Ratio (PSNR) evaluiert. Zusätzlich wurde auch eine strukturierte qualitative Analyse mit Fokus auf die visuell wahrnehmbare Bildqualität durchgeführt. Die Ergebnisse zeigen, dass alternative Verlustfunktionen die Übersetzungsleistung im Vergleich zur Standard-pix2pix-Baseline deutlich verbessern können. Insbesondere lieferte die Kombination aus Wasserstein- und L1-Distanz die realistischsten Bilder, die dem jeweiligen Original sowohl quantitativ als auch qualitativ am nächsten waren. Die Experimente zeigten außerdem, dass eine hohe Gewichtung der L1-Distanz entscheidend für Verbesserungen bei den quantitativen Metriken war, während die GAN-Verlustfunktionen für visuell realistische Bilder einen wichtigen Beitrag lieferten. Das Hinzufügen von kontextuellem Verlust führte zu keinen Verbesserungen, sondern oft sogar zu sichtbaren Artefakten in den generierten Bildern. Die Auswertung der Ergebnisse verdeutlichte zudem die Grenzen gängiger quantitativer Evaluierungsmetriken, da diese nicht vollständig mit den qualitativen Ergebnissen auf Basis visueller Bewertungen übereinstimmten. Darüber hinaus wurde festgestellt, dass die hohe Empfindlichkeit von GANs auf Veränderungen der Hyperparameter einen starken Einfluss auf die Ergebnisse haben kann.

Synthetic Aperture Radar (SAR) imagery is able to provide images of Earth’s surface independent of weather and lighting conditions, but its interpretation is complex and a challenging task for non-experts. Translating SAR images into optical images has the potential to significantly improve human interpretability. In recent years, generative adversarial networks (GANs) have been widely used to solve this problem.This research studies the impact that different loss functions have on SAR-to-optical image translation using the pix2pix architecture. Several promising loss functions, including LSGAN, WGAN, and contextual loss, combined with L1 loss, were tested for this task. The models were trained and evaluated using the SEN1-2 dataset using the qualitative metrics - Structrual Similarity Index (SSIM) and Peak Signal-to-Noise Ratio (PSNR) - as well as a structured qualitative analysis focused on perceptual image quality.The results demonstrate that alternative loss functions can substantially improve translation performance compared to the standard pix2pix baseline. Specifically, the combination of the Wasserstein adversarial loss with L1 loss produced the most realistic images that were closest to the ground truth they were compared to.The experiments further demonstrated that a strong L1 loss component was essential for improvements in SSIM and PSNR, while the adversarial loss component was essential for perceptually realistic images. The addition of contextual loss did not lead to consistent improvements and often introduced visible artifacts in the generated images.The evaluation of the results further highlighted the limitations of commonly used quantitative evaluation metrics, as they did not fully correspond to the qualitative findings based on perceptual rankings. Additionally, the strong sensitivity of GANs to their hyperparameters was found to heavily contribute to the final results, due to the high complexity of finding the optimal hyperparameters for every loss function.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft

License:

In Copyright

Appears in Collections:

Thesis