Staats, M. (2024). Alpine terrain relighting : deep-learning based single image shadow-removal with digital elevation models [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.112641
Luftbilder zusammen mit digitalen Höhenmodellen (DHM) ermöglichen die Darstellung von 3D-Repräsentationen der Erde, einschließlich alpiner Gebiete. Diese virtuellen Landschaften bieten die Möglichkeit, Lichtverhältnisse zu verschiedenen Tageszeiten zu simulieren, was die Planung von Bergtouren vereinfachen kann. Allerdings enthalten die als Textur verwendeten Orthofotos oft große Schatten von Bergen und Felsen, die die visuelle Qualität der künstlich beleuchteten Texturen erheblich beeinträchtigen. Der notwendige Prozess, um Schatten aus Einzelbildern zu entfernen, stellt ein entscheidendes Problem für das Gebiet der Computer Vision dar und dient auch als Voraussetzung für viele andere Aufgaben wie Segmentierung und Klassifizierung. Einige vielversprechende Ansätze wurden bereits entwickelt, aber im Gegensatz zu früheren Methoden versucht diese Arbeit mithilfe von den Verfügbaren DHMs den Schattenentfernungsprozess zu verbessern. Schatten in Orthofotos sind inhärent mit der zugrunde liegenden raumbezogenen Topologie verbunden und DHMs bieten eine wertvolle Informationsquelle, um Schatteneffekte zu verringern. Daher beschäftigt sich diese Arbeit mit der Integration von DHMs in eine moderne Deep-Learning Pipeline. DHMs werden auf ihre Rolle bei der Erzeugung von Trainingsdatensätzen und als zusätzlicher Input für ein multimodales Netzwerk untersucht. Insbesondere wird die aus DHMs abgeleitete 3D-Geometrie, komplementiert durch Raytracing, verwendet, um künstliche Schatten mit realistischen Formen zu erzeugen. Anschließend wird ein Experiment mit dem erstellten Datensatz durchgeführt, um empirisch und qualitativ zu prüfen, ob zusätzliche Höhendaten die Leistung der Modelle verbessern können. Darüber hinaus wurde die Fähigkeit der Modelle, von künstlichen Schatten auf reale Schatten zu verallgemeinern, geprüft. Das Experiment mit virtuellen Schatten zeigte, dass die Bereitstellung zusätzlicher Höhendaten für das Schattenentfernungsnetzwerk signifikant bessere Ergebnisse mit einer mittleren bis großen Effektgröße liefert. Anfänglich konnte keiner der trainierten Modelle auf echte Schatten verallgemeinern. Das Verkleinern des Datensatzes auf eine niedrigere Detailstufe verringerte dieses Problem. Zusammen mit einer Analyse der Ausgaben jeder Netzwerkschicht wurde geschlussfolgert, dass der Grund für die unzureichende Leistung bei echten Schatten kleine im Trainingsset verbliebene echte Schatten sind. Die aus dieser Kenntnis gewonnenen verbesserten Modelle wurden einer visuellen Analyse unterzogen und zeigten, dass Höhendaten und die generierten realistischeren Schattenformen zu sichtbaren Verbesserungen bei der Verallgemeinerungsfähigkeit der Modelle beitragen.
de
Aerial orthophotos together with digital elevation models (DEMs) allow the rendering of 3D representations of the earth, including alpine terrain. These virtual landscapes provide the opportunity to simulate light conditions at different times of the day, aiding in trip planning. However, orthophotos used as texture often contain large shadows stemming from cliffs and rocks, which significantly impact the visual quality of relighted textures. The necessary single-image shadow-removal process presents a crucial problem for the computer vision domain, which also functions as a prerequisite for many other tasks like segmentation and classification. Many promising approaches have already been developed, but unlike previous methods, this study tries to capitalize on the availability of DEMs to enhance the shadow removal process. Shadows in orthophotos are inherently linked to the underlying geospatial topology, and DEMs provide a valuable source of information for mitigating their impact. Therefore, this thesis explores the integration of DEMs into a state-of-the-art deep learning pipeline. DEMs are examined for their role in generating training sets and as supplementary input for a multi-modal network. Notably, 3D geometry derived from DEMs complemented by ray-tracing is used to generate artificial shadows with realistic shapes. Subsequently, an experiment is conducted with the created dataset to empirically test if additional elevation data is beneficial for the performance of the models. Additionally, the model’s ability to generalize from artificial to real shadows was probed. The experiment on virtual shadows showed that providing additional elevation data to the shadow-removal network does yield significantly better results with a medium to large effect size. Initially, all trained models failed to generalize to real shadow data. Downsizing the dataset to a lower level of detail mitigated this problem. Together with an analysis of the output of each network layer, it was concluded that the reason for the subpar real data performance are remaining small-scale shadows in the train set. A visual analysis of the improved models showed noticeable improvements with the generated realistic shadow shapes compared to random ones. Moreover, the utility of additional elevation data as input for the models was demonstrated.