Heitzinger, T. (2019). High accuracy image segmentation for motor vehicles [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2019.66207
Die überwiegende Mehrheit von Fahrzeugkäufern informiert sich vor einer Kaufentscheidung auf Onlineportalen. Die Aufbereitung von Daten auf derartigen Plattformen kann einen immensen Einfluss auf die Entscheidung des Käufers haben, und die Verfügbarkeit von optisch ansprechenden Bildern gewinnt zunehmend an Wichtigkeit. Für die meisten Verkäufer ist die professionelle Anfertigung von Fotos finanziell nicht tragbar---stattdessen ist es üblich geworden, Bilder digital nachzubearbeiten. Die automatische exakte Segmentierung von Bildern und Videos ist eines der zentralen Probleme des maschinellen Sehens und findet praktische Anwendung in vielen Bereichen. Diese Arbeit behandelt die Trennung von Fahrzeugen (einschließlich Seitenspiegeln, Ausbuchtungen, Dachschienen, Antennen, ...) von ihrem Hintergrund und untersucht zu diesem Zweck Methoden, welche in den letzten Jahre im Bereich des Deep Learning entwickelt wurden. Es wurde ein spezialisiertes Fully Convolutional Network basierend auf der U-Net Architektur entwickelt und mittels eines aus über 7000 Bildern bestehenden Datensatzes trainiert. Eine Analyse geeigneter Loss Funktionen wurde durchgeführt und eine Reihe von Verbesserungen präsentiert, welche auf strategisch platzierten Gewichten in anspruchsvollen Bereichen basieren. Zusätzlich wird ein neuartiger Gradienten Loss eingeführt. Dieser stellt eine Verbesserung gegenüber Standardansätzen dar. Durch weitere Aufbereitung werden die erzeugten Masken in eine Form übergeführt, welche die in Fahrzeugen typische Krümmung besser wiederzuspiegelt. Im Vergleich zu bisherigen Implementierungen reduziert die entwickelte Lösung den Segmentierungsfehler gemessen mit dem Jaccard-Index um über 65%.
de
A vast majority of buyers choose to consult online platforms before the purchase of a motor vehicle. The presentation of information on such platforms can have a huge impact on a consumers decision and the availability of visually appealing images is becoming increasingly important. For most sellers it is financially infeasible to take professional photographs and it has become common practice to digitally edit images instead. The automated generation of highly accurate segmentation masks for images and videos is a central computer vision problem with wide spread applications. This thesis studies the separation of vehicles (including mirrors, bulges, roof rails, antennae, ...) from their background using deep learning techniques developed in recent years. A specially tailored fully convolutional network based on the U-Net architecture is used and trained on a diverse dataset consisting of over 7000 images. An analysis of suitable loss functions is given and various improvements using strategically placed weights in challenging areas are introduce. Additionally we introduce a novel Gradient loss that outperforms standard approaches. The generated masks are further refined to better match the inherent curvature bias typically found in the outline of motor vehicles. In direct comparison to previous implementations our method reduces the segmentation error measured by the Jaccard index by over 65%.