Winiwarter, L. G. (2018). Classification of 3D point clouds using deep neural networks [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.50607
semantic labeling; classification; point cloud; deep neural network; neural network; machine learning; airborne laser scanning; laser scanning
en
Abstract:
3D-Punktwolken, die mittels Airborne Laser Scanning (ALS) oder anderen Methoden erfasst wurden, sind große Mengen an rohen Daten. Um diese Daten zu verstehen, und um daraus weitere Informationen ableiten zu können, ist oft eine Segmentierung in Gruppen, Einheiten oder Klassen entsprechend dem jeweiligen Anwendungsfall notwendig. Da Punktwolken vor allem durch die geometrische Verteilung der Punkte im Raum Information transportieren, muss diese Information auch in die Klassifizierung berücksichtigt werden. Um nun diese Klassen auf Punkt-Basis zuteilen zu können, muss für jeden Punkt diese Information über eine lokale Nachbarschaft gesammelt werden. Es existieren zahlreiche Studien darüber, welche Repräsentationen dieser Information besonders relevant sind, allerdings hängt dies auch vom jeweiligen Anwendungsfall ab. In dieser Arbeit wird ein Ansatz präsentiert, der diese Schwierigkeit zu vermeiden versucht. Dabei kommt ein Deep Neural Network (DNN, zu deutsch: Tiefes Neuronales Netzwerk) zum Einsatz, das automatisch die Repräsentation der Nachbarschaft optimiert. Zunächst wird eine ausführliche Einführung in die aktuellen Methoden der Punktwolkenklassifizierung und der Neuronalen Netze gegeben, bevor der neue Ansatz im Detail präsentiert wird. Dieser wurde auf drei Datensätzen getestet: Ein ALS-Datensatz mit großer räumlicher Ausdehnung (Vorarlberg, etwa 2700km), ein UAV-basierter Scan eines Waldgebiets (Großgöttfritz) sowie ein Benchmark-Datensatz der ISPRS (Vaihingen/Enz, Semantic Labelling Contest). Die Übertragung trainierter Modelle zwischen den Datensätzen zeigte einen großen Einfluss der unterschiedlichen Punktmuster und Punktdichten. Dennoch konnte durch den Einsatz eines bereits trainierten Modells die Konvergenz der Methode deutlich beschleunigt werden. Mit dem Vorarlberg-Datensatz wurde eine Genauigkeit von 82,2% über alle Testgebiete erreicht, wobei in einem urbanen Testgebiet eine Genauigkeit von 95,8% erzielt wurde. Die Genauigkeit zeigte eine hohe räumliche Korrelation, die insbesondere mit der Landbedeckung zusammenhängt. Dies legt die Verwendung eines auf Landbedeckung angepassten Modells nahe. Der Benchmark-Datensatz konnte mit einer Genauigkeit von 80,6% klassifiziert werden, was etwa im Mittelfeld der Benchmark-Ergebnisse liegt. Die Kachelung des Datensatzes führte zu Diskrepanzen in der Klassifizierung, insbesondere an jenen Punkten, die gegenüber der Referenz falsch klassifiziert wurden. Zusätzlich zu der Klassifizierung wurde für jeden Punkt eine Wahrscheinlichkeit pro Klasse berechnet, welche in weiteren Prozessierungschritten, z.B. als a priori Gewichtung in der Interpolation von Geländemodellen, verwendet werden kann. Weitere Anwendungen der Methode sind etwa die Stammdetektion oder Totholzdetektion in Forstbereichen. Mit einer wachsenden Anzahl an Attributen steigt die Stärke der Methode, da weniger Information vom Anwender benötigt wird. Die Methode kann auch auf weitere Dimensionen ausgedehnt werden, insbesondere auf Zeit. Damit wird die Klassifizierung multitemporaler Datensätze ermöglicht, inklusive der Detektion von Änderungen bzw. der Überwachung von Deformationen.
de
3D point clouds derived with laser scanning and other techniques are always big amounts of raw data which cannot be used directly. To make sense of this data, and allow for the derivation of useful information, a segmentation of the points in groups, units, or classes fit for the specific purpose is required. Since point clouds contain information about the geometric distribution of the points in space, spatial information has to be included in the classification. To assign class labels on a per-point basis, this information is usually represented by means of feature aggregation for each point from a certain neighbourhood. Studies on the relevance of the different features that can be created from such a neighbourhood exist, but they depend very much on the specific case at hand. This thesis aims to overcome this difficulty by implementing a Deep Neural Network (DNN) that automatically optimises the features that should be calculated. After an introduction into the state-of-the-art methods in both point cloud classification and in neural networks, this novel approach is presented in detail. Three datasets were investigated, including an airborne laser scan (ALS) of a large area (Vorarlberg, 2700km), a UAV-based scan (ULS) with a very high point density of a forest (Großgöttfritz) and a benchmark dataset by the ISPRS (Vaihingen/Enz, 3D Semantic Labelling Contest). The transfer of models between these datasets showed that point distribution patterns and point densities had a large influence on the result. However, using a pre-trained model on a new dataset vastly increased convergence of the method. For the Vorarlberg dataset, the achieved overall accuracy with respect to the reference classification was 82.2%, with a maximum of 95.8% in urban areas. The accuracy showed a strong spatial correlation, especially with respect to land cover, suggesting the use of different models for different land covers. On the ISPRS benchmark dataset, the presented method achieved an overall accuracy of 80.6%, which is comparable to other methods in the benchmark. Tiling of the input dataset into chunks for processing was shown to influence the classification result, especially in areas where the classification was incorrect. A per-class probability for each point was additionally obtained in the classification process and may be used in further processing steps, e.g. as a priori weights in DTM generation. Future applications of the method include tasks such as tree stemor deadwood detection in forests. Especially with a growing number of attributes, the approach significantly reduces the input required from the operator (i.e. the selection of features). The method can also be extended to more dimensions, such as time. This would allow the classification of multi-temporal data, including change detection and displacement monitoring.