Zhu, S. (2015). Random forest classification for fast multi-class object detection using intensity and depth information [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.24160
Objekterkennung ist ein wichtiges Problem auf dem Gebiet der Computer Vision. Die Hauptaufgabe der Objekterkennung ist es, bestimmte Objekte in Bildsequenzen oder Videos in Bezug auf Bildkoordinator und geschätzten Umfang (Scale) zu lokalisieren. Diese Arbeit beschreibt ein diskriminativ formuliertes Objekterkennungssystem, das Merkmale aus einem Trainingsset extrahiert und lernt, einen diskriminativen Klassifikator zu Instanzen einer Objektkategorie zu erkennen. Merkmale, die auch als Objektdarstellungen bekannt sind, sind ein Schlüsselfaktor, um die Performance und Genauigkeit eines Objekterkennungssystems zu beeinflussen. Die Auswahl der Merkmale und deren Design sind ein wichtiges Forschungsfeld. Die meisten State-of-the-Art- Objekterkennungssysteme verwenden Merkmale von Intensitätsbildern. Neue Entwicklungen der Sensortechnologie in den letzten fünf Jahren ermöglichen jedoch einen kostengünstigen Erwerb von Tiefendaten, die zusätzliche visuelle Hinweise zur Objekterkennung bieten, wie zum Beispiel Scale, Depth-Ordering und Foreground-Background-Segmentierung. In dieser Arbeit schlagen wir die Erkennung von Personen aus kombinierten Intensitäts- und Tiefendaten vor, wobei letztere aus einem passiven Stereo-Setup erhalten werden. Um aussagekräftige Features aus Tiefendaten abzuleiten, verwenden wir einen Filterungs- und Interpolationsmechanismus, der sich mit fehlenden Daten und mit Noise-Problemen befasst, die gewöhnlich in Stereo-Tiefendaten vorkommen. Außerdem schlagen wir eine Schätzung von Scale-Daten und ein Validierungsschema vor, die erfolgreich inkonsistente Erkennungsreaktionen unterdrücken, die nicht zu den lokalen Tiefendaten passen. Wir übernehmen hier die ACF-Strategie der Kombination mehrerer Merkmale in einem einzigen Detektor. Wir verwenden eine Reihe von Merkmalen (Gradientenmagnitude und Gradientenhistogramm), die aus den Tiefendaten extrahiert wurden, zusätzlich zu den Merkmale aus den Intensitätsbildern, um unsere RGBD Detektoren zu trainieren. Das entwickelte System ist in der Lage, mehreren Objektklassen Rechnung zu tragen. Das System wurde für zwei Szenarien getestet, nämlich in Situationen mit Okklusion und Unordnung. Wir zeigen, dass die Verwendung von zusätzlichen Merkmalen aus den Tiefendaten die Erkennungsgenauigkeit insbesonders in unübersichtlichen Situationen verbessert.
de
Object detection is an important problem in the field of computer vision. The main task of object detection is to locate certain objects in image sequences or videos in terms of image coordinator and an estimated scale. This work describes a discriminatively formulated object detection scheme which extracts features from a training set and learns a discriminative classifier to recognize instances of an object category. The feature types, which are also known as object representations, are a key factor to affect the performance and accuracy of an object detection system, thus the choice of features or feature design remain an important research field. Most state-of-the-art object detection systems use features from intensity images. However, developments in sensing technology in the last five years enable inexpensive ways of acquiring depth data, which provide additional cues for object detection, such as scale, depth ordering and foreground-background segmentation. In this work we propose the detection of humans from the combined modalities of intensity and depth, the latter obtained from a passive stereo setup. In order to derive informative features from depth, we use a filtering and interpolation mechanism which substantially addresses the missing data and noise problems which are commonly present in stereo depth data. Furthermore, we propose a scale estimation and validation scheme which successfully suppresses inconsistent detection responses not matching the local depth data. We adopt the ACF strategy of combining multiple features in a single detector. We use a set of features (gradient magnitude and gradient histogram) extracted from the depth data in addition to features from the intensity images to train our RGBD detectors. The system developed is capable to accommodate multiple object classes. The system is tested on two scenarios containing crowded and cluttered situations. We show that using additional features from the depth data improves the detection accuracy, especially in presence of clutter and occlusions.