Zweng, A. (2014). Framework for visual surveillance applications using an adaptable feature descriptor [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2014.25175
Das Forschungsthema Visual Surveillance beinhaltet mehrere Unterthemen wie die Personenerkennung, die Aktivitäten Erkennung, die Ereigniserkennung und die einzelnen Probleme aller dieser Themen. Ein Problem, welches die verschiedenen Bereiche dieses Forschungsthemas betrit, ist das Problem von unzureichender Rechenleistung für die Echtzeitberechnung (10-25 berechnete Bilder pro Sekunde). Personenerkennung in Bildern wird zum Beispiel mit einer umfangreichen Bildsuche mithilfe eines vorgelernten Personenmodells berechnet, wodurch die Rechenleistungsanforderung so hoch ist, dass keine Echtzeitberechnung möglich ist. Zusätzlich zeichnen sich industrielle Visual Surveillance Applikationen dadurch aus, dass sie nicht nur ein Problem auf einer Rechenmaschine behandeln, sondern mehrere gleichzeitig bearbeiten und die Rechenleistung direkt von der on-board CPU der Kamera kommt, wodurch solche Systeme mit dem Namen smart-cam bezeichnet werden. Durch die hardwaretechnischen Limitationen von smart-cams (keine Graphikprozessoren verfügbar, CPU-Takt ist sehr niedrig, etc.), müssen Algorithmusbasierte Optimierungen vorgenommen werden, um die Geschwindigkeit der Algorithmen zu erhöhen, oder anders gesagt: um die Hardwareanforderungen zu reduzieren. Der intuitive Schritt zur Reduktion der Rechenanforderungen ist die Einschränkung des Suchraumes im Bild oder die Reduktion der Länge des Merkmalraumes, was als Nebeneekt eine reduzierte Erkennungsrate des Systems hervorruft. Im Zuge dieser Dissertation wird das Problem von unzureichender Rechenleistung in Visual Surveillance Systemen behandelt. Das Ziel dieser Dissertation ist die Entwicklung eines Systems welches einen Merkmalraum beinhaltet, der für verschiedene Visual Surveillance Bereiche (tracking, pedestrian detection, fall detection und action recognition) adaptierbar ist. Die Verwendung von Synergien innerhalb mehrerer Applikationen hat den Vorteil der Reduktion von Rechenleistung aufgrund der Ausnutzung von redundanten Rechenschritten der Applikationen. Die vorgestellten Methoden innerhalb der Dissertation werden mit existierenden Methoden verglichen, wobei die Resultate die Wiederverwendbarkeit und Erweiterbarkeit des verwendeten Merkmalraumes für Visual Surveillance Applikationen demonstrieren. Die Personenerkennung mittels Merkmalsrelationen in dieser Arbeit zeigt eine präzise Lokalisierung von Personen und erzielt die besten Resultate in den Evaluierungen
de
The research topic Visual Surveillance covers several subtopics such as pedestrian detection, action recognition, event detection as well as problems, that adhere with those subtopics. One of the topics, which will always be a problem for most of the subtopics in that area is the problem of available computational power for real-time processing (10-25 frames per second). Pedestrian detectors for example often rely on a dense search in images for a previously learned model which requires more computational power than a real-time execution would allow. In addition to the lack of available performance for surveillance systems, industrial visual surveillance applications cover more than one algorithm on a processing machine and the processing is done directly on the cameras on-board CPU, which assigns the name smart-cam to such systems. Due to the limitations of hardware power on smart-cams (no available graphics unit, low clocked CPU, etc.), algorithm-based optimizations have to be done in order to increase the algorithmic speed or reduce the need of high performance hardware resources. The intuitive approach towards computational minimization is the reduction of precision in the search space or reduction of the length of feature spaces which leads to a reduced detection rate of the system. This thesis aims to solve the problems of computational performance in combination with surveillance systems covering multiple applications. The goal is to develop a surveillance framework containing a feature descriptor which is adaptable to applications such as tracking, pedestrian detection, fall detection and action recognition. The reason for using synergies within multiple applications is the reduction of computational eort due to the exploitation of redundant computation which directly benets industrial visual surveillance applications. The proposed methods in this thesis are compared to existing approaches using state-of-the-art metrics, where the results show the degree of reusability of the feature descriptor for surveillance applications. The pedestrian detector using feature relations shows a precise locating of pedestrians and achieves the best results in evaluations done within this thesis.