Reingruber, H. (2011). An asynchronous data interface for event-based stereo matching [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-50818
Computer Vision Systeme zeichnen Bildsequenzen auf, welche Bild für Bild und Pixel für Pixel verarbeitet werden. Das menschliche Gehirn arbeitet andererseits nicht bildweise. Jede Ganglionzelle sendet autonom Spikes zum visuellen Cortex, wenn ihre Aktivität einen Schwellwert erreicht. Im letzten Jahrzehnt entwickelten Wissenschaftler bio-inspirierte Sensoren, welche das menschliche Sehempfinden imitieren.<br />Bei Event-based Vision werden die neuronalen Spikes als Events dargestellt, welche generiert werden wenn die relative Änderung der Lichtintensität einen Schwellwert überschreitet. Die Ausgabe eines Event-based Vision Sensors ist ein Stream von Events, erzeugt von autonomen Pixels, die gefeuert werden sobald sie auftreten und daher nicht abhängig sind von einer künstlichen, periodischen Frame-dauer.<br />Weiters wird redundante Information, wie statische Bildbereiche, unterdrückt, bzw. werden nur Daten von dynamischen Bereichen erzeugt. Aktuelle, auf Address-Event Representation (AER) basierende, Stereo Vision Konzepte verwerfen die Vorteile dieser asynchronen Datendarstellung, weil ankommende Events in künstlich eingeführte Pseudo-Frames gepuffert werden. Ein Ziel dieser Arbeit ist ein asynchrones Daten Interface für Event-based Stereo Matching zu designen, welche die meisten dieser Vorteile erhält. Das zweite Ziel ist, dieses Daten Interface für Bewegungen von unterschiedlichen Geschwindigkeiten einsetzbar zu machen. Es wurde ein Ground-truth Vergleich, zwischen State of the Art Verfahren und jenem das in dieser Arbeit vorgestellt wird, durchgeführt um die Machbarkeit und Verbesserung dieses Verfahrens zu analysieren. Nach der Analyse einiger Methoden um vergleichbare Ground-truth Daten von dynamischen Szenen aufzuzeichnen, hat sich herausgestellt dass das Aufzeichnen von Ground-truth Daten von Szenen die bewegte Testobjekte mit komplexer Geometrie beinhalten ein Follow-up Forschungsthema bleiben wird, da es den Umfang dieser Arbeit sprengt. Eine Auswertungsmethode mit einfachen Testobjekte hat schließlich zu einer machbaren Auswertung geführt. Durch die Vereinfachung des Testobjektes konnte die Auswertung aber keine Verbesserungen der Stereo Matching Genauigkeit bezüglich unterschiedlicher Bewegungsgeschwindigkeiten enthüllen, da es die Nachteile der State of the art Lösung nicht stark genug hervorheben konnte. Nichtsdestotrotz wurde das Hauptziel, Implementierung des asynchronen Daten Interfaces, erreicht und weist, wie aus dem Auswertungsergebnis sichtbar ist, keine negative Auswirkung auf die Stereo Matching Genauigkeit auf.<br />
de
Computer vision systems operate by capturing sequences of frames which are processed frame by frame and in most cases pixel by pixel. The human brain does not operate frame-wise. Each ganglion cell sends spikes to the visual cortex when its activity level reaches a certain threshold. During the last decade researchers have developed bio-inspired sensors which mimic human visual sensing. In event-based vision, the neuronal spikes are represented by events that are generated when the relative change of light intensity exceeds a certain threshold.<br />The output of an event-based vision sensor is a stream of events, generated by autonomous pixels, which fire them as soon as they occur and do not wait for an artificial, periodic frame time. Additionally, redundant information like static image areas is suppressed, hence only data from dynamic areas is generated.<br />Current Stereo Vision concepts based on Address-Event Representation (AER) are abandoning the advantages of this asynchronous data representation by buffering incoming events into artificially introduced pseudo-frames. One aim of this thesis is to design an asynchronous data interface for event-based stereo matching which preserves these advantages. The second goal is to make this data interface applicable to motion at different velocities in the sensor's field of view.<br />A ground-truth comparison between the state of the art approach and the one presented by this work, has been performed in order to analyze feasibility and improvements by the presented approach.<br />After analyzing different methods for acquiring comparable ground-truth data from dynamic scenes, it turned out that capturing ground-truth data from scenes containing moving test objects with complex geometry remains a topic for follow-up research, as its extent exceeds the scope of this work. An evaluation approach using simple test objects, finally led to a feasible evaluation. Due to the test object simplifications, the evaluation was not able to reveal improvements in stereo matching accuracy regarding varying object movement velocities, as it was not able to sufficiently stress the drawbacks of the state of the art solution.<br />Nevertheless, the principal aim, an asynchronous data interface, was achieved and as visible in the evaluation result, without negative impact on stereo matching accuracy.