Holleis, E. J. (2008). Inferring a three-dimensional, stable world view from two-dimensional sensor data [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-26896
Ein Tracker ("Aufspürer") ist ein Mechanismus, der über mehrere Einzelbilder hinweg auf die Trajektorien von bewegten Bild-Objekten rückschließt. Diese Arbeit basiert auf einem Tracker, der zur Verfolgung von Ameisen am Georgia Institute of Technology entwickelt wurde und dessen Kamera die Szene von oben, also aus der Vogelperspektive, betrachtet. Anders beim vorliegenden Tracker, wo die Kamera an der Wand eines Flughafens montiert ist und Personen aus einer schrägen Perspektive beobachtet.<br />Aus der Schrägansicht ergibt sich die Herausforderung die Mehrdeutigkeiten aufzulösen, die sich aus der Überdeckung der visuellen Repräsentationen der beobachteten Personen ergeben. Entweder überdecken die Personen im Kamerabild einander gegenseitig, oder sie werden von Gegenständen der Szenerie, wie Säulen, Pflanzen und Möbel, verdeckt. Für den Umgang mit diesen Mehrdeutigkeiten eignet sich der dreidimensionale Raum. Dort können die Effekte der perspektivischen Abbildung herausgerechnet werden. Konzepte wie "vorne" und "hinten" lassen sich mathematisch elegant repräsentieren.<br />Der beschriebene Tracker ist ein statistischer Filter, genauer ein RJMCMC-Algorithmus (Reversible Jump Markov Chain Monte Carlo). Das ist eine, in ihrer Dimensionalität variable, auf Makrov-Ketten basierende Monte-Carlo-Simulation. Der Tracker kann eine variable Anzahl von Personen verfolgen, dabei gleichzeitig mehrere Hypothesen über ihre jeweiligen Trajektorien beachten und all das in Echtzeit und unter begrenzt verfügbarer Rechenleistung.<br />Die Güte von Entwurf und Realisierung des Trackers werden durch Vergleich der rückgewonnenen Trajektorien mit vier händisch erstellten Probe-Sequenzen gemessen. Diese sind mehrere tausend Frames lang, zusammen über 20 Minuten Video. Das Ergebnis der Messung zeichnet ein zwiespältiges Bild: Einerseits funktioniert der Tracker erwartungsgemäß in einfachen Sequenzen. Die Ergebnisse aus praxis-nahen Tests sind andererseits zwar vielversprechend, werden jedoch dadurch getrübt, dass der Tracker nicht alle Informationen der vorgeschalteten Bilderkennung miteinbezieht. Schließlich schlägt der Ansatz in Situationen fehl, wo der Horizont Teil des Kamerabildes ist, weil es dann nicht gelingt, ausreichend Tiefeninformation von Objekten zu extrahieren, die im Kamerabild nahe dem Horizont erscheinen.<br />
de
A tracker is a mechanism that infers the trajectories of one or several objects through a sequence of frames from the snapshot-like data that each frame by itself contains. This work is based on a tracker developed at the Georgia Institute of Technology for tracking ant colonies, which are observed from above (bird's eye view). However, the conditions in this work are different, since the cameras are mounted on the wall and observe people at an airport.<br />In this setting, the challenge is resolving the ambiguities that stem from the fact that people's visual representation in the camera picture often occlude each other and are occluded by environmental factors such as columns, plants and furniture. The ambiguities are better resolved in three-dimensional space, where the distortive effects of perspective projection have been undone, and the notion of "being in front or behind something" can be given elegant numerical expression.<br />The tracker is a Bayesian particle filter, namely RJMCMC (Reversible Jump Markov Chain Monte Carlo). It can track a variable number of persons, can concurrently follow multiple hypotheses about their trajectories, and can do that on-line, within a limited time budget.<br />Soundness of design and implementation are demonstrated by comparing tracker output with four manually tracked sequences of several thousand frames, adding up to 20 minutes of video. The results draw a mixed picture: It works as expected for easy cases. Real-world performance is encouraging, but hindered by insufficient utilization of the information provided by the underlying vision unit. The approach fails in cases where the horizon is part of the camera field-of-view because the tracker fails to extract any usable amount of depth-information from objects near the horizon.<br />