Artner, N. M. (2013). Tracking related multiple targets in videos [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2013.22627
E186 - Institut für Computergraphik und Algorithmen
-
Date (published):
2013
-
Number of Pages:
127
-
Keywords:
Verfolgung mit Struktur
de
Tracking with Structure
en
Abstract:
Diese Dissertation präsentiert Forschung auf dem Gebiet des Trackings (Verfolgung). Tracking ist eines der am gründlichsten erforschten Themen im computerunterstützten Sehen (Computer Vision). Das Ziel beim Tracking ist es ein gewähltes Objekt (Ziel) in einem Video zu verfolgen. Diese Dissertation konzentriert sich auf ein spezielles Problem bei dem mehrere Ziele verfolgt werden sollen die in Beziehung zueinander stehen. Zwei wichtige Fragen beim Tracking sind: Was ist das Ziel? und Wo ist das Ziel? Die zwei wichtigsten wissenschaftlichen Beiträge dieser Dissertation beantworten diese Fragen mit Hilfe von Graphen. Der erste Beitrag der Dissertation ist eine vollautomatische Initialisierung für Zielmodelle (Was?) basierend auf dem Prinzip: Dinge die sich gemeinsam bewegen gehören zusammen. Als Eingabe dient ein Video der sich bewegenden Ziele. In diesem Video werden interessante Punkte verfolgt und die Bewegungsinformation in Form von Trajektorien gespeichert. Basierend auf den Positionen der verfolgten Punkte im ersten Bild des Videos wird ein triangulierter Graph erstellt. Auf Grund der Bewegungsinformationen in den Trajektorien wird der Graph verformt. Die Verformung des Graphen wird zur Eingabe der folgenden, hierarchischen Gruppierung verwendet. Die Gruppierung wird durch eine unregelmäßige, duale Graphenpyramide umgesetzt. An der Spitze der Pyramide findet man die starren Komponenten des Videos (z.B. die Körperteile eines Menschen). Im letzten Schritt kann man durch Analyse der Bewegung feststellen, ob sich Komponenten durch Artikulationspunkte verknüpfen lassen (z.B. Ober- und Unterarm eines Menschen). Der zweite Beitrag ist ein innovativer Ansatz, um zeitliche Übereinstimmungen für mehrere voneinander abhängige Ziele zu finden (Wo?). In dieser Dissertation wird vorgeschlagen das Ziel als Graph zu repräsentieren, wobei jedes Ziel als Knoten und ihre räumlichen Zusammenhänge als Kanten im Graphen gespeichert werden. Um eine zeitliche Übereinstimmung für einen Graphen zwischen zwei Bildern eines Videos herzustellen, wird üblicherweise nach dem ähnlichsten Graphen im zweiten Bild gesucht. Im Gegensatz dazu wird in dieser Dissertation ein innovativer Ansatz vorgestellt, der die Übereinstimmung für jeden Knoten (jedes Ziel) einzeln sucht. Dabei werden Informationen eines einfachen Trackingverfahrens, die vom Aussehen des Ziels abhängen, mit strukturellen Informationen aus dem Graphen kombiniert. In einem iterativen Prozess, der dem bekannten Mean Shift Algorithmus ähnlich ist, werden diese zwei Arten von Information kombiniert. Das Ergebnis sind Übereinstimmungen für alle Knoten und Kanten im Graphen die lokal optimal bezüglich ihres Aussehens und ihrer Struktur sind. Das Ziel dieser Arbeit war das Potential von Graphen im Tracking aufzuzeigen. Durch die zwei Beiträge dieser Dissertation konnte dieses Ziel erreicht werden.
de
This cumulative thesis presents research in the field of tracking. Tracking is one of the most thoroughly researched problems in computer vision. The aim of tracking is to follow an object of interest (target) in a video. In this thesis, I focus on a special problem: tracking related multiple targets. Two important questions in tracking are: What is the target? and Where is the target? The core contributions of this thesis answer these two questions with the help of graph-based representations and methods. The first core contribution is a fully automatic initialization for target models (What?), based on the principal that things which move together belong together. The input of the approach is a video showing the targets in motion. In this video a set of salient points is tracked to extract the necessary motion information in the form of trajectories. A triangulated graph is built based on the initial positions of the tracked points (i.e. 2D positions in the first frame). Then, the triangulated graph is deformed based on the motion encoded in the trajectories. This deformation of the triangulation over time is the input of a hierarchical grouping process, which is realized by an irregular dual graph pyramid. In the top level of the resulting pyramid the rigid entities (e.g. body parts of a human body) are identified. Finally, the motion of these rigid entities is analyzed to find possible points of articulation connecting them (e.g. upper and lower arm of a human). The second core contribution is a novel approach for finding temporal correspondences of multiple related targets (Where?). This thesis proposes to represent the targets by a graph model, where each target is represented by a vertex and their relationships are encoded by edges. The traditional solution to find the temporal correspondences of a graph model is graph matching. In contrast to that, this thesis proposes a novel approach, which finds the correspondence of each vertex (target) by combining the appearance cue of a simple tracker with the structural cue deduced from a graph model. These two cues are combined in an iterative process inspired by the well-known Mean Shift algorithm. The outcome are correspondences for all vertices and edges in the graph, which locally maximize the similarity in appearance and locally minimize the deviation from the structure encoded in the model. Finally, the main goal of this thesis is to show the potential of graph-based representations and methods in tracking. This goal has been achieved through these two core contributions.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache