Ramachandran, G. (2017). Elements of an image processing system: navigating through representation, shape matching and view synthesis [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.51435
Von der Vielzahl an Komponenten, die beim Entwurf eines Bildbearbeitungssystems ber ucksichtigt werden müssen, werden drei zentrale Bestandteile in dieser Dissertation untersucht: Repräsentation, Formerkennung und Darstellungssynthese. Bezüglich des Aspekts der Repräsentation wurde mithilfe von Ansichtsgraphen das Konzept eingef uhrt, die Erscheinungsform von Objekten durch eine begrenzte Teilmenge von Ansichten beschreiben zu können. Ein Ansichtsgraph stellt hierbei die Verknüpfung zwischen den Ansichten in der Teilmenge und der kompletten Beschreibung eines Objekts her. Das darin liegende Potential im Einsatz von Ansichtsgraphen zur Encodierung von Ansichten eines einzelnen Objekts, das aus einer Vielzahl an Beobachtungs-Winkeln aufgenommen wird, wird hier untersucht. Dies wird weiterführend dazu verwendet, zuvor nicht vorhandene Umriss-Darstellungen anderer Ansichten des Objekts zu erzeugen. Das Konzept der Formerkennung wird unter Zuhilfenahme einer Kombination aus Abstandsfunktionen und diskreter Krümmungsinformation untersucht. Die Exzentrizitätstransformation berechnet die längste geodtische Distanz zwischen allen Punkten einer geometrischen Figur. Anschließend wird ein sogenannter Deskriptor definiert, der aus mehreren, auf der Exzentrizit at basierenden Eigenschaften der Randlinie einer geometrischen Figur erzeugt wird. Die Qualität der Deskriptor wird bewertet, indem für Datenbanken mit 2D Bildern, die starre und sich ähnelnde geometrische Figuren enthalten, die Anzahl an richtig erkannten Übereinstimmungen bestimmt wird. Im darauf folgenden Teil wird die Synthese zusätzlicher Ansichten einer Szene betrachtet, indem zwischenliegende Ansichten aus Stereo-Aufnahmen von Multi- Objekt-Szenen mit Tiefeninformation generiert werden. Die größte Herausforderung hierbei liegt in der Ausfüllung von Löchern, die in den neugenerierten Ansichts- und Tiefenkarten entstehen. Verschiedene Ansätze werden angewendet und verglichen um einschätzen zu können, welcher Ansatz abhängig von der gegebenen Ansicht und Tiefenkarte das beste Resultat liefert. Für alle drei betrachteten Aspekte wird ein generischer Ansatz verwendet, wobei keine a priori Information über die geometrische Figur oder Szene zur Verfügung steht.
de
Of the various elements involved in the conception of an image processing system, three key components are explored in this dissertation: representation, shape matching and view synthesis. In terms of representation, the concept of aspect graphs introduced the notion that objects' appearances can be described by a limited subset of views. An aspect graph provides the link among the views in the subset to give a complete description of the object. The potential to use an aspect graph for encoding the views of a single object captured from multiple angles is considered here. Line drawings are first derived corresponding to the various input angles. This is used as input to then produce unknown line drawings of other views of the object as output. The concept of shape matching is explored by applying a combination of distance functions and discrete curvature information. The eccentricity transform computes the longest geodesic distance across all points of a shape. A descriptor is defined comprised of various properties of the shape boundary derived based on the eccentricity. The quality of this descriptor is evaluated on 2D image databases consisting of rigid and articulated shapes by ranking the number of matches. For the next part, the synthesis of novel views of scenes are explored through intermediate view synthesis from stereo views of multiple object scenes with depth information. The key challenge faced here in the filling of holes that occur in the newly generated view and depth map. Different approaches are applied and compared, in order to explore which approach works best given a certain input scene and depth map. A generic approach is taken to explore all three elements, where no a priori information is available about the shape or the Scene.