<div class="csl-bib-body">
<div class="csl-entry">Ausserlechner, P. (2021). <i>Machine learning guided geometric analysis and pose estimation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.85442</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2021.85442
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/18386
-
dc.description.abstract
Jüngste Trends in Computer Vision ermöglichen zunehmend eine verbesserte räumliche Wahrnehmung einer gegebenen Umgebung und ihrer Objekte. Das Erlernen erscheinungsbasierter Darstellungen aus RGB-Bildern ist Gegenstand intensiver Forschung. Das Thema der Interpretation von Tiefendaten in Bezug auf gelernte Modelle umfasst jedoch noch viele offene Forschungsfragen. In dieser Studie führen wir ein Encoder-Decoderbasiertes Lernverfahren ein, um Objektposen aus Tiefenbildern und den entsprechenden Oberflächennormalen zu schätzen. Unsere Zielobjekte sind mehrere Instanzen von quaderförmigen Primitiven unbekannter Größe. In unseren Experimenten verwenden wir monokulare Tiefenschätzung und lernbasierte Stereo-Matching-Methoden, um Tiefenbilder zu erzeugen. Die Neuartigkeit unseres Ansatzes besteht in dem vorgeschlagenen geometriebasierten Erkennungsschema, das ausschließlich anhand von synthetischen Bildern trainiert werden kann und in der Lage ist, parametrische (orientierte) Objektteile zu schätzen. Die Ergebnisse zeigen eine genaue räumliche Lokalisierung von generischen Quadermodellen in realen Szenarien. Wir zeigen auch, dass das vorgeschlagene generische Schema leicht für andere Geometrietypen umkonfiguriert werden kann. Wir präsentieren Ergebnisse für Paletten bekannter Größe, bei denen die Kanten zwischen einer Reihe von koplanaren Punkten unser geschätztes Strukturmodell darstellen.
de
dc.description.abstract
Recent trends in computer vision increasingly allow for an enhanced spatial perception of a given environment and its objects. Learning appearance-based representations from RGB images is the subject of intense research. However, the topic of interpreting depthdata in terms of learned models still encompasses many open research questions. Inthis study, we introduce an encoder-decoder-type learning scheme to estimate objectposes from depth images and its corresponding surface normals. Our targeted objects are multiple instances of cuboid primitives of unknown size. In our experiments, we employ monocular depth estimation and learning-based stereo-matching methods to generate depth images. The novelty of our approach is given by the proposed geometry-aware detection scheme, which can be trained solely from synthetic images and can estimate parametric (oriented) object parts. Results demonstrate accurate spatial localization ofgeneric cuboid models in real scenarios. We also demonstrate that the proposed generic scheme can be easily re-configured for other geometry types. We show results for palletsof known size, where edges between a set of co-planar points represent our estimated structural model.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Bildverarbeitung
de
dc.subject
Maschinelles Lernen
de
dc.subject
3D Sehen
de
dc.subject
Objekterkennung
de
dc.subject
Posebestimmung
de
dc.subject
Computer Vision
en
dc.subject
Depth percpetion
en
dc.subject
Pose estimation
en
dc.subject
Object recognition
en
dc.title
Machine learning guided geometric analysis and pose estimation
en
dc.title.alternative
Geometrische Analyse und Posenschätzung mittels maschinellem Lernen
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2021.85442
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Philipp Ausserlechner
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E376 - Institut für Automatisierungs- und Regelungstechnik