Machine learning guided geometric analysis and pose estimation

Ausserlechner, Philipp

doi:10.34726/hss.2021.85442

DC Field

Value

Language

dc.contributor.advisor

Vincze, Markus

dc.contributor.author

Ausserlechner, Philipp

dc.date.accessioned

2021-09-08T13:50:03Z

dc.date.issued

2021

dc.date.submitted

2021-09

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Ausserlechner, P. (2021). <i>Machine learning guided geometric analysis and pose estimation</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2021.85442</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2021.85442

dc.identifier.uri

http://hdl.handle.net/20.500.12708/18386

dc.description.abstract

Jüngste Trends in Computer Vision ermöglichen zunehmend eine verbesserte räumliche Wahrnehmung einer gegebenen Umgebung und ihrer Objekte. Das Erlernen erscheinungsbasierter Darstellungen aus RGB-Bildern ist Gegenstand intensiver Forschung. Das Thema der Interpretation von Tiefendaten in Bezug auf gelernte Modelle umfasst jedoch noch viele offene Forschungsfragen. In dieser Studie führen wir ein Encoder-Decoderbasiertes Lernverfahren ein, um Objektposen aus Tiefenbildern und den entsprechenden Oberflächennormalen zu schätzen. Unsere Zielobjekte sind mehrere Instanzen von quaderförmigen Primitiven unbekannter Größe. In unseren Experimenten verwenden wir monokulare Tiefenschätzung und lernbasierte Stereo-Matching-Methoden, um Tiefenbilder zu erzeugen. Die Neuartigkeit unseres Ansatzes besteht in dem vorgeschlagenen geometriebasierten Erkennungsschema, das ausschließlich anhand von synthetischen Bildern trainiert werden kann und in der Lage ist, parametrische (orientierte) Objektteile zu schätzen. Die Ergebnisse zeigen eine genaue räumliche Lokalisierung von generischen Quadermodellen in realen Szenarien. Wir zeigen auch, dass das vorgeschlagene generische Schema leicht für andere Geometrietypen umkonfiguriert werden kann. Wir präsentieren Ergebnisse für Paletten bekannter Größe, bei denen die Kanten zwischen einer Reihe von koplanaren Punkten unser geschätztes Strukturmodell darstellen.

dc.description.abstract

Recent trends in computer vision increasingly allow for an enhanced spatial perception of a given environment and its objects. Learning appearance-based representations from RGB images is the subject of intense research. However, the topic of interpreting depthdata in terms of learned models still encompasses many open research questions. Inthis study, we introduce an encoder-decoder-type learning scheme to estimate objectposes from depth images and its corresponding surface normals. Our targeted objects are multiple instances of cuboid primitives of unknown size. In our experiments, we employ monocular depth estimation and learning-based stereo-matching methods to generate depth images. The novelty of our approach is given by the proposed geometry-aware detection scheme, which can be trained solely from synthetic images and can estimate parametric (oriented) object parts. Results demonstrate accurate spatial localization ofgeneric cuboid models in real scenarios. We also demonstrate that the proposed generic scheme can be easily re-configured for other geometry types. We show results for palletsof known size, where edges between a set of co-planar points represent our estimated structural model.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Bildverarbeitung

dc.subject

Maschinelles Lernen

dc.subject

3D Sehen

dc.subject

Objekterkennung

dc.subject

Posebestimmung

dc.subject

Computer Vision

dc.subject

Depth percpetion

dc.subject

Pose estimation

dc.subject

Object recognition

dc.title

Machine learning guided geometric analysis and pose estimation

dc.title.alternative

Geometrische Analyse und Posenschätzung mittels maschinellem Lernen

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2021.85442

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Philipp Ausserlechner

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E376 - Institut für Automatisierungs- und Regelungstechnik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16314248

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

E376-02 - Forschungsbereich Komplexe Dynamische Systeme

crisitem.author.parentorg

E376 - Institut für Automatisierungs- und Regelungstechnik

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(2.1 MB)

In Copyright

Show simple item record

Page view(s)

505

checked on Nov 24, 2023

Download(s)

238

checked on Nov 24, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM