Wolf, P. (2015). Simplifying indoor scenes for real-time manipulation on mobile devices [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.23321
Semantic Modelling; Object Detection; Pose Estimation; Kinect; Point Clouds
en
Abstract:
3D Rekonstruktionsanwendungen sind hilfreich um exakteModelle von dreidimensionalen Szenen zu errechnen. Bezüglich Augemted Reality Lösungen, wie beispielsweise Smart Phone Applikationen mit denen Möbeltücke in einer Szene platziert werden können, ist es hilfreich die genauen Dimensionen einer Szene zu kennen. Die Berechnung von hochauflösenden Details ist dabei zweitrangig. Aufgrund limitierter Ressourcen sind besonders für mobile Applikationen vereinfachte 3D Modelle essentiell. Die vorliegende Arbeit beschäftigt sich mit der Erstellung von vereinfachten und semantischen 3D Modellen von Innenräumen. Als Datenbasis dienen multimodale RGBD Videosequenzen welche mit einem Microsoft Kinect Sensor aufgenommen werden. Die Modell-Simplifizierung besteht im wesentlichen aus zwei Teilen - einer Pipeline für die Erstellung von vereinfachten 3D Modellen sowie einer Methode um Objekte in der Szene zu detektieren und deren Pose zu erkennen. Architektonische Elemente wie Wände, der Boden und die Decke werden mit Hilfe von dreidimensionalen Ebenen modelliert. Um geometrisch erweiterte Modelle zu berechnen, werden 3D Punktwolken iterativ über die Zeit fusioniert. Basierend auf diesen Registrierungen wird eine erweiterte Grundfläche berechnet. Kompakte 3D Szenen werden erstellt indemWandelemente und die Decke durch geometrische Extrusion simuliert werden. Um semantische 3D Modelle zu erstellen, werden Objekte in der Szene detektiert und durch CAD Modelle ersetzt. Für die multimodale Ojekterkennung wird ein State-of-the-Art 2D Bilddetektor sowie Geometrie-Deskriptoren für 3D Punktwolken verwendet. In einem initialen Detektionsschritt werden dabei in jedem Frame Objektkandidaten und deren Orientierungen ermittelt. Die berechneten Posen werden mit einem Markov Random Field (MRF) optimiert indem die Orientierungsänderung von aufeinander folgenden Objekten berücksichtigt wird. Die Klassifikationsmethode wird offline mittels synthetisch gerenderten 2.5D Punktwolken trainiert. Qualitative und quantitative Experimente basierend auf 10 Videosequenzen zeigen, dass verglichen mit photometrischen Ansätzen, die zeitlich Fusionierung zu exakteren Repräsentationen führt. Mit Hilfe der MRF-Optimierung lassen sich robustere Objektposen berechnen indem fehlerhafte Posen aussortiert werden. Bezüglich der Speicherbelastung
de
Having exact 3D reconstructions and measures of indoor scenes is useful for numerous applications e.g. augmented reality furniture placement. Recent 3D reconstruction approaches obtain complex and highly detailed 3D models, which are difficult to handle, since the computational cost of manipulating models is directly related to its complexity. Consequently, it is also challenging to display and manipulate such detailed models on a mobile device because of limited resources. In order to keep the processing time low, simplified approximations of highly detailed models are desirable for mobile applications. Therefore, in this thesis we present a framework for simplifying indoor scenes using multi-modal RGBD video sequences. The framework consists of two parts - a 3D layout estimation pipeline as well as an object detection and pose estimation approach. Layout segments (ground plane, walls, ceiling) are represented by 3D planes and merged over time. After determining the 2D floor plan of the fused point cloud obtained from registered shots, a compact representation of the scene is generated by extruding the floor plan. In order to create semantically meaningful 3D layouts, objects are detected and further replaced by synthetic CAD models using state-of-the-art 2D object detection methods and 3D point cloud descriptors. In each frame semantic types and poses are determined. A Markov Random Field (MRF) is introduced over time, which exploits temporal coherence between consecutive frames in order to refine the pose results. The framework is trained in an offline stage with synthetically rendered point clouds obtained from CAD models downloaded from a public database. Qualitative and quantitative experiments on various indoor video sequences show that the resulting spatial layout results outperform monocular state-of-the-art algorithms when comparing with a variety of semantically labeled ground truth scenes. The MRF optimization as well as the temporal fusion of multiple 3D layouts yield to improvements concerning the pose results and the accuracy of the scene dimensions. Moreover, in terms of the storage demand, we achieve a data reduction rate of over 99% compared to the raw point-based representations.
en
Additional information:
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Zsfassung in dt. Sprache