Spatio-temporal video analysis for semi-automatic 2D-to-3D conversion

Brosch, Nicole

doi:10.34726/hss.2016.39670

Record link:

https://doi.org/10.34726/hss.2016.39670
http://hdl.handle.net/20.500.12708/2916

Title:

Spatio-temporal video analysis for semi-automatic 2D-to-3D conversion

Citation:

Brosch, N. (2016). Spatio-temporal video analysis for semi-automatic 2D-to-3D conversion [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.39670

reposiTUm DOI:

10.34726/hss.2016.39670

CatalogPlus:

AC13358717

Publication Type:

Thesis - Dissertation

Language:

English

Authors:

Brosch, Nicole

Advisor:

Gelautz, Margrit

Co-advisor:

Rupp, Markus

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2016

Number of Pages:

164

Keywords:

2D-zu-3D Konvertierung; Segmentierung; Disparität; Tiefe; Videoanalyse

2D-to-3D conversion; segmentation; disparity; video analysis; depth

Abstract:

Diese Arbeit widmet sich der Konvertierung von monoskopischen (2D) zu stereoskopischen (3D) Videos. Dabei stellen semi-automatische 2D-zu-3D Konvertierungsverfahren einen Kompromiss zwischen professionellen, aber aufwändigen manuellen und qualitativ schlechteren, vollautomatischen Verfahren dar. Semi-automatische Verfahren propagieren, unter der Annahme von Farbkonsistenz, von BenutzerInnen gegebene Tiefeninformation (Disparität) über das komplette 2D-Video. Ein ideales Konvertierungsverfahren vereint Faktoren wie hohe Qualität der generierten Disparitätsvideos, geringen Arbeitsaufwand für BenutzerInnen und kurze Laufzeiten miteinander. Dabei gilt es, typische Artefakte wie übermässiges Glätten oder raum-zeitliche Inkohärenz zu verhindern. Der wissenschaftliche Beitrag dieser Arbeit umfasst zwei semi-automatische 2D-zu-3D Konvertierungsalgorithmen, in denen raum-zeitliche Segmentierung einen integralen Bestandteil darstellt. Sie basieren auf groben Initialisierungen mit Disparitäts-Scribbles im 2D-Video. Der erste Algorithmus propagiert spärlich vorgegebene Disparitäten zwischen Nachbarpixeln, wenn diese zu einem Segment zusammengefasst werden. Diese Vorgehensweise verhindert übermässiges Glätten von Disparitäten über Segmentgrenzen und ermöglicht raum-zeitlich kohärente Disparitätsübergänge innerhalb von Segmenten. Der zweite Algorithmus bindet bewegungsbedingte Verdeckungen im 2D-Video in die zeitlichen Interpolierungen von Disparitäten ein. Dies führt zu realistischeren Tiefendarstellungen von Objekten, die sich im Laufe des Videos in der Tiefe bewegen, da Konflikte zwischen generiertem und im ursprünglichen 2D-Video wahrgenommenen Tiefeneindruck reduziert werden können. In dieser Arbeit entwickelte Algorithmen werden mit semi-automatischen 2D-zu-3D Konvertierungsalgorithmen aus der Literatur verglichen und generieren dabei Disparitätsvideos von hoher Qualität. Eine abschliessnde Evaluierung berücksichtigt zusätzlich verschiedene Strategien der Scribble-Platzierung und gibt praktische Einblicke in den Scribble-basierten Initialisierungsprozess, welchem in der vorhandenen Literatur nur geringe Aufmerksamkeit geschenkt wird.

This thesis addresses the problem of converting monoscopic (2D) videos to stereoscopic (3D) videos. Its focus are semi-automatic 2D-to-3D conversions, which can be seen as a compromise between fully-automatic conversions of typically lower conversion quality and highly qualitative, but labor-intensive manual conversions. Semi-automatic conversions are typically based on sparse user-given disparity (or depth) information, which is propagated to each pixel in a 2D video by assuming a color constancy model. They ideally require only minimal user input and effciently generate disparity maps of high conversion quality. In order to avoid common artifacts related to such propagations, e.g., over-smoothed results and spatio-temporal incoherencies, we exploit spatio-temporal segmentation information. The two novel 2D-to-3D conversion algorithms presented in this thesis are based on sparse disparity-scribbles drawn in a 2D video. The first algorithm tackles 2D-to-3D conversion and segmentation in a joint approach by propagating available disparities between neighboring pixels while assigning them to the same segment. This results in disparity maps that capture object borders in the 2D video and contain smooth disparity changes within segments and over time. The second algorithm takes a step towards the generation of perceptually coherent disparity maps by performing temporal disparity interpolations in accordance with motion-caused occlusions between segments. This results in spatio-temporally coherent disparity maps in which disparities of moving objects harmonize with those of nearby objects. We compare our own algorithms with different semi-automatic 2D-to-3D conversion algorithms suggested in the literature and achieve results of high conversion quality. As opposed to most earlier studies, our final evaluation study is performed under consideration of different

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
Zusammenfassung in deutscher Sprache

License:

In Copyright

Appears in Collections:

Thesis