Halbeisen, C. (2025). Transforming Text into Motion: Fundamentals of Diffusion Transformers for Text-to-Video Generation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.126680
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
98
-
Keywords:
Text in Bewegung umwandeln: Grundlagen der Diffusions-Transformers für Text-zu-Video-Generierung
de
Transforming Text into Motion: Fundamentals of Diffusion Transformers for Text-to-Video Generation
en
Abstract:
Die Videogenerierung hat kürzlich bemerkenswerte Fortschritte erzielt und ermöglicht nun die Erstellung von Videos, die zunehmend qualitativ hochwertiger und realistischer sind. Moderne Ansätze greifen auf die Erfolge von Transformermodellen aus der Sprachverarbeitung zurück und ersetzen traditionelle U-NETs durch Diffusionsmodelle mit einer Vision-Transformer-Architektur. Die Implementierungsdetails führender Modelle wie Sora sind nicht öffentlich zugänglich, jedoch basieren andere Modelle wie Latte, Gentron und SnapVideo auf den Konzepten von Sora, zu denen detailliertere Informationen zur Implementierung verfügbar sind. Diese Modelle basieren ebenfalls auf Diffusion-Transformern und verwenden unterschiedliche Methoden, um die zeitliche Dimension zu modellieren,ohne die Präzision der einzelnen Frames zu beeinträchtigen.In dieser Arbeit werden die architektonischen Ansätze von Latte, Gentron und SnapVideo untersucht, insbesondere ihre Strategien zur Erfassung räumlicher und zeitlicher Aspekte sowie zur Integration von Textanweisungen. Ausgangspunkt ist ein Diffusion-Transformer für Bildgenerierung, der auf Videogenerierung erweitert wird. Darüber hinaus werden die Modelle Latte und SnapVideo so angepasst, dass sie statt kategorischer Eingaben nun auch Textanweisungen verarbeiten können. Die Bildgenerierungsergebnisse werden mit Metriken wie FID, CLIPSIM, SSIM, PSNR und LPIPS bewertet, während die Qualität der Videogenerierung sowohl mit FVD als auch durch die Analyse der einzelnen Frames mit den Bildmetriken beurteilt wird.Die Modelle weisen klare Unterschiede auf: Gentron bearbeitet die räumliche und zeitliche Dimension separat innerhalb eines einzigen Transformer-Blocks. Dies führt zu präzisen Einzelbildern, jedoch treten gelegentlich in kohärente Bewegungen zwischen den Frames auf. Latte erreicht eine bessere zeitliche Kohärenz, indem es zwei separate Transformer-Blöcke nutzt – einen für die Analyse der Einzelbilder und einen für die Bewegungen im Video. Dies geht jedoch zulasten der Bildqualität. SnapVideo hingegen verarbeitet beide Dimensionen gleichzeitig, was häufig zu statischen und unscharfen Videos führt.Bei der Textintegration erzielte die Einbindung von Text während der Verarbeitung einzelner Frames die besten Ergebnisse, während die Integration auf der zeitlichen Ebene die Videoqualität negativ beeinflusste.Die Ergebnisse verdeutlichen, wie stark die unterschiedlichen Ansätze zur Integration räumlicher, zeitlicher und textueller Informationen die Videoqualität beeinflussen undwie wichtig es ist, diesen Aspekten besondere Beachtung zu schenken.
de
Video generation is a fast-evolving research field, producing increasingly impressive and life like videos. New advances draw inspiration from the success of Transformer models in Natural Language Processing, by utilizing Diffusion models with a Vision Transformer backbone, replacing the traditional U-NET. The architectural details of leading video generation models like Sora are not publicly disclosed; however, models such as Latte, Gentron, and SnapVideo are built upon the concepts of Sora, for which more detailed architectural information is available.This thesis explores the architectural details of Latte, Gentron, and SnapVideo, examining how the models operate on both spatial and temporal dimensions while integrating textual guidance during the generation process. Beginning with a basic implementation of a Diffusion Transformer for image generation, the code is extended to video generation, following the implementation details of Latte, GenTron, and SnapVideo from their respective papers and, when available, their official code. Additionally, the Latte and SnapVideo models, originally conditioned on class label inputs, are adapted to video-to-text generation, testing various methods of integrating the textual prompt into the video generation pipeline. The image generation results are evaluated using the image-based metrics FID, CLIPSIM, SSIM, PSNR, and LPIPS, while the video generation samples are assessed using FVD and frame-by-frame comparisons based on the image generation metrics.The different approaches to handling spatial and temporal dimensions across the three examined architectures resulted in significant differences in the quality of the generated videos. GenTron employs a Transformer block that separates the multi-head attention into spatial and temporal components, which leads to high spatial accuracy but shows occasional incoherent movement between frames. Latte utilizes two distinct Transformer blocks - one for spatial attention and the other for temporal attention, which improves the temporal coherence but results in lower frame quality. SnapVideo uses joint spatiotemporal attention, producing the least favorable results by generating static videoswith blurry images. Regarding text guidance, the best results were achieved when the text was integrated during spatial attention. Conversely, adding the text at the temporal dimension decreased the overall quality of the generated video.The results highlight the importance of carefully considering how spatial, temporal, and textual information are integrated to produce high-quality video generation
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers