Caka, R. (2026). Generation of Synthetic Smart Meter Data: A Comparison of GAN Architectures [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2026.140525
Generative Adversarial Networks; Synthetic Data Generation; Smart Meter Data; Time Series Generation; TimeGAN; Wasserstein GAN; Physics-Informed Machine Learning
en
Abstract:
Hochauflösende Smart-Meter-Daten sind für die Optimierung moderner Stromnetze unerlässlich, ihre Verfügbarkeit wird jedoch durch Datenschutzbestimmungen und kommerzielle Sensibilität stark eingeschränkt. Die Generierung synthetischer Daten bietet eine datenschutzkonforme Alternative, vorausgesetzt, sie gewährleistet hohe statistische Genauigkeit und die Einhaltung physikalischer Gesetze. In dieser Arbeit wird die Wirksamkeit von Generative Adversarial Networks (GANs) zur Synthese von Haushaltsstromverbrauchsdaten in einminütiger Auflösung evaluiert, ausgehend von Basisarchitekturen bis hin zu einer neuartigen, domänenspezifischen Lösung. Dabei werden drei Modellfamilien systematisch verglichen: Standard-GANs, die Wasserstein-Variante mit Gradient Penalty (WGAN-GP) sowie eine rekurrente TimeGAN Architektur, wobei jede Stufe durch die konkreten Schwächen der vorherigen motiviert wird. Im Rahmen der Studie wurden zunächst Standard-GANs und Wasserstein-GANs mit Gradient Penalty (WGAN-GP) untersucht. Während durch WGAN-GP die Randverteilungen effektiv reproduziert werden konnten, gelang die Erfassung der für Zeitreihenanalysen erforderlichen komplexen zeitlichen Abhängigkeiten nicht. Um dies zu beheben, wurde die TimeGAN-Architektur adaptiert und deren Einschränkungen hinsichtlich langfristiger Saisonalität und physikalischer Konsistenz wurden überwunden. Der Hauptbeitrag dieser Arbeit liegt in der Entwicklung eines physikalisch beschränkten, saisonal konditionierten TimeGAN. Diese neuartige Architektur umfasst drei wesentliche Erweiterungen: (1) explizite Konditionierung durch gelernte Monatseinbettungen und Amplitudenskalare zur Vermeidung von „Mode Collapse" bei saisonalen Schwankungen; (2) eine physikinformierte Verlustfunktion, die den elektrischen Zusammenhang zwischen Wirkleistung, Spannung und Stromstärke erzwingt (P ≈ V ·I); und (3) eine Trainingsstrategie mit überlappenden Zeitfenstern zur Verbesserung der Übergangsdynamik. Durch die experimentellen Ergebnisse wird gezeigt, dass die Basisansätze von dem vorgeschlagenen Modell deutlich übertroffen werden. Mit der optimalen Konfiguration, unter Verwendung einer Sequenzlänge von 240 und einer Schrittweite von 60, wurde eine 1-Wasserstein-Distanz von 0,073 sowie ein minimaler mittlerer physikalischer Fehler von 0,020 kW erreicht, was sowohl die verteilungsbezogene als auch die physikalische Genauigkeit bestätigt. Darüber hinaus werden komplexe zeitliche Muster, einschließlich saisonaler Grundlinien und täglicher Lastprofile (z. B. Morgen- und Abendspitzen), erfolgreich reproduziert. Diese Ergebnisse bestätigen, dass die Integration von Domänenwissen und physikalischen Randbedingungen in generative Modelle entscheidend für die Erzeugung realistischer synthetischer Smart-Meter-Daten ist.
de
High-resolution smart meter data underpins nearly every modern effort to optimize power grids, yet in practice it is rarely available. Privacy regulations and commercial sensitivity mean that researchers and utilities often work with datasets that are too coarse, too short, or simply inaccessible. Synthetic data generation is one way around this, but only if the generated data is realistic enough to be useful. This thesis investigates whether Generative Adversarial Networks can fill that gap for one-minute resolution household power consumption data. Three model families are compared: standard GANs, the Wasserstein variant with Gradient Penalty (WGAN-GP), and a recurrent TimeGAN-style architecture, with each stage motivated by the concrete failures of the previous one. Standard GANs proved too unstable. The Wasserstein variant with Gradient Penalty (WGAN-GP) produced reasonable marginal distributions but generated samples with no meaningful temporal structure, which is a fundamental problem for time-series applications. The main contribution is a Physically-Constrained, Seasonally-Conditioned TimeGAN, developed to address these shortcomings directly. Rather than conditioning on time in a generic way, the model uses learned month embeddings and amplitude scalars to handle seasonal variation, a specific response to the mode collapse observed in earlier experiments. A physics-informed loss term enforces the relationship P ≈ V ·I, grounding the synthetic output in electrical reality. Training on overlapping windows further improved how the model handles transitions between sequences. The best configuration (sequence length 240, stride 60) achieves a 1-Wasserstein distance of 0.073 and a mean physical error of 0.020 kW — below the noise floor of the real dataset itself. Morning and evening peaks, seasonal baselines, and high-frequency load variation are all reproduced with reasonable fidelity. The results suggest that for generative models applied to physical systems at this scale and resolution, domain knowledge provides essential regularisation that the adversarial objective alone was insufficient to recover from the available training data.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers