Zebenholzer, M. (2024). Training of Reinforcement Learning Algorithms for Increased Flexibility in Pumped Storage Power Plants [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.110806
Energy Systems; Reinforcement Learning; Digital twin
en
Abstract:
Der Klimawandel erfordert einen Umstieg auf erneuerbare Energien, vor allem durch den Ausbau der Stromerzeugung, der Netzinfrastruktur und der Speichermöglichkeiten.Pumpspeicherkraftwerke eignen sich hierfür und sollen in dieser Arbeit mit Methoden des Reinforcement Learning (RL), einer Form des maschinellen Lernens,untersucht werden. Im Speziellen soll der Ausblasvorgang des Wassers im Turbinengehäuse mittels Druckluft untersucht werden. Dies tritt beim Wechsel zwischenTurbinen- und Pumpenbetrieb auf, wobei das Anfahrmoment und die elektrische Leistung begrenzt werden soll. Außerdem muss im Phasenschieberbetrieb ausgeblasen werden.Um ein Regelgesetz zu erzeugen, wird das Pumpturbinenmodell in eine Simulationsumgebung eingebettet. Der RL Algorithmus erlernt durch oftmalige Interaktion miteinem Modell, Trial and Error, ein optimales Regelschema. Moderne Algorithmen bauen auf neuronalen Netzen (NN) als universiellen Funktionsapproximatoren, auch Deep Reinforcement Learning (DRL) genannt, auf.Ziel der Arbeit ist es, RL Algorithmen systematisch auf ihre Leistungsfähigkeit zu vergleichen. Zu diesem Zweck werden neuronale Netzarchitekturen zur Problembeschreibung entworfen und in einer Studie miteinander verglichen. Weiters wird der Einfluss von Hyperparametern auf ein robustes und schnell konvergierendes Trainingsverhalten analysiert.Es kann gezeigt werden, dass RL den Ausblasprozess mit diskreten oder kontinuierlichen Stellgrößen regeln kann. Außerdem wird gezeigt, dass diese das gleiche optimale Verhalten aufweisen, wie durch konventionelle Regler (Hysterese und PID) definiert und in einem kurzen Trainingsprozess erreicht werden. Die entworfenen neuronalen Netze können das Problem vollständig abbilden, wobei eine minimale Anzahl von Neuronen pro Schicht oder erlernbare Parameter in Abhängigkeit vonden Trainingsparametern erforderlich sind. Aus der Hyperparameter-Studie folgt,dass es (Kombinationen von) Lernraten gibt, bei denen das Optimum erreicht wird bzw. bei denen ein bestimmter Wert am schnellsten erlernt wird. Weiters konnten Abhängigkeiten der Einflussgrößen auf das Training aufgezeigt werden.Daraus lässt sich schließen, dass das Konzept des Reinforcement Learning anwendbar ist, um Regelungsprobleme zufriedenstellend zu lösen. Dies erfordert einen systematischenAnsatz zur Auswahl der passenden Architekur des neuronalen Netzes und der richtigen Wahl der Hyperparameter für ein konvergentes Training.
de
Climate change requires converting the energy supply to renewables, notably by expanding electricity generation, grid infrastructure, and storage options. Pumpedstorage power plants are suitable for this and will be investigated in this thesisusing methods of Reinforcement Learning (RL), a form of machine learning. Inparticular, blowing out the water in the turbine housing using compressed air will be investigated. This occurs when switching between turbine and pump operation,limiting the starting torque and the electrical power. In addition, blow-out is necessary for phase shift operation.To generate a control law, the pump-turbine model is embedded in a simulation environment where the RL algorithm learns an optimal control scheme through interaction with it. Modern algorithms are based on neural networks (NN) as universal function approximators, also known as Deep Reinforcement Learning (DRL).The thesis aims to compare RL algorithms with regard to their performance systematically.For this purpose, neural network architectures are designed and compared with each other in a study. In addition, the influence of hyper parameters on robustand fast convergent training behavior is analyzed.It can be shown that RL is able to control the blow-out process with discrete and continuous actuating variables. Furthermore, it can be seen that these have the same optimal behavior as defined by conventional controllers (hysteresis and PID)and are achieved in a short training process. The designed neural networks can fully represent the problem, requiring a minimum number of neurons per layer or learnable parameters depending on the training parameters. According to the hyperparameterstudy, it follows that there are (combinations of) learning rates where the optimum is reached or where a predefined value is learned fastest. In addition, dependencies of the influencing variables on training behavior were identified.It can be concluded that the Reinforcement Learning concept is appropriate for handling control problems satisfactorily. This requires a systematic approach to selecting the proper neural network structure and the right choice of hyperparameters for convergent training.
en
Additional information:
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers