Control of pulsed lasers with high repetition rate using reinforcement learning

Schimkowitsch, Bernhard

doi:10.34726/hss.2024.111815

Record link:

https://doi.org/10.34726/hss.2024.111815
http://hdl.handle.net/20.500.12708/201288

Title:

Control of pulsed lasers with high repetition rate using reinforcement learning

Citation:

Schimkowitsch, B. (2024). Control of pulsed lasers with high repetition rate using reinforcement learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.111815

reposiTUm DOI:

10.34726/hss.2024.111815

CatalogPlus:

AC17321584

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Schimkowitsch, Bernhard

Advisor:

Kugi, Andreas

Co-advisor:

Tarra, Lukas

Organisational Unit:

E376 - Institut für Automatisierungs- und Regelungstechnik

Date (published):

2024

Number of Pages:

Keywords:

Aktiv gütegeschalteter Laser; Reinforcement Learning; Rückkopplungsregelung; regenerativer Verstärker; Bifurkationsunterdrückung

Actively Q-switched laser; reinforcement learning; feedback control; regenerative amplifier; bifurcation suppression

Abstract:

This thesis investigates the stabilization of the dynamics of two pulsed laser system classes around a desired set-point using reinforcement learning. Specifically, these two systems include a regenerative amplifier and laser pulses generated with cavity dumping.Given the constraint of computation time, tabular-based reinforcement learning algorithms are selected. The linear-quadratic regulator problem serves as the basis for the reward function. The state space is partitioned into a finite number of states, with a higher density of points around the desired set-point.Q-value iteration, a model-based reinforcement learning algorithm, as well as Monte Carlo Control, SARSA, and Q-learning, all model-free algorithms, are examined. Simulations show that Monte Carlo Control takes a very long time to learn an optimal policy. In contrast, SARSA and Q-learning learn much faster and achieve better performance in the closed-loop system, with Q-learning exhibiting the best overall performance, as measured by the variances of the output and input quantities of the plant.Additionally, the influence of hyperparameters on the resulting control law is analyzed. In all cases, off-policy methods yield better performance compared to on-policy algorithms, indicating that off-policy methods might be better suited for stabilizing a desired set-point.To benchmark the reinforcement learning approach, the controllers are compared to an adaptive nonlinear controller, which is based on a first-principles model and thus requires a priori system knowledge. Compared to this controller, the reinforcement learning algorithms need more samples to update the policy to unknown or drifting model parameters. Moreover, control laws obtained by reinforcement learning algorithms can handle small model-plant mismatches, whereas adaptive control laws are able to cope with larger deviations from the nominal model. However, reinforcement learning algorithms are able to stabilize the nominal set-point without any prior system knowledge.

Diese Arbeit untersucht die Stabilisierung der Dynamik von zwei Klassen gepulster Lasersysteme um einen gewünschten Arbeitspunkt mit Hilfe von Reinforcement Learning. Die beiden Systeme umfassen einen regenerativen Verstärker und ein System, das Pulse mittels Cavity Dumping erzeugt. Aufgrund der begrenzten Rechenzeit bieten sich tabellenbasierte Reinforcement-Learning-Algorithmen für das bestehende Problem an. Das linear-quadratische Regelungsproblem dient als Grundlage für die Belohnungsfunktion. Um tabellenbasierte Algorithmen anzuwenden, muss der Zustandsraum in eine endliche Anzahl von Zuständen unterteilt werden, die eine höhere Dichte an Punkten um den gewünschten Arbeitspunkt aufweisen.Q-value Iteration, ein modellbasierter Algorithmus, sowie Monte Carlo Control, SARSA und Q-learning, allesamt modellfreie Algorithmen, werden untersucht. Simulationen zeigen, dass Monte Carlo Control sehr lange benötigt, um eine optimale Strategie zu erlernen. Im Gegensatz dazu lernen SARSA und Q-learning viel schneller. Q-learning erreicht dabei die beste Leistungsfähigkeit, gemessen an der Varianz der Eingangs- und Ausgangsgrößen der Regelstrecke im geschlossenen Regelkreis.Darüber hinaus wird der Einfluss von Hyperparametern auf das gelernte Regelgesetz analysiert. In allen untersuchten Fällen weisen Off-Policy-Methoden ein besseres Ergebnis auf als On-Policy-Methoden, was darauf hindeutet, dass Erstere besser für die Stabilisierung des Arbeitspunkts geeignet sind.Um die gelernten Regelgesetze zu bewerten, werden diese mit einem adaptiven nichtlinearen Regler verglichen, welcher auf grundlegendem Modellwissen basiert und daher eine vorherige Kenntnis des Systems erfordert. Im Vergleich zu diesem Regler benötigen Regler basierend auf Reinforcement Learning länger, um ihr Regelgesetz an sich verändernde Parameter der Strecke anzupassen. Des Weiteren können Regelgesetze basierend auf Reinforcement Learning mit kleinen Abweichungen zwischen Modell und Regelstrecke umgehen. Adaptive Regelgesetze eignen sich auch für größere Modellabweichungen. Dennoch sind die Algorithmen basierend auf Reinforcement Learning in der Lage, den nominalen Arbeitspunkt ohne vorher bekannte Systeminformation zu stabilisieren.

License:

In Copyright

Appears in Collections:

Thesis