Raguz, B. (2025). Adaptive foreign exchange hedging strategies using deep reinforcement learning [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2025.121287
E194 - Institut für Information Systems Engineering
-
Date (published):
2025
-
Number of Pages:
48
-
Keywords:
Deep reinforcement learning; foreign exchange; hedging
en
Abstract:
This thesis investigates the use of deep reinforcement learning (DRL) for managing foreign exchange (FX) risk by comparing two DRL algorithms—Double Deep Q-Network (DDQN) and Proximal Policy Optimization (PPO)—against traditional technical benchmarks, Relative Strength Index (RSI) and Moving Average Crossover (MAC). We develop a realistic environment that incorporates interest-rate differentials and dynamic transaction costs (spreads, commissions, slippage) into the reward function. Each strategy is evaluated on USD/CHF data from 1980–2024 using metrics such as total and annualized return, Sharpe ratio, maximum drawdown, volatility, and beta. Results show that PPO delivers the strongest performance—achieving the highest returns (14.96% total, 4.76% p.a.), best risk-adjusted metrics (Sharpe 0.20) and controlled drawdowns—while MAC offers a simple, cost-efficient alternative with competitive returns (12.23% total, 3.92% p.a.). RSI proves overly conservative and DDQN exhibits excessive volatility. However, despite these strong results, the DRL agents were unable to maintain positions for extended periods and executed too many transactions—an outcome that is undesirable for FX hedging and must be addressed in future work.
en
Diese Arbeit untersucht den Einsatz von Deep Reinforcement Learning (DRL) zur Steuerung von Devisenrisiken, indem zwei DRL - Algorithmen – Double Deep Q - Network(DDQN) und Proximal Policy Optimization (PPO) – mit traditionellen technischen Benchmark - Strategien, Relative - Strength - Index (RSI) und Moving- Average - Crossover(MAC), verglichen werden. Wir entwickeln eine realistische Umgebung, in der Zinsdifferenziale und dynamische Transaktionskosten (Spreads, Kommissionen, Slippage) in die Reward - Funktion integriert sind. Jede Strategie wird auf USD/CHF - Daten von 1980 bis2024 anhand von Kennzahlen wie Gesamtrendite, annualisierte Rendite, Sharpe - Ratio, maximaler Drawdown, Volatilität und Beta bewertet. Die Ergebnisse zeigen, dass PPO die beste Performance liefert – mit den höchsten Renditen (14,96% gesamt, 4,76% p.a.),den besten risikoadjustierten Kennzahlen (Sharpe 0,20) und kontrollierten Drawdowns– während MAC als einfache, kosteneffiziente Alternative wettbewerbsfähige Renditenerzielt (12,23% gesamt, 3,92% p.a.). RSI erweist sich als zu konservativ und DDQN zeigt übermäßige Volatilität. Trotz dieser starken Ergebnisse konnten die DRL - Agenten jedoch keine Positionen über längere Zeit halten und führten zu viele Transaktionen aus– ein Ergebnis, das für FX- Hedging unerwünscht ist und in künftigen Arbeiten behoben werden muss.