Eder, M. (2024). Data-driven methods for climate change modelling in hydrology : use case for deep learning in rainfall-runoff simulation [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.113024
Der Klimawandel hat neue Herausforderungen für die hydrologische Modellierung mit sich gebracht, da extreme Ereignisse wie Überschwemmungen, Dürren oder Hitzewellen immer häufiger auftreten. Dadurch wird die Robustheit herkömmlicher, prozessbasierter hydrologischer Modelle in Frage gestellt. Insbesondere die Niederschlags-Abfluss-Simulation ist ein zentraler Anwendungsfall für Modelle, die das Abflussverhalten bei Niederschlagsereignissen in einem Wassereinzugsgebiet erklären sollen. Diese Arbeit evaluiert und vergleicht die Robustheit und Genauigkeit eines modernen datengesteuerten Deep Learning (DL)-Ansatzes im Bereich der Large-Sample-Hydrologie (LSH), wo sein Aufkommen zu einer Neudefinition der Anforderungen geführt hat, und demonstriert seine Fähigkeit, verborgene Beziehungen in komplexen hydrologischen Prozessen aufzudecken. Gängige LSH-Datensätze werden verglichen, der Datensatz LamaH-CE, der 479 Einzugsgebiete in Mitteleuropa abdeckt, wird analysiert, und es werden Schritte zum Pre-Processing der Daten eingesetzt, um domänenspezifische Probleme zu behandeln, wie z.B. die Imputation fehlender Stromabflussdaten und die Erfassung von Anomalien. Eine Trendanalyse zeigt einen allgemeinen Erwärmungstrend von T + 1, 53°C während des 39-jährigen Untersuchungszeitraums.In dieser Arbeit werden drei Arten von Modellen verglichen: das konzeptionelle prozessgesteuerte Modell HBVEdu, das gradientenbasierte Machine-Learning-Modell XGBoost und das moderne Deep-Learning-Modell EA-LSTM. Um die Robustheit der Modelle unter wechselnden Klimabedingungen zu bewerten, wird ein Differential-Split-Sample-Test-Ansatz angewandt. Dabei werden vier Referenzzeiträume eingesetzt, die extreme Temperatur- und Niederschlagsschwankungen repräsentieren, sowie ein längerer Bezugszeitraum zum Vergleich mit konventionellen Datensplitting-Verfahren.Das DL-Modell übertrifft sowohl die prozessgesteuerten als auch die ML-Modelle in allen klimatischen Referenzperioden und im Bezugszeitraum deutlich. Das EA-LSTM-Modell zeigt eine kompetitive und robuste Leistung mit einem durchschnittlichen NSE von 0,73486. Im Vergleich dazu übertrifft das XGBoost-Modell das physikalisch basierte HBVEdu-Modell mit einem mittleren NSE von 0,56306 bzw. 0,48528. Eine Analyse des ML-Modells zeigt jedoch, dass es empfindlich auf Schwankungen in den Daten reagiert. Bemerkenswert ist, dass es keinen signifikanten Unterschied in der Modellleistung zwischen den klimatischen Referenzperioden und der Basisperiode gibt. Dies deutet darauf hin,dass Modelle, die für kurze Zeiträume mit extremen klimatischen Bedingungen trainiert wurden, nicht schlechter abschneiden als solche, die für lange Zeiträume ohne solche Bedingungen trainiert wurden, in denen die Daten willkürlich aufgeteilt wurden. Darüber hinaus wurde kein signifikanter Unterschied bei der Imputation von Daten mit Random-Forest-Regressionsmodellen im Vergleich zur Verwendung des einzugsgebietsspezifischen Medianwerts festgestellt.
de
Climate change has introduced new challenges to the domain of hydrological modelling due to the increasing frequency of extreme events, such as floods, droughts or heatwaves. Thus, the robustness of traditional, process-based hydrology models is called into question. Rainfall-runoff in particular is a key application of hydrological models aiming to explain the discharge response to precipitation events in a watershed. This thesis evaluates and compares the robustness and accuracy of a state-of-the-art data-driven Deep Learning (DL) approach in the field of Large-Sample Hydrology (LSH), where its emergence has led to a redefinition of requirements, and demonstrates its power to uncover hidden relationships in complex hydrological processes. Prevalent LSH datasets are compared, the LamaH-CE dataset covering 479 catchments in Central Europe is analysed thoroughly, and theory-guided pre-processing steps are employed to address domain-specific issues, such as imputation of missing streamflow records and anomaly detection. A trend analysis highlights an overall warming trend of T + 1.53°C over the 39-year study period. Three types of models are compared in this work: the conceptual process-driven model HBVEdu, the gradient-based Machine Learning model XGBoost, and the state-of-the-art Deep Learning model EA-LSTM. To evaluate the robustness of models under transient climatic conditions, a differential split-sample testing approach is employed. This involves four reference periods that represent extreme temperature and precipitation variations, as well as a longer baseline period for comparison to conventional data splitting methods. The DL model significantly outperforms both the process-driven and ML models in all climatic reference periods and the baseline. The EA-LSTM model demonstrates competitive and robust performance with a mean NSE of 0.73486. In comparison, the XGBoost model outperforms the physics-driven HBVEdu model with a mean NSE of 0.56306 and 0.48528, respectively. However, an assessment of the ML model reveals that it is strongly underfitting and sensitive to fluctuations and noise in the data. Notably, there is no significant difference in model performance between the climatic reference periods and the baseline period. This suggests that models trained on short periods with extreme climatic conditions do not perform worse than those trained on long periods without such conditions, where the data is arbitrarily split. Furthermore, there is no significant difference observed when imputing data with Random Forest regression models compared to using the catchment-specific median value.